このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240604となっている論文です。

PDF登録状況(公開日: 20240604)

TitleAuthorsAbstract論文公表日・翻訳日
# OpenDataLab: オープンデータセットによる汎用人工知能の強化

OpenDataLab: Empowering General Artificial Intelligence with Open Datasets ( http://arxiv.org/abs/2407.13773v1 )

ライセンス: Link先を確認
Conghui He, Wei Li, Zhenjiang Jin, Chao Xu, Bin Wang, Dahua Lin, (参考訳) 人工知能(AI)の進歩は、データの品質とアクセシビリティに依存しているが、現在のデータソースの断片化と可変性は、効率的なデータ利用を妨げる。 データソースの分散とデータフォーマットの多様性は、しばしばデータ検索と処理の非効率性をもたらし、AI研究と応用の進歩を著しく阻害する。 これらの課題に対処するために,多種多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。 OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。 このプラットフォームは、マルチモーダルデータとマルチフォーマットデータの表現を標準化し、相互運用性と再利用性を向上させる、次世代AIデータセット記述言語(DSDL)を採用している。 さらに、OpenDataLabはDSDLを補完するツールを通じてデータ処理を最適化する。 統一されたデータ記述とスマートデータツールチェーンにデータを統合することで、OpenDataLabはデータ準備効率を30倍改善できる。 我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。 詳細については、プラットフォームの公式Webサイト(https://opendatalab.com.com)を参照してほしい。

The advancement of artificial intelligence (AI) hinges on the quality and accessibility of data, yet the current fragmentation and variability of data sources hinder efficient data utilization. The dispersion of data sources and diversity of data formats often lead to inefficiencies in data retrieval and processing, significantly impeding the progress of AI research and applications. To address these challenges, this paper introduces OpenDataLab, a platform designed to bridge the gap between diverse data sources and the need for unified data processing. OpenDataLab integrates a wide range of open-source AI datasets and enhances data acquisition efficiency through intelligent querying and high-speed downloading services. The platform employs a next-generation AI Data Set Description Language (DSDL), which standardizes the representation of multimodal and multi-format data, improving interoperability and reusability. Additionally, OpenDataLab optimizes data processing through tools that complement DSDL. By integrating data with unified data descriptions and smart data toolchains, OpenDataLab can improve data preparation efficiency by 30\%. We anticipate that OpenDataLab will significantly boost artificial general intelligence (AGI) research and facilitate advancements in related AI fields. For more detailed information, please visit the platform's official website: https://opendatalab.com.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-04
# 世界規模のAIコースの比較分析ビジョン

Comparative Analysis Vision of Worldwide AI Courses ( http://arxiv.org/abs/2407.16881v1 )

ライセンス: Link先を確認
Jianing Xia, Man Li, Jianxin Li, (参考訳) 本研究では,世界中の大学を対象とした学部人工知能(AI)教育のカリキュラム構造について検討する。 主要な大学のカリキュラムを調べることで、この研究は世界規模でのAI教育のより深い理解に貢献し、AIランドスケープの進化するニーズと教育実践の整合性を促進することを目指している。 この研究は、先進大学の多様なコース構造を掘り下げ、現代のトレンドと優先順位を探求し、AI教育における曖昧なアプローチを明らかにする。 また、コアAIトピックと、頻繁に教えられる学習内容について、CS2023のカリキュラムガイダンスと比較し、収束と分散を識別する。 さらに、異なる国の大学がAI教育にどのようにアプローチし、教育目的、優先事項、潜在的なキャリア、そして方法論を分析し、AI教育のグローバルな景観と意味を理解するかを検討する。

This research investigates the curriculum structures of undergraduate Artificial Intelligence (AI) education across universities worldwide. By examining the curricula of leading universities, the research seeks to contribute to a deeper understanding of AI education on a global scale, facilitating the alignment of educational practices with the evolving needs of the AI landscape. This research delves into the diverse course structures of leading universities, exploring contemporary trends and priorities to reveal the nuanced approaches in AI education. It also investigates the core AI topics and learning contents frequently taught, comparing them with the CS2023 curriculum guidance to identify convergence and divergence. Additionally, it examines how universities across different countries approach AI education, analyzing educational objectives, priorities, potential careers, and methodologies to understand the global landscape and implications of AI pedagogy.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-04
# 応答性AIのための標準化された機械可読データセットドキュメンテーションフォーマット

A Standardized Machine-readable Dataset Documentation Format for Responsible AI ( http://arxiv.org/abs/2407.16883v1 )

ライセンス: Link先を確認
Nitisha Jain, Mubashara Akhtar, Joan Giner-Miguelez, Rajat Shinde, Joaquin Vanschoren, Steffen Vogler, Sujata Goswami, Yuhan Rao, Tim Santos, Luis Oala, Michalis Karamousadakis, Manil Maskey, Pierre Marcenac, Costanza Conforti, Michael Kuchnik, Lora Aroyo, Omar Benjelloun, Elena Simperl, (参考訳) データはAI技術の進歩に不可欠だが、その品質とドキュメントは依然として重大な課題であり、AIアプリケーションにおける下流効果(潜在的なバイアス)に繋がる。 本稿では,AIデータセットの発見性,相互運用性,信頼性を高めるために設計された,機械可読なメタデータフォーマットであるCroissant-RAIを導入することで,これらの問題に対処する。 Croissant-RAIは、Croissantメタデータフォーマットを拡張し、既存の責任あるAI(RAI)ドキュメンテーションフレームワークの上に構築する。 Schema.orgなどの確立したWebパブリッシングプラクティスを活用することで、データセットの公開するプラットフォームに関係なく、データセットユーザがRAIメタデータを容易に見つけて利用できるようになる。 さらに、主要なデータ検索エンジン、リポジトリ、マシンラーニングフレームワークにシームレスに統合され、実践者の既存のワークフロー内で責任あるAIメタデータの読み書きを合理化する。 Croissant-RAIはコミュニティ主導の取り組みによって開発された。 ドキュメント要件の進化に合わせて設計されており、Pythonライブラリとビジュアルエディタでサポートされている。

Data is critical to advancing AI technologies, yet its quality and documentation remain significant challenges, leading to adverse downstream effects (e.g., potential biases) in AI applications. This paper addresses these issues by introducing Croissant-RAI, a machine-readable metadata format designed to enhance the discoverability, interoperability, and trustworthiness of AI datasets. Croissant-RAI extends the Croissant metadata format and builds upon existing responsible AI (RAI) documentation frameworks, offering a standardized set of attributes and practices to facilitate community-wide adoption. Leveraging established web-publishing practices, such as Schema.org, Croissant-RAI enables dataset users to easily find and utilize RAI metadata regardless of the platform on which the datasets are published. Furthermore, it is seamlessly integrated into major data search engines, repositories, and machine learning frameworks, streamlining the reading and writing of responsible AI metadata within practitioners' existing workflows. Croissant-RAI was developed through a community-led effort. It has been designed to be adaptable to evolving documentation requirements and is supported by a Python library and a visual editor.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-04
# 学習型Wi-Fiフィンガープリントインペインティング

Learning-Based WiFi Fingerprint Inpainting via Generative Adversarial Networks ( http://arxiv.org/abs/2407.18915v1 )

ライセンス: Link先を確認
Yu Chan, Pin-Yu Lin, Yu-Yun Tseng, Jen-Jee Chen, Yu-Chee Tseng, (参考訳) WiFiによる屋内位置決めは広く研究されている。 このようなソリューションの根本的な問題は、WiFi指紋の収集である。 しかし、現実世界の制約により、あらゆる所で完全な指紋の収集は禁止されることがある。 本研究はWiFi指紋の塗布問題について考察する。 この問題は、いくつかの面で典型的な画像/ビデオの塗装問題とは異なる。 RGB画像とは異なり、WiFiフィールドマップは任意の形状になり、信号データは特定の分布に従う可能性がある。 したがって、RGBフォーマットでの画像処理のように、それらを固定次元行列に強制的に適合させることは困難である。 マップが変更されるとすぐに、スケールの問題のために同じモデルに適応することが難しくなります。 さらに、このようなモデルは外向きの塗装を必要とする状況では著しく制約される。 幸いなことに、WiFi信号とチャネル間で提供される豊富な情報との空間的関係は、この生成モデルが塗装を行うための十分な機会を提供する。 そこで我々は, 任意の形状の指紋を生成する際に, 回帰モデルの特徴を保持するだけでなく, 密着したAPの観察結果に対応するように設計した。 この作品は2つの大きな貢献をしている。 まず、この問題と画像の塗り絵の区別を明確にし、研究の潜在的な道のりを浮き彫りにする。 第2に,潜伏情報を保持しつつ,AP間相関とAP内相関を捉えることを目的とした,新規なインパインティングモデルを提案する。 さらに,評価結果の質を高めるために,特別に設計された対数判別器を組み込んだ。

WiFi-based indoor positioning has been extensively studied. A fundamental issue in such solutions is the collection of WiFi fingerprints. However, due to real-world constraints, collecting complete fingerprints at all intended locations is sometimes prohibited. This work considers the WiFi fingerprint inpainting problem. This problem differs from typical image/video inpainting problems in several aspects. Unlike RGB images, WiFi field maps come in any shape, and signal data may follow certain distributions. Therefore, it is difficult to forcefully fit them into a fixed-dimensional matrix, as done with processing images in RGB format. As soon as a map is changed, it also becomes difficult to adapt it to the same model due to scale issues. Furthermore, such models are significantly constrained in situations requiring outward inpainting. Fortunately, the spatial relationships of WiFi signals and the rich information provided among channels offer ample opportunities for this generative model to accomplish inpainting. Therefore, we designed this model to not only retain the characteristic of regression models in generating fingerprints of arbitrary shapes but also to accommodate the observational outcomes from densely deployed APs. This work makes two major contributions. Firstly, we delineate the distinctions between this problem and image inpainting, highlighting potential avenues for research. Secondly, we introduce novel generative inpainting models aimed at capturing both inter-AP and intra-AP correlations while preserving latent information. Additionally, we incorporate a specially designed adversarial discriminator to enhance the quality of inpainting outcomes.
翻訳日:2024-08-05 01:25:56 公開日:2024-06-04
# k空間情報を用いたMRI前立腺画像の腫瘍確率推定

Tumor likelihood estimation on MRI prostate data by utilizing k-Space information ( http://arxiv.org/abs/2407.06165v1 )

ライセンス: Link先を確認
M. Rempe, F. Hörst, C. Seibold, B. Hadaschik, M. Schlimbach, J. Egger, K. Kröninger, F. Breuer, M. Blaimer, J. Kleesiek, (参考訳) そこで本稿では,k-Spaceの複雑な情報を利用したMRI(MRI)の分類のための,新しい前処理と予測パイプラインを提案する。 312の被験者と9508のスライスを持つMRIの生データセットを用いて、画像領域の陰影情報のみを用いた場合と比較して、k-Spaceを用いて前立腺癌推定を改善する利点を示し、AUROCは8,6.1\%\pm1.8\%$である。 さらに,コイル圧縮に高アンサンプリング率と簡単な主成分分析(PCA)を用いることで,時間集中型GRAPPA再構成アルゴリズムを回避して再構成に必要な時間を短縮する。 本実験では,デジタルアンダーサンプリングを用いて,走査時間と復元時間を短縮できることを示した。 アンダーサンプリング係数が16であっても,PCAコイルの組み合わせを用いてk空間情報を考慮し,AUROCが71.4\%\pm2.9\%$で有意義な結果が得られる。 そこで本研究では,保存相とk空間情報の実現可能性について一貫した結果を得た。 さらなる診断に有用な情報を保存することに加えて、この手法は、時間を要するADCと再構成計算を使わずに機能し、ポスト処理を大幅に削減し、スキャン時間を大幅に短縮し、患者の快適さを高め、リアルタイムに近い予測を可能にする。

We present a novel preprocessing and prediction pipeline for the classification of magnetic resonance imaging (MRI) that takes advantage of the information rich complex valued k-Space. Using a publicly available MRI raw dataset with 312 subject and a total of 9508 slices, we show the advantage of utilizing the k-Space for better prostate cancer likelihood estimation in comparison to just using the magnitudinal information in the image domain, with an AUROC of $86.1\%\pm1.8\%$. Additionally, by using high undersampling rates and a simple principal component analysis (PCA) for coil compression, we reduce the time needed for reconstruction by avoiding the time intensive GRAPPA reconstruction algorithm. By using digital undersampling for our experiments, we show that scanning and reconstruction time could be reduced. Even with an undersampling factor of 16, our approach achieves meaningful results, with an AUROC of $71.4\%\pm2.9\%$, using the PCA coil combination and taking into account the k-Space information. With this study, we were able to show the feasibility of preserving phase and k-Space information, with consistent results. Besides preserving valuable information for further diagnostics, this approach can work without the time intensive ADC and reconstruction calculations, greatly reducing the post processing, as well as potential scanning time, increasing patient comfort and allowing a close to real-time prediction.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-04
# コンフォーマルによるセルラーネットワーク接続品質の学習

Learning Cellular Network Connection Quality with Conformal ( http://arxiv.org/abs/2407.10976v1 )

ライセンス: Link先を確認
Hanyang Jiang, Elizabeth Belding, Ellen Zegure, Yao Xie, (参考訳) 本稿では,セルネットワーク速度の不確実性定量化の問題に対処する。 携帯電話が経験した実際のインターネット速度が、たとえ1つの場所に留まったとしても、著しく変動するという事実はよく知られている。 この高い変動性は、単にネットワーク速度の点推定が不十分であることを示す。 むしろ、予想される速度変化の範囲を包含できる予測間隔を確立することが有利である。 正確なネットワーク推定マップを構築するには、異なる場所で多数のモバイルデータを収集する必要がある。 現在、公開データセットはユーザーがアプリを通じてデータをアップロードすることに依存している。 大量のデータが収集されているが、これらのデータセットは、セルラーネットワークの性質やその他の様々な要因により、大きなノイズに悩まされている。 さらに、人口密度の不均一分布は、データ収集の空間的一貫性に影響を与え、このデータから導かれるネットワーク品質マップにかなりの不確実性をもたらす。 我々は,Ooklaが提供する大規模インターネット品質データセットに着目し,接続品質の推定マップを構築する。 このマップの信頼性を向上させるために,不確実性マップを構築するための新しい共形予測手法を提案する。 我々は、目標とする手動データ収集を優先するために、不確実性の高い地域を特定する。 さらに、不確実性マップは、異なる領域における予測の信頼性を定量化する。 また,提案手法は,現在のデータセットを最もよく補完する高品質なデータを研究者が選択的に収集し,予測モデルの全体的な精度を向上させるためのサンプリング戦略にもつながる。

In this paper, we address the problem of uncertainty quantification for cellular network speed. It is a well-known fact that the actual internet speed experienced by a mobile phone can fluctuate significantly, even when remaining in a single location. This high degree of variability underscores that mere point estimation of network speed is insufficient. Rather, it is advantageous to establish a prediction interval that can encompass the expected range of speed variations. In order to build an accurate network estimation map, numerous mobile data need to be collected at different locations. Currently, public datasets rely on users to upload data through apps. Although massive data has been collected, the datasets suffer from significant noise due to the nature of cellular networks and various other factors. Additionally, the uneven distribution of population density affects the spatial consistency of data collection, leading to substantial uncertainty in the network quality maps derived from this data. We focus our analysis on large-scale internet-quality datasets provided by Ookla to construct an estimated map of connection quality. To improve the reliability of this map, we introduce a novel conformal prediction technique to build an uncertainty map. We identify regions with heightened uncertainty to prioritize targeted, manual data collection. In addition, the uncertainty map quantifies how reliable the prediction is in different areas. Our method also leads to a sampling strategy that guides researchers to selectively gather high-quality data that best complement the current dataset to improve the overall accuracy of the prediction model.
翻訳日:2024-07-22 12:49:16 公開日:2024-06-04
#

Mimetic Poet ( http://arxiv.org/abs/2407.11984v1 )

ライセンス: Link先を確認
Jon McCormack, Elliott Wilson, Nina Rajcic, Maria Teresa Llano, (参考訳) 本稿では,創造的思考,インスピレーション,反射的思考を促進するために生成AIを用いた新しいデバイスの設計と初期評価について述べる。 もともと作家のブロックを克服するために設計された磁気詩に触発されたこの装置は、参加者が限られた語彙から短い詩のテキストを、デバイス表面に物理的に単語を配置することで作成することができる。 テキストを構成する際、システムは大きな言語モデル(LLM)を使用して、e-ink画面に表示される応答を生成する。 我々は、類推、偏見解釈、思考など、創造的思考を促進するための内部シークエンシングプロンプトの様々な戦略を探求した。 この装置を2週間実験室に設置し,設計評価の結論に焦点をあてた。 LLMとの対話を詩的なテキストに制限する設計選択は、詩を組み立てる触覚体験と相まって、従来のチャットボットやスクリーンベースの対話と比較して、LLMとのより深く、より楽しい関わりを育んだ。 このアプローチは、AIが生成した応答を創造的思考に結びつく方法で反映する機会を提供する。

This paper presents the design and initial assessment of a novel device that uses generative AI to facilitate creative ideation, inspiration, and reflective thought. Inspired by magnetic poetry, which was originally designed to help overcome writer's block, the device allows participants to compose short poetic texts from a limited vocabulary by physically placing words on the device's surface. Upon composing the text, the system employs a large language model (LLM) to generate a response, displayed on an e-ink screen. We explored various strategies for internally sequencing prompts to foster creative thinking, including analogy, allegorical interpretations, and ideation. We installed the device in our research laboratory for two weeks and held a focus group at the conclusion to evaluate the design. The design choice to limit interactions with the LLM to poetic text, coupled with the tactile experience of assembling the poem, fostered a deeper and more enjoyable engagement with the LLM compared to traditional chatbot or screen-based interactions. This approach gives users the opportunity to reflect on the AI-generated responses in a manner conducive to creative thought.
翻訳日:2024-07-22 11:50:18 公開日:2024-06-04
# パドルOCRを用いたマークシートパーサの新規実装

A Novel Implementation of Marksheet Parser Using PaddleOCR ( http://arxiv.org/abs/2407.11985v1 )

ライセンス: Link先を確認
Sankalp Bagaria, S Irene, Harikrishnan, Elakia V M, (参考訳) 申請者がオンラインアプリケーションを提出する場合、通常、オンラインフォームのマークを記入し、認証のためにポータルにマークシートをアップロードする必要がある。 OCRを使ってアップロードされたマークシートを読み、オンライン形式で行や列を自動的に埋めるシステムを構築した。 PyTesseractを使って実装されたこの問題には部分的な解決策があるが、精度は低い。 そのため、PaddleOCRはマークシートパーサの構築に使用された。 いくつかの前処理と後処理も行われた。 システムはテストされ、7つの州で評価された。 さらなる作業が行われており、このシステムはインドの多くの州や委員会で評価されている。

When an applicant files an online application, there is usually a requirement to fill the marks in the online form and also upload the marksheet in the portal for the verification. A system was built for reading the uploaded marksheet using OCR and automatically filling the rows/ columns in the online form. Though there are partial solutions to this problem - implemented using PyTesseract - the accuracy is low. Hence, the PaddleOCR was used to build the marksheet parser. Several pre-processing and post-processing steps were also performed. The system was tested and evaluated for seven states. Further work is being done and the system is being evaluated for more states and boards of India.
翻訳日:2024-07-22 11:50:18 公開日:2024-06-04
# 共生接続性:多目的進化的アルゴリズムを用いたソーラーパワーメッシュネットワークを用いた農村デジタルインフラの最適化

Symbiotic Connectivity: Optimizing Rural Digital Infrastructure with Solar-Powered Mesh Networks Using Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2407.11986v1 )

ライセンス: Link先を確認
Yadira Sanchez Benitez, (参考訳) 本稿では,ノードメッシュネットワークと再生可能エネルギーシステムとを融合した,農村接続のためのオープンソース・エコロジー統合モデルを提案する。 進化的アルゴリズムを用いることで、インターネットアクセスと共生エネルギー分布のためのノード配置を最適化する。 このモデルは、コミュニティの協力に基づいて、技術的進歩と環境管理のバランスを実証し、同様の農村環境における持続可能なインフラの青写真を提供する。

I present an open-source, ecologically integrated model for rural connectivity, merging the location of nodes mesh networks with renewable energy systems. Employing evolutionary algorithms, this approach optimizes node placement for internet access and symbiotic energy distribution. This model, grounded in community collaboration, demonstrates a balance between technological advancement and environmental stewardship, offering a blueprint for sustainable infrastructure in similar rural settings.
翻訳日:2024-07-22 11:50:18 公開日:2024-06-04
# 大規模言語モデルにおけるプラジャリズム検出に関する調査:ChatGPTとGeminiが学術的統合性に及ぼす影響

Survey on Plagiarism Detection in Large Language Models: The Impact of ChatGPT and Gemini on Academic Integrity ( http://arxiv.org/abs/2407.13105v1 )

ライセンス: Link先を確認
Shushanta Pudasaini, Luis Miralles-Pechuán, David Lillis, Marisa Llorens Salvador, (参考訳) ChatGPTやGeminiといった大規模言語モデル(LLM)の台頭は、学術コミュニティに新たな課題を提起している。 これらのモデルの助けを借りて、学生は課題や試験を簡単に完了し、教育者はAI生成コンテンツを検出するのに苦労する。 このことは、学生が学習に必要な労力を投入することなく、LSMによって生成された成果を単独で提示するなど、学術的不正行為の急増につながっている。 AIツールが進歩し、ますます人間らしいテキストを生成するようになると、そのようなコンテンツの検出はより困難になる。 この発展は、多くの教育者が彼らの評価手法をこの課題に適応させることが難しくなっている学界に大きな影響を与えている。 この研究はまず、LLMが学術的不正性を高めたことを実証し、その後、学術的盗作に対する最先端の解決策を詳細にレビューする。 LLMとAIGC(AIGC)検出が、この領域にどのように影響しているかに焦点を当てた、盗作検出のためのデータセット、アルゴリズム、ツール、回避戦略の調査が実施されている。 この調査は、既存のソリューションのギャップを特定することを目的としている。 最後に、AIツールと教育的アプローチに基づいたLLMを用いた学術プラジャリズムの問題に対処するために、潜在的に長期的な解決策が提示される。

The rise of Large Language Models (LLMs) such as ChatGPT and Gemini has posed new challenges for the academic community. With the help of these models, students can easily complete their assignments and exams, while educators struggle to detect AI-generated content. This has led to a surge in academic misconduct, as students present work generated by LLMs as their own, without putting in the effort required for learning. As AI tools become more advanced and produce increasingly human-like text, detecting such content becomes more challenging. This development has significantly impacted the academic world, where many educators are finding it difficult to adapt their assessment methods to this challenge. This research first demonstrates how LLMs have increased academic dishonesty, and then reviews state-of-the-art solutions for academic plagiarism in detail. A survey of datasets, algorithms, tools, and evasion strategies for plagiarism detection has been conducted, focusing on how LLMs and AI-generated content (AIGC) detection have affected this area. The survey aims to identify the gaps in existing solutions. Lastly, potential long-term solutions are presented to address the issue of academic plagiarism using LLMs based on AI tools and educational approaches in an ever-changing world.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-04
# 専門家の助言による投資家集団の時間的分布とその予測への応用

Temporal distribution of clusters of investors and their application in prediction with expert advice ( http://arxiv.org/abs/2406.19403v1 )

ライセンス: Link先を確認
Wojciech Wisniewski, Yuri Kalnishkan, David Lindsay, Siân Lindsay, (参考訳) ブローカーのような金融組織は、世界中の数千人のトレーダーの投資ニーズに対処する上で大きな課題に直面している。 個々のトレーダーが独自のリスク食欲と投資目標を持つため、この課題はさらに複雑になる。 トレーダーは市場における短期的なトレンドを数秒から数分で把握するか、あるいは数日から数ヶ月の長期的な見通しを持つかもしれない。 このタスクの複雑さを減らすために、クライアントの取引はクラスタ化できる。 このようなクラスタを調べることで、一般的な投資パターンに従って多くのトレーダーを観察できるでしょうが、これらのパターンは時間によってどのように変化するのでしょうか? このようなクラスターの時間的分布に関する知識は、金融機関が下層のトレーダーの立場から蓄積したリスクのポートフォリオ全体を管理するのに役立つかもしれない。 本研究は、Ewens' Smpling Distributionに従って、20k外国為替(FX)トレーダーの現実世界取引に由来するクラスタの分布(2015年から2017年まで)が記述されていることを示すことによって、この分野に寄与する。 さらに,提案アルゴリズムを用いたオンライン予測アルゴリズムであるAggregating Algorithm (AA) を実世界のデータに適用することにより,トレーダーリスクのポートフォリオのリターンを改善することができることを示す。 しかし、AA があまりにも多くのトレーダー ` `experts'' で提示されるとき、特に、同様の全体的なパターンを持つ多くのトレーディングがある場合、"綱引き" があることがわかりました。 この課題を克服するために、我々は、統計検証ネットワーク(SVN)をデータのサブセット上で階層的クラスタリングアプローチと比較し、利益率とリターンの滑らかさの観点からAAの結果を大幅に改善できることを示す。

Financial organisations such as brokers face a significant challenge in servicing the investment needs of thousands of their traders worldwide. This task is further compounded since individual traders will have their own risk appetite and investment goals. Traders may look to capture short-term trends in the market which last only seconds to minutes, or they may have longer-term views which last several days to months. To reduce the complexity of this task, client trades can be clustered. By examining such clusters, we would likely observe many traders following common patterns of investment, but how do these patterns vary through time? Knowledge regarding the temporal distributions of such clusters may help financial institutions manage the overall portfolio of risk that accumulates from underlying trader positions. This study contributes to the field by demonstrating that the distribution of clusters derived from the real-world trades of 20k Foreign Exchange (FX) traders (from 2015 to 2017) is described in accordance with Ewens' Sampling Distribution. Further, we show that the Aggregating Algorithm (AA), an on-line prediction with expert advice algorithm, can be applied to the aforementioned real-world data in order to improve the returns of portfolios of trader risk. However we found that the AA 'struggles' when presented with too many trader ``experts'', especially when there are many trades with similar overall patterns. To help overcome this challenge, we have applied and compared the use of Statistically Validated Networks (SVN) with a hierarchical clustering approach on a subset of the data, demonstrating that both approaches can be used to significantly improve results of the AA in terms of profitability and smoothness of returns.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-04
# ポリアディック超対称性

Polyadic supersymmetry ( http://arxiv.org/abs/2406.02188v1 )

ライセンス: Link先を確認
Steven Duplij, (参考訳) 一次元超対称性量子力学の玩具モデルに適用した多元化法(著者が提案する)を考慮し、超対称性の多進アナログを導入する。 スーパーチャージは、初期の研究で定義された$n$-ary sigma行列を用いてポリアディックに一般化される。 このように、スーパーチャージとハミルトニアンのポリアディックアナログは巡回シフトブロック行列形式をとり、N$拡張および多重グレードSQMとは異なる方法で多生成量子状態を記述することができる。 対応する超対称性を$n$-ary Lie superalgebra ("n$ is the arity of the initial associative multiplication") として構成する一方で、新たな括弧が2,2\leq m<n$と関連する$m$-ary superalgebrasシリーズ(二元超代数では不可能である)を発見した。 さらに、アリティ$m$が小さくなったら、ハミルトン作用素でさえ高次(微分作用素として)の塔を得るが、奇数$m$の場合、高次奇超電荷の塔を得ることができ、対応する代数は奇数セクターのみからなる。

We introduce a polyadic analog of supersymmetry by considering the polyadization procedure (proposed by the author) applied to the toy model of one-dimensional supersymmetric quantum mechanics. The supercharges are generalized to polyadic ones using the $n$-ary sigma matrices defined in earlier work. In this way, polyadic analogs of supercharges and Hamiltonians take the cyclic shift block matrix form, and they can describe multidegenerated quantum states in a way that is different from the $N$-extended and multigraded SQM. While constructing the corresponding supersymmetry as an $n$-ary Lie superalgebra ($n$ is the arity of the initial associative multiplication), we have found new brackets with a reduced arity of $2\leq m<n$ and a related series of $m$-ary superalgebras (which is impossible for binary superalgebras). In the case of even reduced arity $m$ we obtain a tower of higher order (as differential operators) even Hamiltonians, while for $m$ odd we get a tower of higher order odd supercharges, and the corresponding algebra consists of the odd sector only.
翻訳日:2024-07-01 08:19:53 公開日:2024-06-04
# RayProNet:3次元環境における電波伝搬モデリングのための神経点場フレームワーク

RayProNet: A Neural Point Field Framework for Radio Propagation Modeling in 3D Environments ( http://arxiv.org/abs/2406.16907v1 )

ライセンス: Link先を確認
Ge Cao, Zhen Peng, (参考訳) 電波伝搬チャネルは、無線通信システムの性能の中心である。 本稿では,無線チャネルモデリングのための機械学習を利用した新しい手法を提案する。 鍵となる構成要素は、ポイントクラウドベースのニューラルネットワークと、光プローブを備えた球高調波エンコーダである。 提案手法は、アンテナ放射パターンや送信機/受信機位置の調整、無線電力マップの予測機能、大規模無線シーンのスケーラビリティなど、いくつかの大きな利点を提供する。 その結果、ネットワーク計画とデプロイメント最適化のためのエンドツーエンドパイプラインの基盤となるものとなった。 提案手法は屋外および屋内の様々な無線環境において検証される。

The radio wave propagation channel is central to the performance of wireless communication systems. In this paper, we introduce a novel machine learning-empowered methodology for wireless channel modeling. The key ingredients include a point-cloud-based neural network and a Spherical Harmonics encoder with light probes. Our approach offers several significant advantages, including the flexibility to adjust antenna radiation patterns and transmitter/receiver locations, the capability to predict radio power maps, and the scalability of large-scale wireless scenes. As a result, it lays the groundwork for an end-to-end pipeline for network planning and deployment optimization. The proposed work is validated in various outdoor and indoor radio environments.
翻訳日:2024-07-01 06:41:31 公開日:2024-06-04
# 説明可能なAIを用いた脳波を用いた低分子量モンタージュ新生児静注検出

Using Explainable AI for EEG-based Reduced Montage Neonatal Seizure Detection ( http://arxiv.org/abs/2406.16908v1 )

ライセンス: Link先を確認
Dinuka Sandun Udayantha, Kavindu Weerasinghe, Nima Wickramasinghe, Akila Abeyratne, Kithmin Wickremasinghe, Jithangi Wanigasinghe, Anjula De Silva, Chamira Edussooriya, (参考訳) 新生児期は発作発生の最も脆弱な時期である。 未熟な脳の青斑は有害な結果をもたらすため、早期診断が必要である。 現在、新生児発作検出のゴールドスタンダードは、新生児集中治療室(NICU)内でのリアルタイムビデオモニタリングと並行して、多チャンネル脳波(EEG)を記録することを含む、連続的なビデオEEGモニタリングに依存している。 しかし、ビデオEEGモニタリング技術は臨床専門知識を必要としており、技術的に高度で資源に富んだ設定に限られることが多い。 費用対効果の高い新しい技術は、医療の友愛会が正確な診断を行い、遅滞なく治療を提唱するのに役立つ。 本研究では, 畳み込み網, グラフアテンション層, および完全連結層を用いて, 脳波モンタージュを低減した新生児発作検出プロセスを自動化する新しいディープラーニングモデルを提案する。 モンタージュを減らしてリアルタイムに発作を検出する能力に加えて、このモデルはリアルタイムの解釈可能性の独特な利点を提供する。 10倍のクロスバリデーションでZenodoデータセットの性能を評価することにより,曲線下面積(AUC)とリコールにおける絶対的な改善率8.31%と42.86%を達成した。

The neonatal period is the most vulnerable time for the development of seizures. Seizures in the immature brain lead to detrimental consequences, therefore require early diagnosis. The gold-standard for neonatal seizure detection currently relies on continuous video-EEG monitoring; which involves recording multi-channel electroencephalogram (EEG) alongside real-time video monitoring within a neonatal intensive care unit (NICU). However, video-EEG monitoring technology requires clinical expertise and is often limited to technologically advanced and resourceful settings. Cost-effective new techniques could help the medical fraternity make an accurate diagnosis and advocate treatment without delay. In this work, a novel explainable deep learning model to automate the neonatal seizure detection process with a reduced EEG montage is proposed, which employs convolutional nets, graph attention layers, and fully connected layers. Beyond its ability to detect seizures in real-time with a reduced montage, this model offers the unique advantage of real-time interpretability. By evaluating the performance on the Zenodo dataset with 10-fold cross-validation, the presented model achieves an absolute improvement of 8.31% and 42.86% in area under curve (AUC) and recall, respectively.
翻訳日:2024-07-01 06:41:31 公開日:2024-06-04
# スネークモデルによるグリッドマップの生成

Generating grid maps via the snake model ( http://arxiv.org/abs/2406.18573v1 )

ライセンス: Link先を確認
Zhiwei Wei, Nai Yang, Wenjia Xu, Su Ding, (参考訳) 格子地図(英: grid map)は、しばしばタイル地図(英: tile map)と呼ばれ、地理空間の可視化において重要なツールであり、コロプレスやカルトグラムのような一般的な技術と区別される独自の属性を持つ。 地理的領域をグリッドに変換するため、コヒーレントグリッドアレンジメントを確立するために、セントロイドと境界ノードの両方の変位を必要とする。 しかし、既存のアプローチは、通常、領域セントロイドと境界ノードを別々に置き換え、自断境界と領域間の相対配向関係を損なう可能性がある。 本稿では,Snake変位アルゴリズムを地図一般化から領域セントロイドと境界ノードを同時に変位させる手法を提案する。 改良された制約付きデラウネー三角測量(CDT)は、地域間の関係を表現するために使用され、スネークアルゴリズムの構造基盤として機能する。 次に、領域セントロイドを格子状のパターンに分解する力を計算する。 これらの力は、満足のいく新しい境界が達成されるまで、スネークモデル内で反復的に適用されます。 その後、グリッドマップは、グリッドを新たに生成された境界に整列させ、1対1のマッチングアルゴリズムを用いて、各領域を特定のグリッドに割り当てることで作成される。 実験結果から,提案手法は局所的な位置ずれが増大する可能性がありながら,領域の相対的配向と大域的な形状を維持する上で優れていることが示された。 また、ユーザの好みに応じてグリッドマップを多様に作成するための既存のアプローチに沿った2つの戦略も提示する。 詳細とリソースは、プロジェクトのWebサイト(https://github.com/TrentonWei/DorlingMap.git)で公開されています。

The grid map, often referred to as the tile map, stands as a vital tool in geospatial visualization, possessing unique attributes that differentiate it from more commonly known techniques such as choropleths and cartograms. It transforms geographic regions into grids, which requires the displacement of both region centroids and boundary nodes to establish a coherent grid arrangement. However, existing approaches typically displace region centroids and boundary nodes separately, potentially resulting in self-intersected boundaries and compromised relative orientation relations between regions. In this paper, we introduce a novel approach that leverages the Snake displacement algorithm from cartographic generalization to concurrently displace region centroids and boundary nodes. The revised Constrained Delaunay triangulation (CDT) is employed to represent the relations between regions and serves as a structural foundation for the Snake algorithm. Forces for displacing the region centroids into a grid-like pattern are then computed. These forces are iteratively applied within the Snake model until a satisfactory new boundary is achieved. Subsequently, the grid map is created by aligning the grids with the newly generated boundary, utilizing a one-to-one match algorithm to assign each region to a specific grid. Experimental results demonstrate that the proposed approach excels in maintaining the relative orientation and global shape of regions, albeit with a potential increase in local location deviations. We also present two strategies aligned with existing approaches to generate diverse grid maps for user preferences. Further details and resources are available on our project website: https://github.com/TrentonWei/DorlingMap.git.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-04
# リモートセンシング画像シーン分類のための教師なしFew-Shot連続学習

Unsupervised Few-Shot Continual Learning for Remote Sensing Image Scene Classification ( http://arxiv.org/abs/2406.18574v1 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Ramasamy Savitha, Lin Liu, Habibullah, Ryszard Kowalczyk, (参考訳) リモートセンシング画像解析には,カメラパラメータ,スペクトル範囲,解像度などが異なるため,連続学習(CL)モデルが望ましい。 この領域でCL技術を開発するための最近の取り組みはいくつかあるが、地上の真実はフィールドベースサーベイによってしばしば得られるため、リモートセンシングアプリケーションに完全に適合しない大量のラベル付きサンプルに依存している。 本稿では,モデル更新においてラベル付きサンプルに依存しないリモートセンシング画像シーン分類において,教師なしの連写学習手法として,unsupervised flat-wide learning approach (UNISA)を提案することにより,この問題に対処する。 UNISAは,学習表現のためのプロトタイプ散乱と正のサンプリングという概念から開発され,その一方で,データ不足問題に対処するために,ボールジェネレータと組み合わされたフラットワイド学習アプローチに対処する。 リモートセンシング画像シーンデータセットとハイパースペクトルデータセットを用いた数値解析により,提案手法の利点が確認された。 UNISA のソースコードは \url{https://github.com/anwarmaxsum/UNISA} で公開されています。

A continual learning (CL) model is desired for remote sensing image analysis because of varying camera parameters, spectral ranges, resolutions, etc. There exist some recent initiatives to develop CL techniques in this domain but they still depend on massive labelled samples which do not fully fit remote sensing applications because ground truths are often obtained via field-based surveys. This paper addresses this problem with a proposal of unsupervised flat-wide learning approach (UNISA) for unsupervised few-shot continual learning approaches of remote sensing image scene classifications which do not depend on any labelled samples for its model updates. UNISA is developed from the idea of prototype scattering and positive sampling for learning representations while the catastrophic forgetting problem is tackled with the flat-wide learning approach combined with a ball generator to address the data scarcity problem. Our numerical study with remote sensing image scene datasets and a hyperspectral dataset confirms the advantages of our solution. Source codes of UNISA are shared publicly in \url{https://github.com/anwarmaxsum/UNISA} to allow convenient future studies and reproductions of our numerical results.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-04
# Yolov8モデルに基づくドライバ顔面疲労検出に関する研究

Research on Driver Facial Fatigue Detection Based on Yolov8 Model ( http://arxiv.org/abs/2406.18575v1 )

ライセンス: Link先を確認
Chang Zhou, Yang Zhao, Shaobo Liu, Yi Zhao, Xingchen Li, Chiyu Cheng, (参考訳) 交通事故が頻発する社会では、疲労運転が重大な問題となっている。 疲労運転検出技術(特にYOLOv8ディープラーニングモデルに基づくもの)は、効果的な予防策として広く研究され応用されている。 本稿では、ドライバーの疲労を検出するためにYOLOv8モデルで使用される方法と技術について深く論じ、国内および国際両方の研究状況について詳述し、様々なデータセットの処理方法とアルゴリズム原則を体系的に紹介する。 本研究の目的は,疲労運転の防止と検出のための堅牢な技術ソリューションを提供することであり,交通事故の低減と生活保護に大きく貢献することである。

In a society where traffic accidents frequently occur, fatigue driving has emerged as a grave issue. Fatigue driving detection technology, especially those based on the YOLOv8 deep learning model, has seen extensive research and application as an effective preventive measure. This paper discusses in depth the methods and technologies utilized in the YOLOv8 model to detect driver fatigue, elaborates on the current research status both domestically and internationally, and systematically introduces the processing methods and algorithm principles for various datasets. This study aims to provide a robust technical solution for preventing and detecting fatigue driving, thereby contributing significantly to reducing traffic accidents and safeguarding lives.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-04
# WSODにおける競合学習を指導する負のプロトタイプ

Negative Prototypes Guided Contrastive Learning for WSOD ( http://arxiv.org/abs/2406.18576v1 )

ライセンス: Link先を確認
Yu Zhang, Chuang Zhu, Guoqing Yang, Siqi Chen, (参考訳) 近年,画像レベルのアノテーションのみを持つ弱監視対象検出(WSOD)が注目されている。 多くの既存手法では、類似した特徴を持つインスタンスのイメージ間関係を無視するが、同一のカテゴリに属さないことは確実である。 そこで,弱いラベルをフル活用するために,NPGCアーキテクチャを提案する。 まず,ラベルに表示されないカテゴリに対して,信頼度が最も高いことを誤分類した提案として否定的プロトタイプを定義する。 カテゴリー正の機能のみを利用する他の方法とは異なり、正のプロトタイプと負のプロトタイプの両方を格納するために、オンライン更新されたグローバル機能バンクを構築します。 一方,疑似ラベルサンプリングモジュールは,信頼性の高いインスタンスをマイニングし,グローバル機能バンクにおける対応するプロトタイプとの特徴的類似性に基づいて,容易に分類できないインスタンスを破棄する。 最後に、同じクラスサンプルを近くに引き寄せ、異なるクラスサンプルを埋め込み空間にプッシュすることで、提案の特徴表現を最適化するために、対照的な学習パラダイムに従う。 VOC07,VOC12データセットに対して大規模な実験を行い,提案手法が最先端の性能を実現することを示す。

Weakly Supervised Object Detection (WSOD) with only image-level annotation has recently attracted wide attention. Many existing methods ignore the inter-image relationship of instances which share similar characteristics while can certainly be determined not to belong to the same category. Therefore, in order to make full use of the weak label, we propose the Negative Prototypes Guided Contrastive learning (NPGC) architecture. Firstly, we define Negative Prototype as the proposal with the highest confidence score misclassified for the category that does not appear in the label. Unlike other methods that only utilize category positive feature, we construct an online updated global feature bank to store both positive prototypes and negative prototypes. Meanwhile, we propose a pseudo label sampling module to mine reliable instances and discard the easily misclassified instances based on the feature similarity with corresponding prototypes in global feature bank. Finally, we follow the contrastive learning paradigm to optimize the proposal's feature representation by attracting same class samples closer and pushing different class samples away in the embedding space. Extensive experiments have been conducted on VOC07, VOC12 datasets, which shows that our proposed method achieves the state-of-the-art performance.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-04
# 電子商取引広告における深い関心ネットワークモデルによるクリックスルー率の予測

Predict Click-Through Rates with Deep Interest Network Model in E-commerce Advertising ( http://arxiv.org/abs/2406.10239v1 )

ライセンス: Link先を確認
Chang Zhou, Yang Zhao, Yuelin Zou, Jin Cao, Wenhan Fan, Yi Zhao, Chiyu Cheng, (参考訳) 本稿では,Alibaba の Taobao プラットフォームの広告システムに特化して,Deep Interest Network (DIN) モデルを用いてクリックスルー率(CTR)予測モデルを改善する手法を提案する。 従来のディープラーニング手法とは異なり、この研究は、広範囲なユーザー行動データを活用することで、カスタマイズされた広告ターゲティングのための局所的なユーザー行動活性化に焦点を当てている。 従来のモデルと比較して,この手法は多様な動的ユーザデータを扱う能力に優れており,広告システムの効率性の向上と収益の増大を図っている。

This paper proposes new methods to enhance click-through rate (CTR) prediction models using the Deep Interest Network (DIN) model, specifically applied to the advertising system of Alibaba's Taobao platform. Unlike traditional deep learning approaches, this research focuses on localized user behavior activation for tailored ad targeting by leveraging extensive user behavior data. Compared to traditional models, this method demonstrates superior ability to handle diverse and dynamic user data, thereby improving the efficiency of ad systems and increasing revenue.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-04
# 人気ゲームシリーズにおける形状パターン

Shape patterns in popularity series of video games ( http://arxiv.org/abs/2406.10241v1 )

ライセンス: Link先を確認
Leonardo R. Cunha, Arthur A. B. Pessa, Renio S. Mendes, (参考訳) 近年,レジャー活動や日常生活のゲーミフィケーション活動として,デジタルゲームが人々の生活にますます浸透している。 この増加にもかかわらず、大規模なデータ駆動によるビデオゲームの分析は、関連文献のごく一部にとどまっている。 この意味で、本研究は、オンラインプラットフォームSteamに掲載されている約6万ゲームにおいて、月次人気シリーズに基づく人気ゲームシリーズのパターンを11年間にわたって調査するものである。 これらのシリーズを利用すると、前処理段階の後に、これらのシリーズをその形状のみに基づいてグループ化するクラスタリングタスクを実行する。 以上の結果から,約半数のゲームは人気パターンが減少し,20.7%が丘陵であり,11.8%が増加し,11.0%が破裂し,9.1%が谷である。 最後に, 初期および完成直後の長大な人気シリーズの形状を比較し, 形状パターンの出現状況と持続性について検討した。 人気シリーズの初期に登場する一定のパターンを除いて、ほとんどのゲームはそのパターンを時間とともに維持する傾向にあることがわかった。

In recent years, digital games have become increasingly present in people's lives both as a leisure activity or in gamified activities of everyday life. Despite this growing presence, large-scale, data-driven analyses of video games remain a small fraction of the related literature. In this sense, the present work constitutes an investigation of patterns in popularity series of video games based on monthly popularity series, spanning eleven years, for close to six thousand games listed on the online platform Steam. Utilizing these series, after a preprocessing stage, we perform a clustering task in order to group the series solely based on their shape. Our results indicate the existence of five clusters of shape patterns named decreasing, hilly, increasing, valley, and bursty, with approximately half of the games showing a decreasing popularity pattern, 20.7% being hilly, 11.8% increasing, 11.0% bursty, and 9.1% valley. Finally, we have probed the prevalence and persistence of shape patterns by comparing the shapes of longer popularity series during their early stages and after completion. We have found the majority of games tend to maintain their pattern over time, except for a constant pattern that appears early in popularity series only to later originate hilly and bursty popularity series.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-04
# 論理に基づく説明可能性:過去、現在、そして未来

Logic-Based Explainability: Past, Present & Future ( http://arxiv.org/abs/2406.11873v1 )

ライセンス: Link先を確認
Joao Marques-Silva, (参考訳) 近年,機械学習(ML)と人工知能(AI)が社会に与える影響は極めて顕著である。 この影響は、当面続くものと期待されている。 しかし、AI/MLの採用も重大な懸念の1つだ。 最も先進的なAI/MLモデルの運用は、人間の意思決定者の把握を超えたものが多い。 その結果、人間に影響を与える決定は理解されず、厳密な検証を欠く可能性がある。 説明可能なAI(XAI)は、MLモデルによる予測に関する理解可能な説明を人間の意思決定者に提供することに関心がある。 その結果、XAIは信頼できるAIの基礎となっている。 戦略的重要性にもかかわらず、XAIに関するほとんどの研究は厳格さを欠いているため、リスクの高い領域や安全クリティカルな領域での使用は、非常に必要な信頼の構築に貢献するのではなく、不信を育むのに役立つ。 論理ベースのXAIは、最近、XAIの他の非厳密な方法に代わる厳密な代替手段として登場した。 本稿では,論理に基づくXAIとその起源,研究の現在の話題,今後の研究の話題について,技術的な調査を行う。 この論文は、XAIの非厳密なアプローチに及ぼした多くの神話も強調している。

In recent years, the impact of machine learning (ML) and artificial intelligence (AI) in society has been absolutely remarkable. This impact is expected to continue in the foreseeable future. However,the adoption of AI/ML is also a cause of grave concern. The operation of the most advances AI/ML models is often beyond the grasp of human decision makers. As a result, decisions that impact humans may not be understood and may lack rigorous validation. Explainable AI (XAI) is concerned with providing human decision-makers with understandable explanations for the predictions made by ML models. As a result, XAI is a cornerstone of trustworthy AI. Despite its strategic importance, most work on XAI lacks rigor, and so its use in high-risk or safety-critical domains serves to foster distrust instead of contributing to build much-needed trust. Logic-based XAI has recently emerged as a rigorous alternative to those other non-rigorous methods of XAI. This paper provides a technical survey of logic-based XAI, its origins, the current topics of research, and emerging future topics of research. The paper also highlights the many myths that pervade non-rigorous approaches for XAI.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-04
# OccamLLM: 高速かつエクササイズな言語モデル

OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step ( http://arxiv.org/abs/2406.06576v1 )

ライセンス: Link先を確認
Owen Dugan, Donato Manuel Jimenez Beneto, Charlotte Loh, Zhuo Chen, Rumen Dangovski, Marin Soljačić, (参考訳) テキスト生成と推論の大幅な進歩にもかかわらず、Large Language Models (LLM) は複雑な算術演算を正確に実行する際の課題に直面している。 正確な計算を実現するために、言語モデルシステムはしばしばLLMが算術演算のためのコードを生成することができる。 しかし、このアプローチはスピードとセキュリティを損なうため、微調整が関与すれば、言語モデルが以前の能力を失うリスクがある。 本稿では,より高速で,よりセキュアで,より解釈可能なLLMシステムを実現するためのフレームワークを提案する。 我々は,LLMの隠れ状態を用いて,演算を行う記号的アーキテクチャを制御する。 シンボリックモデル(OccamLlama)としてOccamNetを用いたLlama 3 8Bのインストラクションは、単一の算術演算(+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$)で100\%の精度を実現し、GPT 4oを上回り、コードインタプリタを使用してGPT 4oと同等の精度を実現した。 OccamLlama はまた、Llama 3 8B Instruct と GPT 3.5 Turbo を、挑戦的な算術を伴う多段階推論問題で上回り、小さな LLM がさらに大きなモデルの算術性能に匹敵することを可能にする。 私たちはすぐにコードを公開します。

Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. To achieve accurate calculations, language model systems often enable LLMs to generate code for arithmetic operations. However, this approach compromises speed and security and, if finetuning is involved, risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in \textit{a single autoregressive step}, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of an LLM to control a symbolic architecture which performs arithmetic. Our implementation using Llama 3 8B Instruct with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o and on par with GPT 4o using a code interpreter. OccamLlama also outperforms both Llama 3 8B Instruct and GPT 3.5 Turbo on multistep reasoning problems involving challenging arithmetic, thus enabling small LLMs to match the arithmetic performance of even much larger models. We will make our code public shortly.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# プロンプトを用いたマスク付きコントラスト学習によるRAGベースのクラウドソーシングタスク分解

RAG-based Crowdsourcing Task Decomposition via Masked Contrastive Learning with Prompts ( http://arxiv.org/abs/2406.06577v1 )

ライセンス: Link先を確認
Jing Yang, Xiao Wang, Yu Zhao, Yuhang Liu, Fei-Yue Wang, (参考訳) クラウドソーシングは社会製造業において重要な技術であり、幅広い複雑なタスクを扱うために、広範囲で無制限な人的資源の貯水池を活用している。 これらの複雑なタスクの実行はタスク分解(TD)とアロケーションに依存し、前者は後者の前提条件である。 近年,プレトレーニング言語モデル (PLM) に基づく手法が注目されている。 しかし、限定的で更新の難しい知識と幻覚の存在を含む固有の制約のため、単純な常識的タスクの処理に制約がある。 これらの課題に対処するために,自然言語理解の観点からTDをイベント検出として再認識する,検索強化世代ベースのクラウドソーシングフレームワークを提案する。 しかし、既存の検出方法はイベントタイプの違いを区別できず、常にヒューリスティックなルールや外部意味分析ツールに依存している。 そこで本研究では,TD (PBCT) のための Prompt-based Contrastive Learning framework を提案する。 さらに、トリガー・アテンティブ・センチネルとマスク付きコントラスト学習を導入し、異なるイベントタイプに応じてトリガーとコンテキストの特徴に様々な注意を向ける。 実験結果は,教師付きおよびゼロショット検出における本手法の競合性を実証した。 印刷基板製造のケーススタディは、未知の専門領域への適応性を検証するために展示されている。

Crowdsourcing is a critical technology in social manufacturing, which leverages an extensive and boundless reservoir of human resources to handle a wide array of complex tasks. The successful execution of these complex tasks relies on task decomposition (TD) and allocation, with the former being a prerequisite for the latter. Recently, pre-trained language models (PLMs)-based methods have garnered significant attention. However, they are constrained to handling straightforward common-sense tasks due to their inherent restrictions involving limited and difficult-to-update knowledge as well as the presence of hallucinations. To address these issues, we propose a retrieval-augmented generation-based crowdsourcing framework that reimagines TD as event detection from the perspective of natural language understanding. However, the existing detection methods fail to distinguish differences between event types and always depend on heuristic rules and external semantic analyzing tools. Therefore, we present a Prompt-Based Contrastive learning framework for TD (PBCT), which incorporates a prompt-based trigger detector to overcome dependence. Additionally, trigger-attentive sentinel and masked contrastive learning are introduced to provide varying attention to trigger and contextual features according to different event types. Experiment results demonstrate the competitiveness of our method in both supervised and zero-shot detection. A case study on printed circuit board manufacturing is showcased to validate its adaptability to unknown professional domains.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# 自然言語処理を用いた電話ネットワークのSMSスパム検出とコンバットの分類

SMS Spam Detection and Classification to Combat Abuse in Telephone Networks Using Natural Language Processing ( http://arxiv.org/abs/2406.06578v1 )

ライセンス: Link先を確認
Dare Azeez Oyeyemi, Adebola K. Ojo, (参考訳) 現代では、携帯電話が普及し、SMS(Short Message Service)は、モバイルデバイスの普及と、SMSを毎日使っている何百万人もの人びとのために、数百万ドルものサービスへと成長している。 しかし、SMSスパムはまた、フィッシングや詐欺によってユーザーのプライバシーとセキュリティを危険にさらす広範囲な問題となっている。 多くのスパムフィルタリング技術があるにもかかわらず、この問題に対処するためには、より効果的なソリューションが必要である[1]。 この研究は、ユーザのプライバシーとセキュリティに脅威をもたらすSMSスパムの広範にわたる問題に対処する。 既存のスパムフィルタリング技術にもかかわらず、高い偽陽性率は課題として持続する。 本研究では,自然言語処理(NLP)と機械学習モデル,特にBERT(Bidirectional Encoder Representations from Transformers)を用いたSMSスパム検出と分類手法を提案する。 BERTを用いた特徴抽出とともに,停止語除去やトークン化などのデータ前処理技術を適用した。 SVM、Logistic Regression、Naive Bayes、Gradient Boosting、Random Forestといった機械学習モデルがBERTに統合され、ハムメッセージからスパムを識別する。 評価の結果、Na\"ive Bayes分類器+BERTモデルは、テストデータセットで0.3秒の高速実行時間で97.31%の精度を達成することがわかった。 このアプローチはスパム検出効率の顕著な向上と偽陽性率の低下を示す。 開発されたモデルでは、SMSスパムと戦うための貴重なソリューションが提示され、より高速で正確な検出が保証される。 このモデルは、ユーザのプライバシを保護するだけでなく、ネットワークプロバイダがSMSスパムメッセージを効果的に識別し、ブロックするのを助ける。

In the modern era, mobile phones have become ubiquitous, and Short Message Service (SMS) has grown to become a multi-million-dollar service due to the widespread adoption of mobile devices and the millions of people who use SMS daily. However, SMS spam has also become a pervasive problem that endangers users' privacy and security through phishing and fraud. Despite numerous spam filtering techniques, there is still a need for a more effective solution to address this problem [1]. This research addresses the pervasive issue of SMS spam, which poses threats to users' privacy and security. Despite existing spam filtering techniques, the high false-positive rate persists as a challenge. The study introduces a novel approach utilizing Natural Language Processing (NLP) and machine learning models, particularly BERT (Bidirectional Encoder Representations from Transformers), for SMS spam detection and classification. Data preprocessing techniques, such as stop word removal and tokenization, are applied, along with feature extraction using BERT. Machine learning models, including SVM, Logistic Regression, Naive Bayes, Gradient Boosting, and Random Forest, are integrated with BERT for differentiating spam from ham messages. Evaluation results revealed that the Na\"ive Bayes classifier + BERT model achieves the highest accuracy at 97.31% with the fastest execution time of 0.3 seconds on the test dataset. This approach demonstrates a notable enhancement in spam detection efficiency and a low false-positive rate. The developed model presents a valuable solution to combat SMS spam, ensuring faster and more accurate detection. This model not only safeguards users' privacy but also assists network providers in effectively identifying and blocking SMS spam messages.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# チェーンを破る - 大規模言語モデルは推論をショートカットできる

Break the Chain: Large Language Models Can be Shortcut Reasoners ( http://arxiv.org/abs/2406.06580v1 )

ライセンス: Link先を確認
Mengru Ding, Hanmeng Liu, Zhizhang Fu, Jian Song, Wenbo Xie, Yue Zhang, (参考訳) 近年のChain-of-Thought(CoT)推論の進歩は、複雑なモジュールを利用するが、高いトークン消費、限定的な適用性、再現性の問題によって妨げられている。 本稿では,従来のCoTメソッドが不足する領域である,複雑な論理的および常識的推論タスクを含む算術を超えて,CoTプロンプトの批判的評価を行う。 本稿では,人間のようなヒューリスティックとショートカットを言語モデル (LM) に統合する手法を提案する。 これらの戦略は、制御変数を使用して従来のCoTプロセスを破壊し、その有効性を評価する。 さらに,ショートカットの使用を促進する革新的なゼロショットプロンプト戦略を開発し,推論の手がかりを迅速に活用し,詳細な手続き手順を回避できるようにする。 商用およびオープンソースの両方にわたる様々なLMの総合的な実験により、LMが「チェーンを破る」戦略で効果的な性能を維持していることが明らかとなった。 また、ショートカットによる推論を評価するために特別に設計されたデータセットであるShortcutQAを導入し、前方/後方推論や単純化といったヒューリスティック推論タスクに最適化された競合テストからコンパイルした。 我々の分析では、ShortcutQAはLMに堅牢な課題をもたらすだけでなく、AIの推論効率を高めるための重要なベンチマークとしても機能することを確認した。

Recent advancements in Chain-of-Thought (CoT) reasoning utilize complex modules but are hampered by high token consumption, limited applicability, and challenges in reproducibility. This paper conducts a critical evaluation of CoT prompting, extending beyond arithmetic to include complex logical and commonsense reasoning tasks, areas where standard CoT methods fall short. We propose the integration of human-like heuristics and shortcuts into language models (LMs) through "break the chain" strategies. These strategies disrupt traditional CoT processes using controlled variables to assess their efficacy. Additionally, we develop innovative zero-shot prompting strategies that encourage the use of shortcuts, enabling LMs to quickly exploit reasoning clues and bypass detailed procedural steps. Our comprehensive experiments across various LMs, both commercial and open-source, reveal that LMs maintain effective performance with "break the chain" strategies. We also introduce ShortcutQA, a dataset specifically designed to evaluate reasoning through shortcuts, compiled from competitive tests optimized for heuristic reasoning tasks such as forward/backward reasoning and simplification. Our analysis confirms that ShortcutQA not only poses a robust challenge to LMs but also serves as an essential benchmark for enhancing reasoning efficiency in AI.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# 混合スーパービジョン音声処理のための事前制約付き大言語モデル付き離散マルチモーダル変換器

Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing ( http://arxiv.org/abs/2406.06582v1 )

ライセンス: Link先を確認
Viet Anh Trinh, Rosy Southwell, Yiwen Guan, Xinlu He, Zhiyong Wang, Jacob Whitehill, (参考訳) 離散音声のトークン化に関する最近の研究は、例えば、音声認識、テキストから音声への変換、音声から音声への翻訳など、複数のタスクをシームレスに実行できるモデルへの道を開いた。 さらに、膨大なテキストコーパスから事前訓練された大きな言語モデル(LLM)には、様々なタスクにおける精度を向上させるための豊富な言語情報が含まれている。 本稿では,複数のタスク(ASR,T2S,S2TTなど)やモーダル性(テキスト,音声,視覚)に柔軟に適用可能な,デコーダのみの離散多モーダル言語モデル(DMLM)を提案する。 本稿では、損失関数、重み初期化、混合訓練指導、コードブックなど、離散マルチモーダルモデルのいくつかの重要な側面について考察する。 その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。 さらに、ASRでは、事前訓練されたLDMからDMLMを初期化し、Whisperアクティベーションから派生したコードブックから恩恵を受ける。

Recent work on discrete speech tokenization has paved the way for models that can seamlessly perform multiple tasks across modalities, e.g., speech recognition, text to speech, speech to speech translation. Moreover, large language models (LLMs) pretrained from vast text corpora contain rich linguistic information that can improve accuracy in a variety of tasks. In this paper, we present a decoder-only Discrete Multimodal Language Model (DMLM), which can be flexibly applied to multiple tasks (ASR, T2S, S2TT, etc.) and modalities (text, speech, vision). We explore several critical aspects of discrete multi-modal models, including the loss function, weight initialization, mixed training supervision, and codebook. Our results show that DMLM benefits significantly, across multiple tasks and datasets, from a combination of supervised and unsupervised training. Moreover, for ASR, it benefits from initializing DMLM from a pretrained LLM, and from a codebook derived from Whisper activations.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# ニューラルネットワーク学習のための適応的多重学習因子

Adaptive multiple optimal learning factors for neural network training ( http://arxiv.org/abs/2406.06583v1 )

ライセンス: Link先を確認
Jeshwanth Challagundla, (参考訳) この論文は、学習要因の最適な数を決定するという課題に対処するニューラルネットワークトレーニングに、新しいアプローチを提示している。 提案した適応多重最適学習因子(AMOLF)アルゴリズムは、乗算毎の誤差変化に基づいて学習要素数を動的に調整し、トレーニング効率と精度を向上させる。 この論文は、目的関数の曲率に基づいて重みをグループ化する手法や、大きなヘッセン行列を圧縮する手法も導入している。 AMOLF はOWO-MOLF や Levenberg-Marquardt のような既存の手法に比べて優れた性能を示した。

This thesis presents a novel approach to neural network training that addresses the challenge of determining the optimal number of learning factors. The proposed Adaptive Multiple Optimal Learning Factors (AMOLF) algorithm dynamically adjusts the number of learning factors based on the error change per multiply, leading to improved training efficiency and accuracy. The thesis also introduces techniques for grouping weights based on the curvature of the objective function and for compressing large Hessian matrices. Experimental results demonstrate the superior performance of AMOLF compared to existing methods like OWO-MOLF and Levenberg-Marquardt.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# 大規模言語モデルを用いたスケジューリングの可能性の検討

Investigating the Potential of Using Large Language Models for Scheduling ( http://arxiv.org/abs/2406.07573v1 )

ライセンス: Link先を確認
Deddy Jobson, Yilin Li, (参考訳) AIを利用したソフトウェアに関する第1回ACM International ConferenceがAIware Challengeを導入し、研究者は制約付き最適化を通じて会議プログラムを最適化するためのAI駆動ツールを探求した。 本稿では,ゼロショット学習と整数プログラミングに着目して,プログラムスケジューリングにLarge Language Models (LLMs) を用いることを検討した。 我々の研究によると、LDMはゼロショット設定下であっても、会議スケジュールの最初のドラフトを合理的に作成できることが判明した。 論文をクラスタリングする場合、タイトルのみを LLM 入力として使用すると、タイトルや抽象語を TFIDF で使用するよりも、人間の分類に近い結果が得られる。 コードは公開されています。

The inaugural ACM International Conference on AI-powered Software introduced the AIware Challenge, prompting researchers to explore AI-driven tools for optimizing conference programs through constrained optimization. We investigate the use of Large Language Models (LLMs) for program scheduling, focusing on zero-shot learning and integer programming to measure paper similarity. Our study reveals that LLMs, even under zero-shot settings, create reasonably good first drafts of conference schedules. When clustering papers, using only titles as LLM inputs produces results closer to human categorization than using titles and abstracts with TFIDF. The code has been made publicly available.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# グラフのバイハーモニック距離とその高次変数:理論的性質と中心性とクラスタリングへの応用

Biharmonic Distance of Graphs and its Higher-Order Variants: Theoretical Properties with Applications to Centrality and Clustering ( http://arxiv.org/abs/2406.07574v1 )

ライセンス: Link先を確認
Mitchell Black, Lucy Lin, Amir Nayyeri, Weng-Keen Wong, (参考訳) 有効抵抗 (英: effective resistance) とは、理論上は興味深く、応用に有用であるグラフの頂点の間の距離である。 バイハーモニック距離と呼ばれる有効抵抗の変種について検討する。 有効抵抗は2つの頂点が十分に連結されているかを測るが、バイハーモニック距離はグラフの大域的トポロジーに対するエッジの重要性を測るという考えを支持するいくつかの理論的結果を証明する。 我々の理論的結果は、双調和距離と、その全抵抗と空間性のようなグラフの接続性に関するよく知られた尺度を結びつける。 これらの結果に基づき,バイハーモニック距離を用いた2つのクラスタリングアルゴリズムを提案する。 最後に、$k$-調和距離と呼ぶバイハーモニック距離のさらなる一般化を導入する。 両高調波および$k$-高調波距離のエッジ中心性とグラフクラスタリングに対する有効性について実験的に検討する。

Effective resistance is a distance between vertices of a graph that is both theoretically interesting and useful in applications. We study a variant of effective resistance called the biharmonic distance. While the effective resistance measures how well-connected two vertices are, we prove several theoretical results supporting the idea that the biharmonic distance measures how important an edge is to the global topology of the graph. Our theoretical results connect the biharmonic distance to well-known measures of connectivity of a graph like its total resistance and sparsity. Based on these results, we introduce two clustering algorithms using the biharmonic distance. Finally, we introduce a further generalization of the biharmonic distance that we call the $k$-harmonic distance. We empirically study the utility of biharmonic and $k$-harmonic distance for edge centrality and graph clustering.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-04
# CredSec: 大学採用のためのブロックチェーンベースのセキュア認証管理システム

CredSec: A Blockchain-based Secure Credential Management System for University Adoption ( http://arxiv.org/abs/2406.05151v1 )

ライセンス: Link先を確認
Md. Ahsan Habib, Md. Mostafijur Rahman, Nieb Hasan Neom, (参考訳) 大学教育は個人の知的・専門的な発展を形作る上で重要な役割を担い、知識と社会の発展に大きく貢献する。 一般的に、大学当局は学生の成績を直接管理し、その資格を地元の専用サーバーに保管している。 そのため、資格を変更する可能性があり、また様々な脅威や異なるセキュリティ攻撃に遭遇する可能性も非常に高い。 そこで本稿では,ブロックチェーンベースのセキュア認証管理システム(BCMS)を提案する。 提案したBCMSは、修正された2因子暗号化(m2FE)技術、RSA暗号システムとDNAエンコーディングを組み合わせて、認証プライバシの確保と教師と学生の認証の強化を図っている。 さらに、暗号クレデンシャルのサイズと変換時間を削減するために、ASCIIテーブルの代わりに文字から整数(C2I)テーブルを使用する。 最後に、BCMSの実験結果と分析により、最先端の成果に対する効果が示されている。

University education play a critical role in shaping intellectual and professional development of the individuals and contribute significantly to the advancement of knowledge and society. Generally, university authority has a direct control of students result making and stores the credential in their local dedicated server. So, there is chance to alter the credential and also have a very high possibility to encounter various threats and different security attacks. To resolve these, we propose a blockchain based secure credential management system (BCMS) for efficiently storing, managing and recovering credential without involving the university authority. The proposed BCMS incorporates a modified two factor encryption (m2FE) technique, a combination of RSA cryptosystem and a DNA encoding to ensure credential privacy and an enhanced authentication scheme for teachers and students. Besides, to reduce size of the cipher credential and its conversion time, we use character to integer (C2I) table instead of ASCII table. Finally, the experimental result and analysis of the BCMS illustrate the effectiveness over state of the art works.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-04
# 映画ハイライト生成システムにおけるファイトシーン検出

Fight Scene Detection for Movie Highlight Generation System ( http://arxiv.org/abs/2406.05152v1 )

ライセンス: Link先を確認
Aryan Mathur, (参考訳) 本稿では,双方向長短期記憶(Bidirectional Long Short-Term Memory, BiLSTM)ネットワークを用いて,深層学習とニューラルネットワークに基づく映画ハイライト生成システム(MHGS)に使用可能なFSD(Fight Scene Detection)モデルを提案する。 映画は通常、観客を驚かせるためにファイトシーンを持っている。 トレーラー・ジェネレーションや、その他のハイライト・ジェネレーションの応用については、まずこれらのシーンを手動で識別し、それらをコンパイルして目的に合うハイライトを生成するのは大変残念である。 提案するFSDシステムは,映画シーンの時間的特徴を利用して,戦闘シーンを自動的に識別する。 これにより、キャプチャング映画のハイライトを効果的に制作するのに役立つ。 提案手法の精度は93.5%であり,Hough Forestsによる2D CNNよりも92%高く,精度が65%である3D CNNよりもかなり高い。

In this paper of a research based project, using Bidirectional Long Short-Term Memory (BiLSTM) networks, we provide a novel Fight Scene Detection (FSD) model which can be used for Movie Highlight Generation Systems (MHGS) based on deep learning and Neural Networks . Movies usually have Fight Scenes to keep the audience amazed. For trailer generation, or any other application of Highlight generation, it is very tidious to first identify all such scenes manually and then compile them to generate a highlight serving the purpose. Our proposed FSD system utilises temporal characteristics of the movie scenes and thus is capable to automatically identify fight scenes. Thereby helping in the effective production of captivating movie highlights. We observe that the proposed solution features 93.5% accuracy and is higher than 2D CNN with Hough Forests which being 92% accurate and is significantly higher than 3D CNN which features an accuracy of 65%.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-04
# 弾性フルウェーブフォームインバージョン : 問題物理はデータ駆動技術をどのように改善するか?

Elastic Full-Waveform Inversion : How the physics of problem improves data-driven techniques? ( http://arxiv.org/abs/2406.05153v1 )

ライセンス: Link先を確認
Vahid Negahdari, Seyed Reza Moghadasi, Mohammad Reza Razvan, (参考訳) フルウェーブフォーム・インバージョン(Full-Waveform Inversion, FWI)は、記録された地震波形と予測された地震波形のミスフィットを低減し、地下物理特性の詳細な推定を行う非線形反復型地震イメージング技術である。 それでも、FWIの強い非線形性は、局所ミニマにおける最適化をトラップすることができる。 この問題は、不適切な初期値、測定における低周波の欠如、ノイズ、その他の関連する考慮事項などの要因によって生じる。 この課題に対処し、先進的な機械学習技術の出現とともに、深層学習のようなデータ駆動手法は、地球物理学界で著しく注目を集めている。 さらに、弾性効果を正確に表現するために、弾性波方程式をFWIに含めるべきである。 データ駆動技術と弾性散乱理論の交差は、機会と課題を提示する。 本稿では, 弾性散乱(問題物理)の知識を応用し, 深層学習技術と統合することにより, 時間調和FWIの解法を提案し, 純粋なデータ駆動手法と比較して精度を向上する。 さらに,変分オートエンコーダの構造を変更することで,問題の物理に基づく確率論的深層学習手法を導入し,解の不確かさを探索する。 この分野でのデータセットの可用性の制限と提案手法の性能と精度を評価するため,我々は,現実に近い包括的データセットを作成し,提案手法の比較分析を行う。

Full-Waveform Inversion (FWI) is a nonlinear iterative seismic imaging technique that, by reducing the misfit between recorded and predicted seismic waveforms, can produce detailed estimates of subsurface geophysical properties. Nevertheless, the strong nonlinearity of FWI can trap the optimization in local minima. This issue arises due to factors such as improper initial values, the absence of low frequencies in the measurements, noise, and other related considerations. To address this challenge and with the advent of advanced machine-learning techniques, data-driven methods, such as deep learning, have attracted significantly increasing attention in the geophysical community. Furthermore, the elastic wave equation should be included in FWI to represent elastic effects accurately. The intersection of data-driven techniques and elastic scattering theories presents opportunities and challenges. In this paper, by using the knowledge of elastic scattering (Physics of problem) and integrating it with deep learning techniques, we propose methods for the solution of time-harmonic FWI to enhance accuracy compared to pure data-driven approaches. Moreover, by modifying the structure of the Variational Autoencoder, we introduce a probabilistic deep learning method based on the physics of the problem that enables us to explore the uncertainties of the solution. According to the limited availability of datasets in this field and to assess the performance and accuracy of the proposed methods, we create a comprehensive dataset close to reality and conduct a comparative analysis of the presented approaches to it.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-04
# ベイジアンインセンティブ適合性を有する2層市場に対する動的オンライン勧告

Dynamic Online Recommendation for Two-Sided Market with Bayesian Incentive Compatibility ( http://arxiv.org/abs/2406.04374v1 )

ライセンス: Link先を確認
Yuantong Li, Guang Cheng, Xiaowu Dai, (参考訳) レコメンダシステムは、ユーザを関連製品やサービスに結びつけることで、インターネット経済において重要な役割を担っている。 しかし, 効果的なレコメンデーションシステムの設計には, 1) 既知の嗜好の活用に対する新製品探索のバランスをとるための探索・探索のトレードオフ, (2) ユーザの自己関心行動や異種嗜好を考慮した動的インセンティブの相違, という2つの課題がある。 本稿では,これらの課題をDBICRP(Dynamic Bayesian Incentive-Compatible Recommendation Protocol)に形式化する。 DBICRPに対処するために、インセンティブ付き探索と効率的なオフライン学習コンポーネントを統合する2段階アルゴリズム(RCB)を提案する。 第1段階で,本アルゴリズムは,十分なサンプルサイズを決定するために,動的インセンティブ互換性を維持しつつ,利用可能な製品を探索する。 第2段階では、任意の機械学習手法と統合された逆比例ギャップサンプリングを用いて、サブ線形後悔を保証する。 理論的には、RCBが$O(\sqrt{KdT})を後悔し、ガウス的前提の下でベイズ的インセンティブ互換性(BIC)を満たすことを証明している。 RCBの強いインセンティブの獲得、サブリニアな後悔、そしてシミュレーションによる堅牢性、そしてパーソナライズされたワーファリン投与に対する現実世界の応用を実証的に検証する。 我々の研究は、オンラインの嗜好学習環境におけるインセンティブを意識したレコメンデーションに原則化されたアプローチを提供する。

Recommender systems play a crucial role in internet economies by connecting users with relevant products or services. However, designing effective recommender systems faces two key challenges: (1) the exploration-exploitation tradeoff in balancing new product exploration against exploiting known preferences, and (2) dynamic incentive compatibility in accounting for users' self-interested behaviors and heterogeneous preferences. This paper formalizes these challenges into a Dynamic Bayesian Incentive-Compatible Recommendation Protocol (DBICRP). To address the DBICRP, we propose a two-stage algorithm (RCB) that integrates incentivized exploration with an efficient offline learning component for exploitation. In the first stage, our algorithm explores available products while maintaining dynamic incentive compatibility to determine sufficient sample sizes. The second stage employs inverse proportional gap sampling integrated with an arbitrary machine learning method to ensure sublinear regret. Theoretically, we prove that RCB achieves $O(\sqrt{KdT})$ regret and satisfies Bayesian incentive compatibility (BIC) under a Gaussian prior assumption. Empirically, we validate RCB's strong incentive gain, sublinear regret, and robustness through simulations and a real-world application on personalized warfarin dosing. Our work provides a principled approach for incentive-aware recommendation in online preference learning settings.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-04
# 依存時系列のスパース高次元グラフィカルモデル学習について

On Sparse High-Dimensional Graphical Model Learning For Dependent Time Series ( http://arxiv.org/abs/2111.07897v3 )

ライセンス: Link先を確認
Jitendra K. Tugnait, (参考訳) 本研究では, 疎で高次元の定常なガウス時間系列の条件独立グラフ(CIG)を推定する問題を考える。 観測された時系列に対して十分な周波数領域統計量に基づくスパース群ラスソに基づく周波数領域の定式化について述べる。 本稿では,マルチプライヤ法 (ADMM) の交互方向法を用いて,スパース群ラッソ法(sparse-group lasso penalized log-likelihood)の最適化について検討する。 逆PSD推定器のフロベニウスノルムを真値に収束させる十分条件を全周波数で共同で提供する。 この結果は収束率ももたらします。 また,ベイズ情報量規準に基づくチューニングパラメータの選択を実験的に検討し,合成データと実データの両方を用いた数値例を用いて提案手法について述べる。

We consider the problem of inferring the conditional independence graph (CIG) of a sparse, high-dimensional stationary multivariate Gaussian time series. A sparse-group lasso-based frequency-domain formulation of the problem based on frequency-domain sufficient statistic for the observed time series is presented. We investigate an alternating direction method of multipliers (ADMM) approach for optimization of the sparse-group lasso penalized log-likelihood. We provide sufficient conditions for convergence in the Frobenius norm of the inverse PSD estimators to the true value, jointly across all frequencies, where the number of frequencies are allowed to increase with sample size. This results also yields a rate of convergence. We also empirically investigate selection of the tuning parameters based on Bayesian information criterion, and illustrate our approach using numerical examples utilizing both synthetic and real data.
翻訳日:2024-06-08 01:27:18 公開日:2024-06-04
# LLMによる動的・適応的特徴生成

Dynamic and Adaptive Feature Generation with LLM ( http://arxiv.org/abs/2406.03505v1 )

ライセンス: Link先を確認
Xinhao Zhang, Jinghan Zhang, Banafsheh Rekabdar, Yuanchun Zhou, Pengfei Wang, Kunpeng Liu, (参考訳) 特徴空間の表現は、データポイントがベクトル化され、今後のモデリングのために組み込まれる重要な環境である。 したがって、機械学習(ML)アルゴリズムの有効性は、特徴工学の品質と密接に関連している。 最も重要な手法の1つとして、特徴生成は生データをモデルトレーニングに適応した特徴空間に変換し、さらにその空間を洗練させる。 自動機能エンジニアリングと機能生成の進歩にもかかわらず、現在の方法論は、説明責任の欠如、適用可能性の制限、柔軟性のない戦略の3つの根本的な問題に悩まされることが多い。 これらの欠点は、さまざまなシナリオにまたがるMLモデルのデプロイを頻繁に妨げ、制限する。 本研究は,大規模言語モデル(LLM)と特徴生成プロンプトを併用して,これらの課題に対処する新しいアプローチを提案する。 本稿では,特徴生成プロセスの解釈可能性を高める動的かつ適応的な特徴生成手法を提案する。 弊社のアプローチは、さまざまなデータタイプやタスクに適用可能性を広げ、戦略的柔軟性よりも優位性を引き出す。 幅広い実験により,本手法は既存手法よりもはるかに優れていることが示された。

The representation of feature space is a crucial environment where data points get vectorized and embedded for upcoming modeling. Thus the efficacy of machine learning (ML) algorithms is closely related to the quality of feature engineering. As one of the most important techniques, feature generation transforms raw data into an optimized feature space conducive to model training and further refines the space. Despite the advancements in automated feature engineering and feature generation, current methodologies often suffer from three fundamental issues: lack of explainability, limited applicability, and inflexible strategy. These shortcomings frequently hinder and limit the deployment of ML models across varied scenarios. Our research introduces a novel approach adopting large language models (LLMs) and feature-generating prompts to address these challenges. We propose a dynamic and adaptive feature generation method that enhances the interpretability of the feature generation process. Our approach broadens the applicability across various data types and tasks and draws advantages over strategic flexibility. A broad range of experiments showcases that our approach is significantly superior to existing methods.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-04
# 語彙データ分類のためのファジィ畳み込みニューラルネットワーク

Fuzzy Convolution Neural Networks for Tabular Data Classification ( http://arxiv.org/abs/2406.03506v1 )

ライセンス: Link先を確認
Arun D. Kulkarni, (参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、特に画像やテキストの分類タスクにおいて、様々な領域における顕著な性能のために、多くの注目を集めている。 しかし、表形式のデータ分類への応用はいまだ未定である。 バイオインフォマティクス、ファイナンス、非画像データが一般的である医療など、多くの分野がある。 非画像データの分類にCNNを適用することは、依然として非常に困難である。 本稿では,従来の機械学習手法と深層学習手法のギャップを埋めることを目的として,表層データ分類におけるCNNの有効性について検討する。 本稿では,特徴ベクトル内の局所パターンを捉えるための表データに適した,ファジィ畳み込みニューラルネットワーク(FCNN)を提案する。 提案手法では,特徴値をファジィメンバシップにマップする。 ファジィメンバシップベクトルは、CNNモデルのトレーニングに使用される画像に変換される。 訓練されたCNNモデルは未知の機能ベクトルを分類するために使用される。 提案手法を検証するために,6つの複雑なノイズデータセットを生成した。 各データセットからランダムに70パーセントのサンプルをトレーニングに使用し、30%をテストに使用しました。 データセットはまた、決定木(DT)、サポートベクターマシン(SVM)、ファジィニューラルネットワーク(FNN)、ベイズ分類器、ランダムフォレスト(RF)といった最先端の機械学習アルゴリズムを使用して分類された。 実験結果から,提案手法は従来の手法と比較して,有意な表現を表象データから効果的に学習し,競争力や優れた性能を達成できることが示唆された。 全体として、提案したFCNNモデルは、表型データ分類タスクの代替として有望であり、構造化データ分析におけるディープラーニングを活用する新たな機会を、新たな期待と潜在的に解放する可能性を示唆している。

Recently, convolution neural networks (CNNs) have attracted a great deal of attention due to their remarkable performance in various domains, particularly in image and text classification tasks. However, their application to tabular data classification remains underexplored. There are many fields such as bioinformatics, finance, medicine where nonimage data are prevalent. Adaption of CNNs to classify nonimage data remains highly challenging. This paper investigates the efficacy of CNNs for tabular data classification, aiming to bridge the gap between traditional machine learning approaches and deep learning techniques. We propose a novel framework fuzzy convolution neural network (FCNN) tailored specifically for tabular data to capture local patterns within feature vectors. In our approach, we map feature values to fuzzy memberships. The fuzzy membership vectors are converted into images that are used to train the CNN model. The trained CNN model is used to classify unknown feature vectors. To validate our approach, we generated six complex noisy data sets. We used randomly selected seventy percent samples from each data set for training and thirty percent for testing. The data sets were also classified using the state-of-the-art machine learning algorithms such as the decision tree (DT), support vector machine (SVM), fuzzy neural network (FNN), Bayes classifier, and Random Forest (RF). Experimental results demonstrate that our proposed model can effectively learn meaningful representations from tabular data, achieving competitive or superior performance compared to existing methods. Overall, our finding suggests that the proposed FCNN model holds promise as a viable alternative for tabular data classification tasks, offering a fresh prospective and potentially unlocking new opportunities for leveraging deep learning in structured data analysis.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-04
# 差別化プライバシの一般化保証に関する新しい分析

A New Analysis of Differential Privacy's Generalization Guarantees ( http://arxiv.org/abs/1909.03577v2 )

ライセンス: Link先を確認
Christopher Jung, Katrina Ligett, Seth Neel, Aaron Roth, Saeed Sharifi-Malvajerdi, Moshe Shenfeld, (参考訳) 我々は、適応データ解析の基礎となる「転送定理」の新たな証明を与える: 微分プライベートでサンプル精度の高い、適応的に選択された統計的クエリに答えるメカニズムは、正解ではない。 私たちの新しい証明は初等的で、他の場所で役立つと期待されている構造的な洞察を与えてくれます。 以下に示す。 1) 差分プライバシーは、相互作用の転写によって引き起こされるデータセットの後方分布に対するクエリの期待が、データ分布上の真の値に近くなることを保証し、 2) 標本の精度は, そのメカニズムによって生成される問合せ応答が, 高い確率でその先行期待値に近いことを確実にする。 この第2の主張は、このデータセットが、そのメカニズムが解答にコミットした後、後部分布から再サンプリングされることを想像する思考実験から従う。 移行定理は、これらの2つの境界を和ることによって従うが、特に、前処理で高い確率境界を導出するために使われる「モニター引数」を避ける。 我々の新しい証明手法のアップショットは、改善が漸近性(タイトであることが知られている)よりも定数にあるにもかかわらず、得られた具体的な境界は、最もよく知られた境界よりもかなり良いことである。 我々の新しい境界線は、従来の最先端技術と比べて劇的に小さなデータセットサイズで、単純で「サンプル分割」のベースラインを上回り、この文献のテクニックを実用性に近づけます。

We give a new proof of the "transfer theorem" underlying adaptive data analysis: that any mechanism for answering adaptively chosen statistical queries that is differentially private and sample-accurate is also accurate out-of-sample. Our new proof is elementary and gives structural insights that we expect will be useful elsewhere. We show: 1) that differential privacy ensures that the expectation of any query on the posterior distribution on datasets induced by the transcript of the interaction is close to its true value on the data distribution, and 2) sample accuracy on its own ensures that any query answer produced by the mechanism is close to its posterior expectation with high probability. This second claim follows from a thought experiment in which we imagine that the dataset is resampled from the posterior distribution after the mechanism has committed to its answers. The transfer theorem then follows by summing these two bounds, and in particular, avoids the "monitor argument" used to derive high probability bounds in prior work. An upshot of our new proof technique is that the concrete bounds we obtain are substantially better than the best previously known bounds, even though the improvements are in the constants, rather than the asymptotics (which are known to be tight). As we show, our new bounds outperform the naive "sample-splitting" baseline at dramatically smaller dataset sizes compared to the previous state of the art, bringing techniques from this literature closer to practicality.
翻訳日:2024-06-07 05:08:04 公開日:2024-06-04
# 話者認識システムのバージョン制御

Version Control of Speaker Recognition Systems ( http://arxiv.org/abs/2007.12069v7 )

ライセンス: Link先を確認
Quan Wang, Ignacio Lopez Moreno, (参考訳) 本稿では,話者認識システムにおける最も困難な実践的工学的問題の1つとして,モデルとユーザプロファイルのバージョン管理について論じる。 典型的な話者認識システムは、ユーザが提供する登録音声からプロファイルを生成する登録ステージと、格納されたプロファイルに対してランタイムオーディオの音声アイデンティティを比較するランタイムステージの2段階からなる。 技術が進歩するにつれて、より良い性能を得るために話者認識システムが更新される必要がある。 しかし、保存されたユーザープロファイルがそれに従って更新されない場合、バージョンミスマッチは意味のない認識結果をもたらす。 本稿では,Googleにおいて長年の工学的実践から慎重に研究されてきた話者認識システムのバージョン管理戦略について述べる。 これらの戦略は、デバイス側デプロイメント、サーバ側デプロイメント、ハイブリッドデプロイメントという3つのグループに分類される。 様々なネットワーク構成下で異なる戦略と定量的なメトリクスを比較するために,話者認識システムの異なるサーバ側展開戦略のための,容易に拡張可能なPythonベースのシミュレーションフレームワークであるSpeakerVerSimを提案する。

This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-04
# 経路積分、複素確率および離散ワイル表現

Path integrals, complex probabilities and the discrete Weyl representation ( http://arxiv.org/abs/2108.12494v5 )

ライセンス: Link先を確認
Wayne Polyzou, (参考訳) 離散値パスのサンプル空間上の複素確率に対する経路の関数の期待値としてのリアルタイムパス積分の離散的定式化について検討する。 複素確率の項の定式化は、実時間経路積分の最近の再解釈によって、経路のシリンダー集合上の複素確率分布に対するポテンシャル汎函数の期待値として動機付けられる。 この研究における離散的な定式化は、有限個の結果を持つ可観測物に適用できるワイル代数の離散バージョンに基づいている。 この研究における複素確率の起源は完全性関係である。 離散的な定式化では、複素確率は条件付き確率の積に正確に分解され、正確なユニタリ性は近似の各レベルで維持される。 離散系による無限次元量子系の近似について論じる。 散乱理論や量子場理論への応用を解説する。

A discrete formulation of the real-time path integral as the expectation value of a functional of paths with respect to a complex probability on a sample space of discrete valued paths is explored. The formulation in terms of complex probabilities is motivated by a recent reinterpretation of the real-time path integral as the expectation value of a potential functional with respect to a complex probability distribution on cylinder sets of paths. The discrete formulation in this work is based on a discrete version of Weyl algebra that can be applied to any observable with a finite number of outcomes. The origin of the complex probability in this work is the completeness relation. In the discrete formulation the complex probability exactly factors into products of conditional probabilities and exact unitarity is maintained at each level of approximation. The approximation of infinite dimensional quantum systems by discrete systems is discussed. Applications to scattering theory and quantum field theory are illustrated.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-04
# ラベルはいくつあるか?ゴールドスタンダードのラベルをじっくり見てみよう

How many labelers do you have? A closer look at gold-standard labels ( http://arxiv.org/abs/2206.12041v2 )

ライセンス: Link先を確認
Chen Cheng, Hilal Asi, John Duchi, (参考訳) ほとんどの教師付き学習データセットの構築は、各インスタンスの複数のラベルを収集して、ラベルを集約して“ゴールドスタンダード”のタイプを形成する。 我々は、このプロセスの(スティル化)理論モデルを開発し、その統計的結果を分析して、このパイプラインの知恵を疑問視する。 しかし、物語全体は微妙であり、集約されたラベル情報とより完全なラベル情報との対比は、集約された情報を利用する推定器が頑健だが収束速度が遅い問題に依存し、全てのラベルを効果的に活用できる推定器が真のラベル付けプロセスに忠実さ(あるいは学習)がある場合、より早く収束する。 この理論は、非アグリゲートラベルが学習性能を改善することを含め、現実のデータセットに対していくつかの予測を行う。

The construction of most supervised learning datasets revolves around collecting multiple labels for each instance, then aggregating the labels to form a type of "gold-standard". We question the wisdom of this pipeline by developing a (stylized) theoretical model of this process and analyzing its statistical consequences, showing how access to non-aggregated label information can make training well-calibrated models more feasible than it is with gold-standard labels. The entire story, however, is subtle, and the contrasts between aggregated and fuller label information depend on the particulars of the problem, where estimators that use aggregated information exhibit robust but slower rates of convergence, while estimators that can effectively leverage all labels converge more quickly if they have fidelity to (or can learn) the true labeling process. The theory makes several predictions for real-world datasets, including when non-aggregate labels should improve learning performance, which we test to corroborate the validity of our predictions.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-04
# 強結合量子多体系へのパス積分的アプローチ

Path-integral approaches to strongly-coupled quantum many-body systems ( http://arxiv.org/abs/2210.16676v3 )

ライセンス: Link先を確認
Kilian Fraboulet, (参考訳) この理論の中核は、場の量子論の経路積分の定式化と、有限サイズの強く結合した量子多体系を記述する能力である。 集団行動は、平均場アプローチにおける自発対称性破壊(SSB)の実装を通じて、そのようなシステムで効率的に記述することができる。 しかし、有限サイズ系では熱力学限界が意味をなさないため、後者はSSBを一切示さず、平均場レベルで分解される対称性は復元されなければならない。 したがって、有限サイズの量子系の処理における理論的アプローチの効率は、自発的に壊れた対称性を回復する能力を通じて研究することができる。 この論文では、ゼロ次元の$O(N)$モデルは、多くの最先端のパス積分手法(Pad\'e-Borel, Borel-hypergeometric, conformal mapping)と組み合わされた摂動理論、摂動理論の強化版(レフシェッツ・チンブルによる変換、最適化摂動理論による変換)、有効作用に基づく自己整合摂動理論(外場ループ展開(LOAF)、コーンウォール・ジャックー・トブロリス(CJT)形式主義(英語版)、4PPI実効作用(英語版)、汎関数的再帰群(GFR)(GFR)技術(GFR))など、理論実験として扱われる。 これらの技術間のつながりも強調されている。 さらに、経路積分形式主義は、ハバード・ストラトノビッチ変換を通じて正確な方法で集合的な自由度を導入する可能性を与え、上記の方法に対するそのような変換の効果についても詳細に検討する。

The core of this thesis is the path-integral formulation of quantum field theory and its ability to describe strongly-coupled quantum many-body systems of finite size. Collective behaviors can be efficiently described in such systems through the implementation of spontaneous symmetry breaking (SSB) in mean-field approaches. However, as the thermodynamic limit does not make sense in finite-size systems, the latter can not exhibit any SSB and the symmetries which are broken down at the mean-field level must therefore be restored. The efficiency of theoretical approaches in the treatment of finite-size quantum systems can therefore be studied via their ability to restore spontaneously broken symmetries. In this thesis, a zero-dimensional $O(N)$ model is taken as a theoretical laboratory to perform such an investigation with many state-of-the-art path-integral techniques: perturbation theory combined with various resummation methods (Pad\'e-Borel, Borel-hypergeometric, conformal mapping), enhanced versions of perturbation theory (transseries derived via Lefschetz thimbles, optimized perturbation theory), self-consistent perturbation theory based on effective actions (auxiliary field loop expansion (LOAF), Cornwall-Jackiw-Tomboulis (CJT) formalism, 4PPI effective action, ...), functional renormalization group (FRG) techniques (FRG based on the Wetterich equation, DFT-FRG, 2PI-FRG). Connections between these different techniques are also emphasized. In addition, the path-integral formalism provides us with the possibility to introduce collective degrees of freedom in an exact fashion via Hubbard-Stratonovich transformations: the effect of such transformations on the aforementioned methods is also examined in detail.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-04
# データを使い果たせるか? 人為的データに基づくLLMスケーリングの限界

Will we run out of data? Limits of LLM scaling based on human-generated data ( http://arxiv.org/abs/2211.04325v2 )

ライセンス: Link先を確認
Pablo Villalobos, Anson Ho, Jaime Sevilla, Tamay Besiroglu, Lennart Heim, Marius Hobbhahn, (参考訳) 人為的テキストデータの公開により生じるLLMスケーリングの潜在的な制約について検討する。 我々は、現在の傾向に基づいて、トレーニングデータの需要が増加していることを予測し、公開人文データの総在庫を推定する。 この結果から,現在のLLM開発傾向が続くと,2026年から2032年にかけての公開人文データの蓄積量とほぼ同等の大きさのデータセット上でモデルをトレーニングし,過度にトレーニングされた場合,わずかに早期に学習できることが示唆された。 人間の生成したテキストデータセットがこれ以上スケールできない場合に、言語モデリングの進歩がどのように続くかを検討する。 我々は、合成データ生成、データリッチドメインからの変換学習、データ効率の改善がさらなる進歩を後押しするのではないかと論じている。

We investigate the potential constraints on LLM scaling posed by the availability of public human-generated text data. We forecast the growing demand for training data based on current trends and estimate the total stock of public human text data. Our findings indicate that if current LLM development trends continue, models will be trained on datasets roughly equal in size to the available stock of public human text data between 2026 and 2032, or slightly earlier if models are overtrained. We explore how progress in language modeling can continue when human-generated text datasets cannot be scaled any further. We argue that synthetic data generation, transfer learning from data-rich domains, and data efficiency improvements might support further progress.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-04
# レジストのない敵に対するキャリブレーション回帰

Calibrated Regression Against An Adversary Without Regret ( http://arxiv.org/abs/2302.12196v3 )

ライセンス: Link先を確認
Shachi Deshpande, Charles Marx, Volodymyr Kuleshov, (参考訳) 確率分布に従わないオンライン環境での確率予測に関心がある。 本研究は,(1)モデル信頼を正確に反映する有効な確率を生み出すこと,(2)従来の性能概念(例えば高い精度)が維持されていること,の2つの目標を達成することを目指している。 敵が選択したデータを含む任意のデータポイントのストリーム上でこれらの目標を達成することを保証したオンラインアルゴリズムを導入する。 具体的には,(1) 基準値,すなわち80%の信頼区間が実際の80%の時間を含むこと,(2) ユーザが特定したベースラインモデルに対する後悔度が低いことを予測した。 我々は,これらの目標を回帰的に確実に達成するポスト・ホック・リカレーション・ストラテジーを実装し,従来のアルゴリズムを分類や達成に応用するが,(2)ではない。 データ分散が時間とともに変化するオンラインモデルに基づく意思決定タスクであるベイズ最適化の文脈において、我々の手法は、最適性を改善するために、高速化された収束をもたらす。

We are interested in probabilistic prediction in online settings in which data does not follow a probability distribution. Our work seeks to achieve two goals: (1) producing valid probabilities that accurately reflect model confidence; and (2) ensuring that traditional notions of performance (e.g., high accuracy) still hold. We introduce online algorithms guaranteed to achieve these goals on arbitrary streams of data points, including data chosen by an adversary. Specifically, our algorithms produce forecasts that are (1) calibrated -- i.e., an 80% confidence interval contains the true outcome 80% of the time -- and (2) have low regret relative to a user-specified baseline model. We implement a post-hoc recalibration strategy that provably achieves these goals in regression; previous algorithms applied to classification or achieved (1) but not (2). In the context of Bayesian optimization, an online model-based decision-making task in which the data distribution shifts over time, our method yields accelerated convergence to improved optima.
翻訳日:2024-06-07 04:46:49 公開日:2024-06-04
# 量子ノイズスペクトロスコピーのためのランダムパルスシーケンス

Random Pulse Sequences for Qubit Noise Spectroscopy ( http://arxiv.org/abs/2303.00909v2 )

ライセンス: Link先を確認
Kaixin Huang, Demitry Farfurnik, Alireza Seif, Mohammad Hafezi, Yi-Kai Liu, (参考訳) クビットノイズスペクトロスコピーは、オープン量子系の実験的研究にとって重要なツールである。 しかし、異なる周波数での雑音スペクトル密度を複数測定する必要があるため、従来のノイズスペクトル実装手法は時間を要する。 ここでは、スペクトル密度を素早く特徴づける別の方法について述べる。 本手法は, 位相抽出のための数学的手法を用いて, ノイズスペクトルの任意の線形関数を計測できるパルス間相関を慎重に制御したランダムパルス列を生成する。 このような測定により、ノイズスペクトルの$k$'th-order モーメントを推定し、圧縮センシングによりスパーススペクトルを再構成することができる。 現実的な物理系, 自己集合量子ドット上でのランダムパルス列の性能のシミュレーションにより, 従来の動的デカップリング法と比較して, ノイズスペクトルの抽出における桁違いの高速化が示された。

Qubit noise spectroscopy is an important tool for the experimental investigation of open quantum systems. However, conventional techniques for implementing noise spectroscopy are time-consuming, because they require multiple measurements of the noise spectral density at different frequencies. Here we describe an alternative method for quickly characterizing the spectral density. Our method uses mathematical techniques for phase retrieval, in order to generate random pulse sequences with carefully-controlled correlations among the pulses, which can measure arbitrary linear functionals of the noise spectrum. Such measurements allow us to estimate $k$'th-order moments of the noise spectrum, as well as to reconstruct sparse noise spectra via compressed sensing. Our simulations of the performance of the random pulse sequences on a realistic physical system, self-assembled quantum dots, reveal a speedup of an order of magnitude in extracting the noise spectrum, compared to conventional dynamical decoupling approaches.
翻訳日:2024-06-07 04:46:49 公開日:2024-06-04
# 反強磁性ボソニック$t$-J$モデルとそのツイーザーアレイにおける量子シミュレーション

Antiferromagnetic bosonic $t$-$J$ models and their quantum simulation in tweezer arrays ( http://arxiv.org/abs/2305.02322v4 )

ライセンス: Link先を確認
Lukas Homeier, Timothy J. Harris, Tizian Blatz, Sebastian Geier, Simon Hollerith, Ulrich Schollwöck, Fabian Grusdt, Annabelle Bohrdt, (参考訳) 光学的ツイーザーアレイと強い相互作用(分子の双極子交換とライドバーグ原子のファンダーワール相互作用)の組み合わせは、様々な量子スピンモデルの探索の扉を開いた。 次の重要なステップは、そのような設定とモバイルのドーパントの組み合わせである。これにより、多くの強い相関量子材料を弱めていると信じられている物理学をシミュレートすることができる。 本稿では, 局所ヒルベルト空間を3つの内部原子状態あるいは分子状態の集合に符号化することで, ボゾンt-Jモデルを実現する実験手法を提案する。 スピン間の反強磁性(AFM)カップレートの工学的結合により、高T_c$カップレートと同様の電荷運動と磁気秩序の競合を実現することができる。 2DボソニックAFM t-Jモデルの基底状態がこれまで広く研究されていないことから、まずは2つのドーパント(ボソニック統計が果たす最も単純な例)のケースを分析し、フェミオンの場合と対比することから始める。 六脚シリンダ上で大規模密度行列再正規化群 (DMRG) 計算を行い, ストリップを形成するボソニックホールの強い傾向を見出した。 このことは、ボソニック、AFM t-Jモデルが強相関電子の集合相と同様の物理を含むことを証明している。

The combination of optical tweezer arrays with strong interactions -- via dipole-exchange of molecules and van-der-Waals interactions of Rydberg atoms -- has opened the door for the exploration of a wide variety of quantum spin models. A next significant step will be the combination of such settings with mobile dopants: This will enable to simulate the physics believed to underlie many strongly correlated quantum materials. Here we propose an experimental scheme to realize bosonic t-J models via encoding the local Hilbert space in a set of three internal atomic or molecular states. By engineering antiferromagnetic (AFM) couplings between spins, competition between charge motion and magnetic order similar to that in high-$T_c$ cuprates can be realized. Since the ground states of the 2D bosonic AFM t-J model we propose to realize have not been studied extensively before, we start by analyzing the case of two dopants -- the simplest instance in which their bosonic statistics plays a role, and contrast our results to the fermionic case. We perform large-scale density matrix renormalization group (DMRG) calculations on six-legged cylinders, and find a strong tendency for bosonic holes to form stripes. This demonstrates that bosonic, AFM t-J models may contain similar physics as the collective phases in strongly correlated electrons.
翻訳日:2024-06-07 04:46:49 公開日:2024-06-04
# 非有界変動重み下の浅無限広ベイズニューラルネットワークの後方推定

Posterior Inference on Shallow Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance ( http://arxiv.org/abs/2305.10664v3 )

ライセンス: Link先を確認
Jorge Loría, Anindya Bhadra, (参考訳) Neal (1996) の古典的かつ影響力のある著作から、ベイズニューラルネットワークの1つの隠れ層を持つ無限幅スケーリング限界は、ネットワーク重みが事前の分散に束縛されたガウス過程であることが知られている。 Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。 ガウス過程のトラクタブルな性質は、単純後部推論と不確かさの定量化を可能にし、有限幅のネットワークと比較して極限過程の研究を著しく単純化する。 しかし、非有界な分散を持つニューラルネットワークの重みは、ユニークな課題を生んでいる。 この場合、古典的な中心極限定理は崩壊し、スケーリング極限が適切な条件下での$\alpha$-stableプロセスであることはよく知られている。 しかし、現在の文献は主にこれらの過程の下での前方シミュレーションに限られており、そのようなスケーリング制限の下での後方推論の問題はガウス過程の場合とは異なり、ほとんど未適応のままである。 この目的のために、我々のコントリビューションは、条件付きガウス表現を用いて、後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブルな後部推論と不確実な定量化にガウス過程の機械をフル活用することができる。

From the classical and influential works of Neal (1996), it is known that the infinite width scaling limit of a Bayesian neural network with one hidden layer is a Gaussian process, when the network weights have bounded prior variance. Neal's result has been extended to networks with multiple hidden layers and to convolutional neural networks, also with Gaussian process scaling limits. The tractable properties of Gaussian processes then allow straightforward posterior inference and uncertainty quantification, considerably simplifying the study of the limit process compared to a network of finite width. Neural network weights with unbounded variance, however, pose unique challenges. In this case, the classical central limit theorem breaks down and it is well known that the scaling limit is an $\alpha$-stable process under suitable conditions. However, current literature is primarily limited to forward simulations under these processes and the problem of posterior inference under such a scaling limit remains largely unaddressed, unlike in the Gaussian process case. To this end, our contribution is an interpretable and computationally efficient procedure for posterior inference, using a conditionally Gaussian representation, that then allows full use of the Gaussian process machinery for tractable posterior inference and uncertainty quantification in the non-Gaussian regime.
翻訳日:2024-06-07 04:46:49 公開日:2024-06-04
# 群不変GANの統計的保証

Statistical Guarantees of Group-Invariant GANs ( http://arxiv.org/abs/2305.13517v3 )

ライセンス: Link先を確認
Ziyu Chen, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu, (参考訳) GAN(Group-invariant Generative Adversarial Network)は、ジェネレータと識別器を群対称性で固定したGANの一種である。 実験的な研究により、これらのネットワークはデータ効率を著しく改善し、グループ不変の分布を学習できることが示されている。 本研究では,グループ不変なGANのサンプル複雑性の低減を解析することにより,この改善を厳密に定量化することを目的とする。 その結果,グループ不変分布を学習する場合,グループ不変GANに必要なサンプル数はグループサイズの因子によって比例的に減少することがわかった。 重要なのは、このサンプルの複雑さの低減は、拡張データの確率的依存のため、データ拡張によってのみ達成できないことである。 数値計算により,群不変GANを用いた学習とデータ拡張による学習の相違点が明らかになった。 本研究は,群不変な生成モデル,特にGANに対する最初の統計的性能保証を示し,群対称性を持つ他の生成モデルの研究に光を当てる可能性がある。

Group-invariant generative adversarial networks (GANs) are a type of GANs in which the generators and discriminators are hardwired with group symmetries. Empirical studies have shown that these networks are capable of learning group-invariant distributions with significantly improved data efficiency. In this study, we aim to rigorously quantify this improvement by analyzing the reduction in sample complexity for group-invariant GANs. Our findings indicate that when learning group-invariant distributions, the number of samples required for group-invariant GANs decreases proportionally by a factor of the group size. Importantly, this sample complexity reduction cannot be achieved merely through data augmentation due to the probabilistic dependence of augmented data. Numerical results substantiate our theory and highlight the stark contrast between learning with group-invariant GANs and using data augmentation. This work presents the first statistical performance guarantees for group-invariant generative models, specifically for GANs, and it may shed light on the study of other generative models with group symmetries.
翻訳日:2024-06-07 04:36:49 公開日:2024-06-04
# 予測補正によるスコアベース拡散モデルの収束性の改善

Improved Convergence of Score-Based Diffusion Models via Prediction-Correction ( http://arxiv.org/abs/2305.14164v3 )

ライセンス: Link先を確認
Francesco Pedrotti, Jan Maas, Marco Mondelli, (参考訳) スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。 その根底にある考え方は (i)データにノイズを加えることで、時間$T_1$のフォワードプロセスを実行する。 (ii)スコア関数を推定し、 三 このような見積もりを逆のプロセスの実行に使用すること。 逆過程は前方の定常分布と初期化されるので、既存の解析パラダイムは$T_1\to\infty$である。 理論的には、スコア近似の所定の精度について、収束保証は$T_1$が分岐すると失敗し、実際的な観点からは、大きな$T_1$が計算コストを増大させ、エラーの伝播をもたらす。 本稿では,まず前処理を実行した後,不正確なランゲヴィン力学を用いて最終分布を推定し,次にその過程を逆転させるという,一般的な予測器・相関器スキームのバージョンを考えることでこの問題に対処する。 我々の重要な技術的貢献は、一定の有限時間$T_1$でのみフォワードプロセスを実行する必要がある収束保証を提供することです。 我々の境界線は、入力次元とターゲット分布の準ガウスノルムに緩やかな対数依存を示し、データに最小の仮定を持ち、実際に最小化された量であるスコア近似の損失をL^2$制御することしか必要としない。

Score-based generative models (SGMs) are powerful tools to sample from complex data distributions. Their underlying idea is to (i) run a forward process for time $T_1$ by adding noise to the data, (ii) estimate its score function, and (iii) use such estimate to run a reverse process. As the reverse process is initialized with the stationary distribution of the forward one, the existing analysis paradigm requires $T_1\to\infty$. This is however problematic: from a theoretical viewpoint, for a given precision of the score approximation, the convergence guarantee fails as $T_1$ diverges; from a practical viewpoint, a large $T_1$ increases computational costs and leads to error propagation. This paper addresses the issue by considering a version of the popular predictor-corrector scheme: after running the forward process, we first estimate the final distribution via an inexact Langevin dynamics and then revert the process. Our key technical contribution is to provide convergence guarantees which require to run the forward process only for a fixed finite time $T_1$. Our bounds exhibit a mild logarithmic dependence on the input dimension and the subgaussian norm of the target distribution, have minimal assumptions on the data, and require only to control the $L^2$ loss on the score approximation, which is the quantity minimized in practice.
翻訳日:2024-06-07 04:36:49 公開日:2024-06-04
# 深部確率力学

Deep Stochastic Mechanics ( http://arxiv.org/abs/2305.19685v4 )

ライセンス: Link先を確認
Elena Orlova, Aleksei Ustimenko, Ruoxi Jiang, Peter Y. Lu, Rebecca Willett, (参考訳) 本稿では,確率力学と生成拡散モデルにインスパイアされた時間発展型シュリンガー方程式の数値シミュレーションのための,新しいディープラーニングに基づく手法を提案する。 問題次元で指数関数的にスケールする計算複雑性を示す既存の手法とは異なり、マルコフ拡散からサンプリングすることで波動関数の潜在低次元構造に適応することができる。 潜在次元によっては、我々の手法はより高次元の計算複雑性がはるかに低いかもしれない。 さらに、確率量子力学の新しい方程式を提案し、次元数に関して2次計算複雑性をもたらす。 数値シミュレーションにより、我々の理論的な知見を検証し、量子力学に使用される他のディープラーニングベースのアプローチと比較して、我々の手法の顕著な利点を示す。

This paper introduces a novel deep-learning-based approach for numerical simulation of a time-evolving Schr\"odinger equation inspired by stochastic mechanics and generative diffusion models. Unlike existing approaches, which exhibit computational complexity that scales exponentially in the problem dimension, our method allows us to adapt to the latent low-dimensional structure of the wave function by sampling from the Markovian diffusion. Depending on the latent dimension, our method may have far lower computational complexity in higher dimensions. Moreover, we propose novel equations for stochastic quantum mechanics, resulting in quadratic computational complexity with respect to the number of dimensions. Numerical simulations verify our theoretical findings and show a significant advantage of our method compared to other deep-learning-based approaches used for quantum mechanics.
翻訳日:2024-06-07 04:36:49 公開日:2024-06-04
# 因果効果推定のための校正値と等角値スコア

Calibrated and Conformal Propensity Scores for Causal Effect Estimation ( http://arxiv.org/abs/2306.00382v2 )

ライセンス: Link先を確認
Shachi Deshpande, Volodymyr Kuleshov, (参考訳) 確率スコアは一般的に観測データから治療効果を推定するために用いられる。 我々は、学習された確率スコアモデルの確率的出力を、90%の予測的治療確率が、治療グループに割り当てられた人の90%に対応するように校正し、この特性を保証するための簡単な校正手法を提案する。 重み付きおよび二重頑健な推定器を用いた場合, キャリブレーションが不偏処理効果推定の必要条件であることが証明された。 確率的確率性スコアモデルによって提供される不確かさの質に直接関係する因果効果の推定値に基づいて誤差境界を導出し、キャリブレーションが極端な確率重みを回避しつつ、この誤差境界を厳密に改善することを示す。 高次元画像共変量やゲノムワイド・アソシエーション(GWAS)研究を含むいくつかのタスクにおいて、校正された確率スコアによる因果効果評価の改善を実証した。 校正された妥当性スコアは、より訓練が早い単純なモデルを使用することで、GWAS解析の速度を2倍以上に向上させる。

Propensity scores are commonly used to estimate treatment effects from observational data. We argue that the probabilistic output of a learned propensity score model should be calibrated -- i.e., a predictive treatment probability of 90% should correspond to 90% of individuals being assigned the treatment group -- and we propose simple recalibration techniques to ensure this property. We prove that calibration is a necessary condition for unbiased treatment effect estimation when using popular inverse propensity weighted and doubly robust estimators. We derive error bounds on causal effect estimates that directly relate to the quality of uncertainties provided by the probabilistic propensity score model and show that calibration strictly improves this error bound while also avoiding extreme propensity weights. We demonstrate improved causal effect estimation with calibrated propensity scores in several tasks including high-dimensional image covariates and genome-wide association studies (GWASs). Calibrated propensity scores improve the speed of GWAS analysis by more than two-fold by enabling the use of simpler models that are faster to train.
翻訳日:2024-06-07 04:36:49 公開日:2024-06-04
# ARK: 結合によるロバストノックオフ推論

ARK: Robust Knockoffs Inference with Coupling ( http://arxiv.org/abs/2307.04400v2 )

ライセンス: Link先を確認
Yingying Fan, Lan Gao, Jinchi Lv, (参考訳) 本稿では,モデル-Xノックオフフレームワークの,不特定あるいは推定された特徴分布に対するロバスト性について検討する。 提案手法は,擬似発見率 (FDR) と$k$-wisewise error rate (k$-FWER) を用いて,実実装したノックオフアルゴリズムの特徴選択性能を理論的に検討し,その目標を達成する。 近似ノックオフ手順はモデルXノックオフ手順と異なり、前者は不特定または推定された特徴分布を使用する。 我々の理論解析における重要な手法は、近似ノックオフ手順とモデル-Xノックオフ手順とを結合して、これらの2つの手順のランダム変数が実現時に近いようにすることである。 このような結合モデル-Xノックオフ手順が存在する場合、近似ノックオフ手順は、目標レベルでの漸近FDRまたは$k$-FWER制御を実現することができる。 このような結合モデル-Xノックオフ変数の3つの具体的な構成を示し、それらの存在を検証し、モデル-Xノックオフフレームワークの堅牢性を正当化する。 さらに、我々は正式に、ノックオフ変数結合という概念をワッサーシュタイン距離のタイプに結びつける。

We investigate the robustness of the model-X knockoffs framework with respect to the misspecified or estimated feature distribution. We achieve such a goal by theoretically studying the feature selection performance of a practically implemented knockoffs algorithm, which we name as the approximate knockoffs (ARK) procedure, under the measures of the false discovery rate (FDR) and $k$-familywise error rate ($k$-FWER). The approximate knockoffs procedure differs from the model-X knockoffs procedure only in that the former uses the misspecified or estimated feature distribution. A key technique in our theoretical analyses is to couple the approximate knockoffs procedure with the model-X knockoffs procedure so that random variables in these two procedures can be close in realizations. We prove that if such coupled model-X knockoffs procedure exists, the approximate knockoffs procedure can achieve the asymptotic FDR or $k$-FWER control at the target level. We showcase three specific constructions of such coupled model-X knockoff variables, verifying their existence and justifying the robustness of the model-X knockoffs framework. Additionally, we formally connect our concept of knockoff variable coupling to a type of Wasserstein distance.
翻訳日:2024-06-07 04:26:20 公開日:2024-06-04
# トレースクラスを超えて -- ヒルベルト空間のテンソル積と量子物理学における作用素イデアル

Beyond trace class -- Tensor products of Hilbert spaces and operator ideals in quantum physics ( http://arxiv.org/abs/2308.04627v3 )

ライセンス: Link先を確認
Frank Oertel, (参考訳) 複素ヒルベルト空間の共役の意味から始め、Fr\'{e}chet-Riesz(半線型作用素の解析を-線型作用素理論に還元する)の定理の関連する応用から、アーラキ、ハーグ、カストラー(p=2$)という意味での代数量子場理論における核および絶対$p$-summing作用素の応用の再検討、さらに最近では一般確率空間(p=1$)の枠組みにおいてバナッハ作用素のピエッチュの意味でのイデアル、あるいはグロテンディークの意味でのバナッハ空間の同値なテンソル積が、量子物理学や情報理論の基礎や理論にさえ潜んでいることを概説する。 特に、代数的場の量子論におけるそれらの重要性に焦点をあてる。 そのような場合、ヒルベルト空間 $H\otimes_2 (K \otimes_2 L)$ と $(H \otimes_2 K) \otimes_2 L$ (Theorem 3.8) の間の正準同型を確立し、トレースクラス作用素の役割を再検討する。 ヒルベルト・シュミット作用素のクラスが適切であることや、2つの複素ヒルベルト空間のテンソル積のインプリッドバナッハ作用素の理想表現 (H \otimes_2 K$ (Proposition 3.4) や、量子テレポーテーション過程の純粋線型代数的記述 (Example 3.10) など、いくつかの応用が指定されている。

Starting from the meaning of the conjugate of a complex Hilbert space, including a related application of the theorem of Fr\'{e}chet-Riesz (by which an analysis of semilinear operators can be reduced to - linear - operator theory) to a revisit of applications of nuclear and absolutely $p$-summing operators in algebraic quantum field theory in the sense of Araki, Haag and Kastler ($p=2$) and more recently in the framework of general probabilistic spaces ($p=1$), we will outline that Banach operator ideals in the sense of Pietsch, or equivalently tensor products of Banach spaces in the sense of Grothendieck are even lurking in the foundations and philosophy of quantum physics and quantum information theory. In particular, we concentrate on their importance in algebraic quantum field theory. In doing so, we establish a canonical isometric isomorphism between the Hilbert spaces $H\otimes_2 (K \otimes_2 L)$ and $(H \otimes_2 K) \otimes_2 L$ (Theorem 3.8) and revisit the role of trace class operators. A few applications are specified, including the appropriateness of the class of Hilbert-Schmidt operators and an implied Banach operator ideal representation of the tensor product of two complex Hilbert spaces $H \otimes_2 K$ (Proposition 3.4) and a purely linear algebraic description of the quantum teleportation process (Example 3.10).
翻訳日:2024-06-07 04:16:10 公開日:2024-06-04
# 単純サイクル貯留層は普遍的である

Simple Cycle Reservoirs are Universal ( http://arxiv.org/abs/2308.10793v2 )

ライセンス: Link先を確認
Boyu Li, Robert Simon Fong, Peter Tiňo, (参考訳) 貯留層計算モデル(Reservoir computing model)は、不可変入力と動的結合重みを固定したリカレントニューラルネットワークのサブクラスを形成する。 状態空間(Reservoir)からの静的読み込みのみのトレーニングが可能であり、時間を通して勾配情報の伝播に関する既知の問題を回避することができる。 貯留層モデルは様々なタスクにうまく適用され、様々な環境下での時間不変のダイイングメモリダイナミックフィルタの普遍的な近似器であることが示されている。 単純な循環貯水池 (SCR) は、貯水池ユニットの等重量リング接続と、同じ絶対値の2値の入水貯水池の重み付けにより、厳格に制限された貯水池建築として提案されている。 このようなアーキテクチャは、多くの実用的なタスクにおいて性能劣化のないハードウェア実装に適している。 本研究では、複素領域におけるSCRの表現力について厳密に研究し、非制限線形貯水池系を(連続的な読み出しで)普遍的に近似できることを示し、従って一様有界な入力ストリーム上での時間不変フェーディングメモリフィルタについて述べる。

Reservoir computation models form a subclass of recurrent neural networks with fixed non-trainable input and dynamic coupling weights. Only the static readout from the state space (reservoir) is trainable, thus avoiding the known problems with propagation of gradient information backwards through time. Reservoir models have been successfully applied in a variety of tasks and were shown to be universal approximators of time-invariant fading memory dynamic filters under various settings. Simple cycle reservoirs (SCR) have been suggested as severely restricted reservoir architecture, with equal weight ring connectivity of the reservoir units and input-to-reservoir weights of binary nature with the same absolute value. Such architectures are well suited for hardware implementations without performance degradation in many practical tasks. In this contribution, we rigorously study the expressive power of SCR in the complex domain and show that they are capable of universal approximation of any unrestricted linear reservoir system (with continuous readout) and hence any time-invariant fading memory filter over uniformly bounded input streams.
翻訳日:2024-06-07 04:16:10 公開日:2024-06-04
# ネットワーク不等式:グラフニューラルネットワークリンク予測における優先アタッチメントバイアス

Networked Inequality: Preferential Attachment Bias in Graph Neural Network Link Prediction ( http://arxiv.org/abs/2309.17417v2 )

ライセンス: Link先を確認
Arjun Subramonian, Levent Sagun, Yizhou Sun, (参考訳) グラフニューラルネットワーク(GNN)リンク予測は、学術文献、協力者、友人を推薦するために、引用、コラボレーション、オンラインソーシャルネットワークにますます多くデプロイされている。 これまでの研究では、GNNリンク予測のダイアド・フェアネスについて研究されてきたが、グループ内(例えば、クイア・ウーマン)フェアネスとリンク予測の「リッチ・ゲイン・リッチ」なダイナミクスはいまだ研究されていない。 しかし、これらの側面はネットワークの度合いと電力不均衡に重大な影響を及ぼす。 本稿では,ネットワークの度合いバイアスがグラフ畳み込みネットワーク(GCN)のリンク予測に与える影響について述べる。 特に、対称正規化グラフフィルタを持つGCNが群内優先アタッチメントバイアスを有することを理論的に明らかにする。 実世界の引用、コラボレーション、オンラインソーシャルネットワークに関する理論的分析を検証した。 さらに、リンク予測におけるGCNの優先的アタッチメントバイアスを不公平に橋渡しし、新しいグループ内フェアネス尺度を提案する。 この尺度は、社会的グループ内のリンク予測スコアにおける格差を定量化し、度合いとパワー格差の増幅と戦う。 最後に,グループ内不公平を緩和するための簡単なトレーニングタイム戦略を提案し,引用,社会的,信用ネットワークに有効であることを示す。

Graph neural network (GNN) link prediction is increasingly deployed in citation, collaboration, and online social networks to recommend academic literature, collaborators, and friends. While prior research has investigated the dyadic fairness of GNN link prediction, the within-group (e.g., queer women) fairness and "rich get richer" dynamics of link prediction remain underexplored. However, these aspects have significant consequences for degree and power imbalances in networks. In this paper, we shed light on how degree bias in networks affects Graph Convolutional Network (GCN) link prediction. In particular, we theoretically uncover that GCNs with a symmetric normalized graph filter have a within-group preferential attachment bias. We validate our theoretical analysis on real-world citation, collaboration, and online social networks. We further bridge GCN's preferential attachment bias with unfairness in link prediction and propose a new within-group fairness metric. This metric quantifies disparities in link prediction scores within social groups, towards combating the amplification of degree and power disparities. Finally, we propose a simple training-time strategy to alleviate within-group unfairness, and we show that it is effective on citation, social, and credit networks.
翻訳日:2024-06-07 04:16:10 公開日:2024-06-04
# Retrieval-Guided Contrastive LearningによるHateful Meme検出の改善

Improving Hateful Meme Detection through Retrieval-Guided Contrastive Learning ( http://arxiv.org/abs/2311.08110v2 )

ライセンス: Link先を確認
Jingbiao Mei, Jinghong Chen, Weizhe Lin, Bill Byrne, Marcus Tomalin, (参考訳) インターネット上では、憎しみに満ちたミームが重要な関心事として浮上している。 憎しみのあるミームを検出するには、視覚とテキストのモダリティを共同で理解する必要がある。 以上の結果から,既存のCLIPベースのシステムには,適切なヘイトフルネス分類に不可欠なミームの微妙な違いに対する感受性が欠如していることが判明した。 本稿では,検索誘導型コントラスト学習により,ヘイトフルネスを考慮した埋め込み空間を構築することを提案する。 提案手法は,87.0のAUROCでHatefulMemesデータセット上での最先端性能を実現し,より大規模なマルチモーダルモデルよりも優れていた。 本研究では,学習中に見つからないデータに基づいて,ヘイトフルネスを識別できる,検索に基づくヘイトフルミーム検出システムについて紹介する。 これによって開発者は、インターネット上のヘイトフルミームの絶え間なく進化している状況において、現実のサービスにとって望ましい機能であるリトレーニングなしで、新しいサンプルを追加するだけで、ヘイトフルミーム検出システムを更新できる。

Hateful memes have emerged as a significant concern on the Internet. Detecting hateful memes requires the system to jointly understand the visual and textual modalities. Our investigation reveals that the embedding space of existing CLIP-based systems lacks sensitivity to subtle differences in memes that are vital for correct hatefulness classification. We propose constructing a hatefulness-aware embedding space through retrieval-guided contrastive training. Our approach achieves state-of-the-art performance on the HatefulMemes dataset with an AUROC of 87.0, outperforming much larger fine-tuned large multimodal models. We demonstrate a retrieval-based hateful memes detection system, which is capable of identifying hatefulness based on data unseen in training. This allows developers to update the hateful memes detection system by simply adding new examples without retraining, a desirable feature for real services in the constantly evolving landscape of hateful memes on the Internet.
翻訳日:2024-06-07 04:05:59 公開日:2024-06-04
# MedAgents:ゼロショット医療推論のためのコラボレーション者としての大規模言語モデル

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning ( http://arxiv.org/abs/2311.10537v4 )

ライセンス: Link先を確認
Xiangru Tang, Anni Zou, Zhuosheng Zhang, Ziming Li, Yilun Zhao, Xingyao Zhang, Arman Cohan, Mark Gerstein, (参考訳) 大きな言語モデル(LLM)は、様々な一般領域で顕著な進歩を遂げたにもかかわらず、医療や医療において大きな障壁に直面している。 この分野はドメイン固有の用語や専門知識に対する推論といったユニークな課題に直面している。 これらの課題に対処するため,医療分野のための新しい多分野連携フレームワークであるMedAgentsを提案する。 MedAgentsは、LLMベースのエージェントを複数ラウンドの議論に参加するロールプレイング環境で活用し、LLMの習熟度と推論能力を向上させる。 このトレーニング不要のフレームワークには、5つの重要なステップが含まれている。ドメインの専門家を集め、個別の分析を提案し、分析結果をレポートにまとめ、合意に達するまで議論を繰り返し、最終的に決定する。 私たちの研究は、現実世界のシナリオに適用可能なゼロショット設定に焦点を当てています。 9つのデータセット(MedQA, MedMCQA, PubMedQA, MMLUの6つのサブタスク)の実験結果から, 提案したMedAgentsフレームワークは, LLM内の医学的専門知識のマイニングと活用に優れ, 推論能力の向上に寄与していることがわかった。 私たちのコードはhttps://github.com/gersteinlab/MedAgents.comで見られます。

Large language models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and reasoning over specialized knowledge. To address these issues, we propose MedAgents, a novel multi-disciplinary collaboration framework for the medical domain. MedAgents leverages LLM-based agents in a role-playing setting that participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work focuses on the zero-shot setting, which is applicable in real-world scenarios. Experimental results on nine datasets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MedAgents framework excels at mining and harnessing the medical expertise within LLMs, as well as extending its reasoning abilities. Our code can be found at https://github.com/gersteinlab/MedAgents.
翻訳日:2024-06-07 04:05:59 公開日:2024-06-04
# GP+:ガウスプロセスによるカーネルベースの学習のためのPythonライブラリ

GP+: A Python Library for Kernel-based learning via Gaussian Processes ( http://arxiv.org/abs/2312.07694v2 )

ライセンス: Link先を確認
Amin Yousefpour, Zahra Zanjani Foumani, Mehdi Shishehbor, Carlos Mora, Ramin Bostanabad, (参考訳) 本稿では,そのパラメトリックな共分散と平均関数によって完全に特徴付けられる強力な統計モデルであるガウス過程(GP)を用いたカーネルベース学習のためのオープンソースライブラリGP+を紹介する。 GP+はPyTorch上に構築されており、確率的学習と推論のためのユーザフレンドリでオブジェクト指向のツールを提供する。 一連の例で示すように、GP+は他のGPモデリングライブラリに対していくつかのユニークな利点がある。 これらの利点は、主に非線形多様体学習技術とGPの共分散と平均関数を統合することで達成される。 GP+の導入の一環として,(1)確率的データ融合と逆パラメータ推定を可能にする手法や,(2)カテゴリー変数と定量的変数の両方を持つ混合特徴空間にまたがる擬似パラメトリック平均関数を具備する手法も提案する。 本稿では,ベイズ最適化,マルチ忠実度モデリング,感度解析,コンピュータモデルの校正といった文脈におけるこれらの貢献の影響を実証する。

In this paper we introduce GP+, an open-source library for kernel-based learning via Gaussian processes (GPs) which are powerful statistical models that are completely characterized by their parametric covariance and mean functions. GP+ is built on PyTorch and provides a user-friendly and object-oriented tool for probabilistic learning and inference. As we demonstrate with a host of examples, GP+ has a few unique advantages over other GP modeling libraries. We achieve these advantages primarily by integrating nonlinear manifold learning techniques with GPs' covariance and mean functions. As part of introducing GP+, in this paper we also make methodological contributions that (1) enable probabilistic data fusion and inverse parameter estimation, and (2) equip GPs with parsimonious parametric mean functions which span mixed feature spaces that have both categorical and quantitative variables. We demonstrate the impact of these contributions in the context of Bayesian optimization, multi-fidelity modeling, sensitivity analysis, and calibration of computer models.
翻訳日:2024-06-07 03:55:26 公開日:2024-06-04
# 再学習を伴わない原型自己説明可能なモデル

Prototypical Self-Explainable Models Without Re-training ( http://arxiv.org/abs/2312.07822v2 )

ライセンス: Link先を確認
Srishti Gautam, Ahcene Boubekki, Marina M. C. Höhne, Michael C. Kampffmeyer, (参考訳) 説明可能なAI(XAI)は、事前訓練されたブラックボックスモデルの予測を説明するポストホックな方法と、直接トレーニングされた自己説明可能なモデル(SEM)の2つの研究方向で展開されている。 後者は安全クリティカルなシナリオで好まれるが、ポストホックアプローチは、リトレーニングなしでベースモデルを説明する単純さと能力のために、これまで多くの注目を集めてきた。 現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、具体的かつコストのかかる訓練が必要である。 この欠点に対処し、SEMのより広範な利用を容易にするために、既存の事前学習されたモデルをプロトタイプSEMに変換する、KMEx(K-Means Explainer)と呼ばれる単純で効率的な普遍的手法を提案する。 KMExの背後にあるモチベーションは、ベースモデルを再訓練することなく、多様で信頼性の高いクラスプロトタイプベースの説明を通じて、ディープラーニングに基づく意思決定の透明性を高めることである。 我々は、KMExから得られたモデルと最先端のSEMを比較し、それぞれのモデルの強みと弱さを強調し、より信頼性が高く客観的なSEM評価への道を開く(コードはhttps://github.com/SrishtiGautam/KMExで入手できる)。

Explainable AI (XAI) has unfolded in two distinct research directions with, on the one hand, post-hoc methods that explain the predictions of a pre-trained black-box model and, on the other hand, self-explainable models (SEMs) which are trained directly to provide explanations alongside their predictions. While the latter is preferred in safety-critical scenarios, post-hoc approaches have received the majority of attention until now, owing to their simplicity and ability to explain base models without retraining. Current SEMs, instead, require complex architectures and heavily regularized loss functions, thus necessitating specific and costly training. To address this shortcoming and facilitate wider use of SEMs, we propose a simple yet efficient universal method called KMEx (K-Means Explainer), which can convert any existing pre-trained model into a prototypical SEM. The motivation behind KMEx is to enhance transparency in deep learning-based decision-making via class-prototype-based explanations that are diverse and trustworthy without retraining the base model. We compare models obtained from KMEx to state-of-the-art SEMs using an extensive qualitative evaluation to highlight the strengths and weaknesses of each model, further paving the way toward a more reliable and objective evaluation of SEMs (The code is available at https://github.com/SrishtiGautam/KMEx).
翻訳日:2024-06-07 03:55:26 公開日:2024-06-04
# 自動符号化保存則によるニューラル演算子の高調度化

Harnessing the Power of Neural Operators with Automatically Encoded Conservation Laws ( http://arxiv.org/abs/2312.11176v3 )

ライセンス: Link先を確認
Ning Liu, Yiming Fan, Xianyi Zeng, Milan Klöwer, Lu Zhang, Yue Yu, (参考訳) ニューラルネットワーク(NO)は、科学機械学習において複雑な物理システムをモデリングするための効果的なツールとして登場した。 NOSでは、データから直接物理法則を学習することが中心的な特徴である。 他の機械学習の応用とは対照的に、部分的な知識は、質量、エネルギー、運動量などの量が正確に保存される物理系に関する先入観としてよく知られている。 現在、NOはこれらの保存法則をデータから学ばなければならない。 本研究では,保護法則の自動満足度を推論するNOsスイートである保護法符号化ニューラル演算子(clawNOs)を紹介する。 ClawNOsは、連続性方程式が自動的に保証される解場の分岐のない予測で構築される。 その結果、ClawNOsは物理的整合性に不可欠な最も基本的でユビキタスな保存法に適合している。 実演として,物質変形の構成的モデリング,非圧縮性流体力学,大気シミュレーションなど,さまざまな科学的応用を考察する。 ClawNOsは、特に小規模データ体制において、学習効率において最先端のNOsを著しく上回っている。

Neural operators (NOs) have emerged as effective tools for modeling complex physical systems in scientific machine learning. In NOs, a central characteristic is to learn the governing physical laws directly from data. In contrast to other machine learning applications, partial knowledge is often known a priori about the physical system at hand whereby quantities such as mass, energy and momentum are exactly conserved. Currently, NOs have to learn these conservation laws from data and can only approximately satisfy them due to finite training data and random noise. In this work, we introduce conservation law-encoded neural operators (clawNOs), a suite of NOs that endow inference with automatic satisfaction of such conservation laws. ClawNOs are built with a divergence-free prediction of the solution field, with which the continuity equation is automatically guaranteed. As a consequence, clawNOs are compliant with the most fundamental and ubiquitous conservation laws essential for correct physical consistency. As demonstrations, we consider a wide variety of scientific applications ranging from constitutive modeling of material deformation, incompressible fluid dynamics, to atmospheric simulation. ClawNOs significantly outperform the state-of-the-art NOs in learning efficacy, especially in small-data regimes.
翻訳日:2024-06-07 03:45:21 公開日:2024-06-04
# 適応雑音を学習した拡散モデル

Diffusion Models With Learned Adaptive Noise ( http://arxiv.org/abs/2312.13236v2 )

ライセンス: Link先を確認
Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov, (参考訳) 拡散モデルは高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。 これらのアルゴリズムの中心は拡散過程であり、これはデータをノイズにマッピングする一連の方程式であり、性能に大きな影響を与える。 本稿では,拡散過程がデータから学べるかどうかを考察する。 我々の研究はベイズ推定に基礎を置いており、学習した拡散過程を、より強い下界(ELBO)をもたらす近似変分後部としてキャストすることで、ログ類似度の推定を改善することを目指している。 我々の研究は、この仮定を排除し、多変量学習適応雑音(MULAN)を提案する。 具体的には、ELBOが従来のようなノイズスケジュール選択に不変でないことを保証するために、データの関数である多変量ノイズスケジュールに依存する。 MULANは、CIFAR-10とImageNetに新しい最先端の密度推定を設定し、トレーニングステップの数を50%削減する。 コードはhttps://github.com/s-sahoo/MuLANで入手できる。

Diffusion models have gained traction as powerful algorithms for synthesizing high-quality images. Central to these algorithms is the diffusion process, a set of equations which maps data to noise in a way that can significantly affect performance. In this paper, we explore whether the diffusion process can be learned from data. Our work is grounded in Bayesian inference and seeks to improve log-likelihood estimation by casting the learned diffusion process as an approximate variational posterior that yields a tighter lower bound (ELBO) on the likelihood. A widely held assumption is that the ELBO is invariant to the noise process: our work dispels this assumption and proposes multivariate learned adaptive noise (MULAN), a learned diffusion process that applies noise at different rates across an image. Specifically, our method relies on a multivariate noise schedule that is a function of the data to ensure that the ELBO is no longer invariant to the choice of the noise schedule as in previous works. Empirically, MULAN sets a new state-of-the-art in density estimation on CIFAR-10 and ImageNet and reduces the number of training steps by 50%. Code is available at https://github.com/s-sahoo/MuLAN
翻訳日:2024-06-07 03:45:21 公開日:2024-06-04
# 幾何学的滑らかな運動量を持つランダム化カッツマルツ

Randomized Kaczmarz with geometrically smoothed momentum ( http://arxiv.org/abs/2401.09415v2 )

ライセンス: Link先を確認
Seth J. Alderman, Roan W. Luikart, Nicholas F. Marshall, (参考訳) 本稿では, 線形最小二乗損失関数上の確率勾配勾配の例であるランダム化Kaczmarzアルゴリズムに幾何的に滑らかな運動量を加える効果について検討する。 最小二乗損失を定義する行列の特異ベクトル方向の予測誤差に関する結果を証明する。 結果の有用性を示す数値的な例をいくつか提示し,いくつかの疑問を呈する。

This paper studies the effect of adding geometrically smoothed momentum to the randomized Kaczmarz algorithm, which is an instance of stochastic gradient descent on a linear least squares loss function. We prove a result about the expected error in the direction of singular vectors of the matrix defining the least squares loss. We present several numerical examples illustrating the utility of our result and pose several questions.
翻訳日:2024-06-07 03:35:00 公開日:2024-06-04
# オンライン強化学習におけるハーネス化密度比

Harnessing Density Ratios for Online Reinforcement Learning ( http://arxiv.org/abs/2401.09681v2 )

ライセンス: Link先を確認
Philip Amortila, Dylan J. Foster, Nan Jiang, Ayush Sekhari, Tengyang Xie, (参考訳) オフラインとオンラインの強化学習の理論は、平行して進化してきたにもかかわらず、アルゴリズムと分析技術が一方の環境に自然に相応しいものが存在するという、統一の可能性の兆候を示し始めている。 しかし、オフラインRLにおける新たなパラダイムである密度比モデリングの概念は、おそらく正当な理由から、オンラインRLにはほとんど欠落している。 この研究で、おそらく驚くべきことに、密度比に基づくアルゴリズムがオンラインに匹敵することを示している。 カバービリティ (Xie et al , 2023) とよばれる構造条件である探索分布の存在を前提として, サンプル効率のよいオンライン探索を行うために, 密度比の再現性と値関数の再現性を利用した新しいアルゴリズム (GLOW) を提案する。 GLOWは、トラルニケートを慎重に使用することで、非有界密度比に対処し、これを最適化と組み合わせて探索をガイドする。 より効率的なHyGLOWを補完し、オンラインRLにオフラインデータを追加して拡張するハイブリッドRL設定(Song et al , 2022)を行う。 HyGLOW は、ハイブリッド RL からオフライン RL への証明可能なブラックボックス還元を提供する、より一般的なメタアルゴリズムの特別なケースとして派生している。

The theories of offline and online reinforcement learning, despite having evolved in parallel, have begun to show signs of the possibility for a unification, with algorithms and analysis techniques for one setting often having natural counterparts in the other. However, the notion of density ratio modeling, an emerging paradigm in offline RL, has been largely absent from online RL, perhaps for good reason: the very existence and boundedness of density ratios relies on access to an exploratory dataset with good coverage, but the core challenge in online RL is to collect such a dataset without having one to start. In this work we show -- perhaps surprisingly -- that density ratio-based algorithms have online counterparts. Assuming only the existence of an exploratory distribution with good coverage, a structural condition known as coverability (Xie et al., 2023), we give a new algorithm (GLOW) that uses density ratio realizability and value function realizability to perform sample-efficient online exploration. GLOW addresses unbounded density ratios via careful use of truncation, and combines this with optimism to guide exploration. GLOW is computationally inefficient; we complement it with a more efficient counterpart, HyGLOW, for the Hybrid RL setting (Song et al., 2022) wherein online RL is augmented with additional offline data. HyGLOW is derived as a special case of a more general meta-algorithm that provides a provable black-box reduction from hybrid RL to offline RL, which may be of independent interest.
翻訳日:2024-06-07 03:35:00 公開日:2024-06-04
# 機械翻訳のためのLLMにおけるインコンテクスト学習の実証的研究

An Empirical Study of In-context Learning in LLMs for Machine Translation ( http://arxiv.org/abs/2401.12097v3 )

ライセンス: Link先を確認
Pranjal A. Chitale, Jay Gala, Raj Dabre, (参考訳) 近年,機械翻訳 (MT) にLarge Language Models (LLMs) を用いたインコンテキストラーニング (ICL) (Vilar et al , 2023) が注目されている。 ほとんどの先行研究は翻訳品質の最適化に重点を置いており、その品質に影響を与えるICLの特定の側面を理解することに限定されている。 この目的のために,機械翻訳のための文脈内学習を網羅的に研究する。 まず、ICLが主に例駆動であり、命令駆動ではないことを確認します。 続いて、下流のパフォーマンスへの影響を理解するために、サンプルの様々な側面を広範囲に調査する。 分析には、実演の質や量、空間的近接性、ソース対目的の独創性などの要因が含まれている。 さらに、ICLの限界を理解するために、間接性やサンプルの誤調整を含む難解なシナリオについても検討する。 実演のソース分布よりも目標分布の質を重要視する一方で、摂動が時として正則化器として機能し、性能改善をもたらすことを観察する。 驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。 ICLをMTに利用する上で,我々の研究が指針となることを願っています。私たちのコードはhttps://github.com/PranjalChitale/in-context-mt-analysisで利用可能です。

Recent interest has surged in employing Large Language Models (LLMs) for machine translation (MT) via in-context learning (ICL) (Vilar et al., 2023). Most prior studies primarily focus on optimizing translation quality, with limited attention to understanding the specific aspects of ICL that influence the said quality. To this end, we perform the first of its kind, an exhaustive study of in-context learning for machine translation. We first establish that ICL is primarily example-driven and not instruction-driven. Following this, we conduct an extensive exploration of various aspects of the examples to understand their influence on downstream performance. Our analysis includes factors such as quality and quantity of demonstrations, spatial proximity, and source versus target originality. Further, we also investigate challenging scenarios involving indirectness and misalignment of examples to understand the limits of ICL. While we establish the significance of the quality of the target distribution over the source distribution of demonstrations, we further observe that perturbations sometimes act as regularizers, resulting in performance improvements. Surprisingly, ICL does not necessitate examples from the same task, and a related task with the same target distribution proves sufficient. We hope that our study acts as a guiding resource for considerations in utilizing ICL for MT. Our code is available on https://github.com/PranjalChitale/in-context-mt-analysis.
翻訳日:2024-06-07 03:35:00 公開日:2024-06-04
# LLMの効率的な探索

Efficient Exploration for LLMs ( http://arxiv.org/abs/2402.00396v2 )

ライセンス: Link先を確認
Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy, (参考訳) 我々は,大規模な言語モデルを改善するために,人間のフィードバックを収集する際の効率的な探索の実質的なメリットを示す。 実験では,受信したフィードバックに報酬モデルを適用しながら,エージェントが逐次クエリを生成する。 我々の最高のパフォーマンスエージェントは、頭蓋骨神経ネットワークで表現される不確実性のある二重トンプソンサンプリングを用いてクエリを生成する。 その結果,効率の良い探索により,クエリをはるかに少なくして高いレベルの性能を実現することができた。 さらに、不確実性推定と探索スキームの選択の両方が重要な役割を担っている。

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.
翻訳日:2024-06-07 03:25:10 公開日:2024-06-04
# 損失関数群を用いた学習によるクラス不均衡データに対するROC曲線の最適化

Optimizing for ROC Curves on Class-Imbalanced Data by Training over a Family of Loss Functions ( http://arxiv.org/abs/2402.05400v2 )

ライセンス: Link先を確認
Kelsey Lieberman, Shuai Yuan, Swarna Kamlam Ravindran, Carlo Tomasi, (参考訳) バイナリ分類はコンピュータビジョンにおいてよく研究されている問題であるが、厳密なクラス不均衡の下での信頼性の高い分類器の訓練は依然として難しい問題である。 近年の研究では、損失関数や最適化方法の変更により、不均衡下でのトレーニングの効果を緩和する手法が提案されている。 この研究は, マルチクラスの場合の全体的な精度を大幅に向上させたが, これらの手法のハイパーパラメータ値のわずかな変化は, 重度の不均衡を伴うバイナリ問題に対する受信動作特性(ROC)曲線において, 高い変動性能をもたらすことが観察された。 ハイパーパラメータ選択に対する感度を低減し、より一般的なモデルを訓練するために、単一損失関数ではなく、損失関数の族に対するトレーニングを提案する。 不均衡な分類問題にLCT(Loss Conditional Training)を適用する手法を開発した。 CIFARとKaggleのコンペティションデータセットによる大規模な実験結果から,本手法はモデル性能を向上し,ハイパーパラメータ選択に対してより堅牢であることが示された。 コードはhttps://github.com/klieberman/roc_lct.comで入手できる。

Although binary classification is a well-studied problem in computer vision, training reliable classifiers under severe class imbalance remains a challenging problem. Recent work has proposed techniques that mitigate the effects of training under imbalance by modifying the loss functions or optimization methods. While this work has led to significant improvements in the overall accuracy in the multi-class case, we observe that slight changes in hyperparameter values of these methods can result in highly variable performance in terms of Receiver Operating Characteristic (ROC) curves on binary problems with severe imbalance. To reduce the sensitivity to hyperparameter choices and train more general models, we propose training over a family of loss functions, instead of a single loss function. We develop a method for applying Loss Conditional Training (LCT) to an imbalanced classification problem. Extensive experiment results, on both CIFAR and Kaggle competition datasets, show that our method improves model performance and is more robust to hyperparameter choices. Code is available at https://github.com/klieberman/roc_lct.
翻訳日:2024-06-07 03:25:10 公開日:2024-06-04
# 大規模言語モデルのための著作権トラップ

Copyright Traps for Large Language Models ( http://arxiv.org/abs/2402.09363v2 )

ライセンス: Link先を確認
Matthieu Meeus, Igor Shilov, Manuel Faysse, Yves-Alexandre de Montjoye, (参考訳) LLM(Large Language Models)のトレーニングに著作権保護されたコンテンツの公正使用に関する質問が活発に議論されている。 トレーニング中にコンテンツが見られたかどうかをトレーニングモデルにブラックボックスアクセスから推測する。 しかし、SOTA法はコンテンツの一部を自然に記憶することに依存している。 暗記するモデルに対して非常に効果的であるが、我々は仮説を立て、後に、自然に暗記しないモデル、例えば中規模1Bモデルに対して作用しないことを確証する。 本稿では、オリジナルコンテンツに架空のエントリを含む著作権トラップを用いて、暗記が自然に起こらないモデルに焦点をあてて、LLMにおける著作権物質の使用を検出することを提案する。 ランダムに制御された実験装置を慎重に設計し、オリジナルコンテンツ(書籍)にトラップを挿入し、スクラッチから1.3B LLMを訓練する。 まず、ターゲットモデルにおけるコンテンツの使用が既存の手法で検出できないことを検証する。 直観とは対照的に,従来の手法では,中長のトラップ文の繰り返し(100)が検出できないことが示される。 しかし,複数回繰り返す長いシーケンスを確実に検出でき(AUC=0.75),著作権トラップとして利用できることを示す。 ランダムに制御された設定により、モデルトレーニングデータやパープレキシティの繰り返しなど、記憶と特定のシーケンス特性の因果関係を描けるようになります。

Questions of fair use of copyright-protected content to train Large Language Models (LLMs) are being actively debated. Document-level inference has been proposed as a new task: inferring from black-box access to the trained model whether a piece of content has been seen during training. SOTA methods however rely on naturally occurring memorization of (part of) the content. While very effective against models that memorize significantly, we hypothesize--and later confirm--that they will not work against models that do not naturally memorize, e.g. medium-size 1B models. We here propose to use copyright traps, the inclusion of fictitious entries in original content, to detect the use of copyrighted materials in LLMs with a focus on models where memorization does not naturally occur. We carefully design a randomized controlled experimental setup, inserting traps into original content (books) and train a 1.3B LLM from scratch. We first validate that the use of content in our target model would be undetectable using existing methods. We then show, contrary to intuition, that even medium-length trap sentences repeated a significant number of times (100) are not detectable using existing methods. However, we show that longer sequences repeated a large number of times can be reliably detected (AUC=0.75) and used as copyright traps. Beyond copyright applications, our findings contribute to the study of LLM memorization: the randomized controlled setup enables us to draw causal relationships between memorization and certain sequence properties such as repetition in model training data and perplexity.
翻訳日:2024-06-07 01:21:50 公開日:2024-06-04
# ファウショット行動認識のための因果領域不変時間ダイナミクスの学習

Learning Causal Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition ( http://arxiv.org/abs/2402.12706v2 )

ライセンス: Link先を確認
Yuke Li, Guangyi Chen, Ben Abramowitz, Stefano Anzellott, Donglai Wei, (参考訳) 少数のアクション認識は、限られたサンプル数しか使用せず、分散シフトを伴って、事前訓練されたモデルを新しいデータに迅速に適応することを目的としている。 主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。 そこで我々は,知識伝達のためのCDTD(Causal Domain-Invariant Temporal Dynamics)を提案する。 時間的不変な表現と変分表現を識別するために、教師なしの関連付けに因果表現学習法を用い、次の段階では教師付き分類器をチューニングする。 具体的には、ドメイン情報が適切に推定され、事前訓練された画像デコーダと遷移モデルが十分に転送可能であると仮定する。 適応中は、転送可能な時間的ダイナミクスを修正し、画像エンコーダと領域推定器を更新する。 本手法の有効性は,標準的な数発のアクション認識データセットよりもCDTDの方が優れた精度で明らかである。

Few-shot action recognition aims at quickly adapting a pre-trained model to the novel data with a distribution shift using only a limited number of samples. Key challenges include how to identify and leverage the transferable knowledge learned by the pre-trained model. We therefore propose CDTD, or Causal Domain-Invariant Temporal Dynamics for knowledge transfer. To identify the temporally invariant and variant representations, we employ the causal representation learning methods for unsupervised pertaining, and then tune the classifier with supervisions in next stage. Specifically, we assume the domain information can be well estimated and the pre-trained image decoder and transition models can be well transferred. During adaptation, we fix the transferable temporal dynamics and update the image encoder and domain estimator. The efficacy of our approach is revealed by the superior accuracy of CDTD over leading alternatives across standard few-shot action recognition datasets.
翻訳日:2024-06-07 01:11:46 公開日:2024-06-04
# スパースと構造化ホップフィールドネットワーク

Sparse and Structured Hopfield Networks ( http://arxiv.org/abs/2402.13725v2 )

ライセンス: Link先を確認
Saul Santos, Vlad Niculae, Daniel McNamee, Andre F. T. Martins, (参考訳) 現代のホップフィールドのネットワークは、トランスフォーマーの注意と結びついているため、近年の関心を集めている。 本稿は,Fenchel-Young損失とリンクを確立することにより,疎ホップフィールドネットワークの統一フレームワークを提供する。 その結果、Hopfield-Fenchel-Youngエネルギの新たなファミリーが、更新ルールはエンドツーエンドで微分可能なスパース変換である。 損失マージン,疎度,正確なメモリ検索の関連を明らかにする。 さらに、このフレームワークをSparseMAP変換によって構築されたホップフィールドネットワークに拡張し、単一のパターンの代わりにパターン関連を検索する。 複数のインスタンス学習とテキスト合理化の実験は、我々のアプローチの有用性を実証している。

Modern Hopfield networks have enjoyed recent interest due to their connection to attention in transformers. Our paper provides a unified framework for sparse Hopfield networks by establishing a link with Fenchel-Young losses. The result is a new family of Hopfield-Fenchel-Young energies whose update rules are end-to-end differentiable sparse transformations. We reveal a connection between loss margins, sparsity, and exact memory retrieval. We further extend this framework to structured Hopfield networks via the SparseMAP transformation, which can retrieve pattern associations instead of a single pattern. Experiments on multiple instance learning and text rationalization demonstrate the usefulness of our approach.
翻訳日:2024-06-07 01:11:46 公開日:2024-06-04
# 量子誤り訂正のためのフライングキャットパリティチェック

Flying-cat parity checks for quantum error correction ( http://arxiv.org/abs/2402.17001v2 )

ライセンス: Link先を確認
Z. M. McIntyre, W. A. Coish, (参考訳) 長距離マルチキュービットパリティチェックは、量子誤差補正と測定に基づく絡み合い発生の両方に応用できる。 このようなパリティチェックは、電磁界のコヒーレント状態$\vert\alpha\rangle$で記述された光のパルスを伝播する量子状態依存の位相シフトを用いて行うことができる。 我々は、Schr\"odinger's cat state $\vert\alpha\rangle\pm \vert-\alpha\rangle$に対する量子非破壊(QND)のエンタングル演算に基づく「フライングキャット」パリティチェックについて検討する。 この演算は、極大に区別可能なコヒーレント状態 $\vert\pm \alpha\rangle$ の相におけるパリティ情報を符号化する。 単一量子ビット誤差と測定誤差を独立に扱う多くの実装とは対照的に、フライングキャットパリティチェックにおける光子損失は、測定誤差の確率と反相関な速度で物理量子ビット上の誤差を導入する。 サブシステム表面コードによる普遍的フォールトトレラント量子コンピューティングの要件である3量子パリティチェックのトレードオフを分析する。 さらに,この3キュービットパリティチェックを用いて6キュービットの「テトラエドロン」状態を作成する方法を示す。 テトラヘドロン状態は、2量子状態の制御された量子テレポーテーションの資源として、あるいは3つのパーティの量子鍵分布における潜在的な応用と共有ランダム性の源として使用することができる。 最後に、伝送損失に加えて、キュービットデコヒーレンス、内部空洞損失、有限デューレーションパルスを考慮し、最先端のQEDアーキテクチャで高品質なフライキャットパリティチェックを行う条件を提供する。

Long range, multi-qubit parity checks have applications in both quantum error correction and measurement-based entanglement generation. Such parity checks could be performed using qubit-state-dependent phase shifts on propagating pulses of light described by coherent states $\vert\alpha\rangle$ of the electromagnetic field. We consider "flying-cat" parity checks based on an entangling operation that is quantum non-demolition (QND) for Schr\"odinger's cat states $\vert\alpha\rangle\pm \vert-\alpha\rangle$. This operation encodes parity information in the phase of maximally distinguishable coherent states $\vert\pm \alpha\rangle$, which can be read out using a phase-sensitive measurement of the electromagnetic field. In contrast to many implementations, where single-qubit errors and measurement errors can be treated as independent, photon loss during flying-cat parity checks introduces errors on physical qubits at a rate that is anti-correlated with the probability for measurement errors. We analyze this trade-off for three-qubit parity checks, which are a requirement for universal fault-tolerant quantum computing with the subsystem surface code. We further show how a six-qubit entangled "tetrahedron" state can be prepared using these three-qubit parity checks. The tetrahedron state can be used as a resource for controlled quantum teleportation of a two-qubit state, or as a source of shared randomness with potential applications in three-party quantum key distribution. Finally, we provide conditions for performing high-quality flying-cat parity checks in a state-of-the-art circuit QED architecture, accounting for qubit decoherence, internal cavity losses, and finite-duration pulses, in addition to transmission losses.
翻訳日:2024-06-07 01:01:43 公開日:2024-06-04
# LLMの呼び出しは必要か? - 複合推論システムの法則のスケーリングに向けて

Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems ( http://arxiv.org/abs/2403.02419v2 )

ライセンス: Link先を確認
Lingjiao Chen, Jared Quincy Davis, Boris Hanin, Peter Bailis, Ion Stoica, Matei Zaharia, James Zou, (参考訳) 近年,複数の言語モデル (LM) コールを実行し,その応答を集約する複合システムを用いて,言語タスクにおける最新の結果が得られた。 しかし、LM呼び出しの数(例えば、LMに各質問に何回も答えて多数票を取るように求める場合)が、このような複合システムのパフォーマンスにどのように影響するかは、ほとんど理解されていない。 本稿では,複合推論システムのスケーリング特性について検討する。 本稿では,最も単純な複合システム設計であるVotteとFilter-Voteの性能に及ぼすLM呼び出し数の影響を理論的・実験的に分析し,多数決によりLM応答を集約し,任意にLMフィルタを適用する。 意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。 この非モノトニック性は、タスク内のクエリの難しさの多様性によるものであることを理論的に示唆する: より多くのLMコールが"簡単"なクエリに対して高いパフォーマンスをもたらすが、"ハード"なクエリではパフォーマンスが低下し、タスクが両方のクエリを含む場合、非モノトニックな振る舞いが発生する可能性がある。 この洞察により、少数のサンプルからシステム性能を最大化するLM呼び出しの数を計算し、両方のシステムに対する分析スケーリングモデルを定義することができる。 実験により,VotteおよびFilter-Voteシステムの性能を正確に予測し,最適なLM呼び出し数を求めることができることがわかった。

Many recent state-of-the-art results in language tasks were achieved using compound systems that perform multiple Language Model (LM) calls and aggregate their responses. However, there is little understanding of how the number of LM calls - e.g., when asking the LM to answer each question multiple times and taking a majority vote - affects such a compound system's performance. In this paper, we initiate the study of scaling properties of compound inference systems. We analyze, theoretically and empirically, how the number of LM calls affects the performance of Vote and Filter-Vote, two of the simplest compound system designs, which aggregate LM responses via majority voting, optionally applying LM filters. We find, surprisingly, that across multiple language tasks, the performance of both Vote and Filter-Vote can first increase but then decrease as a function of the number of LM calls. Our theoretical results suggest that this non-monotonicity is due to the diversity of query difficulties within a task: more LM calls lead to higher performance on "easy" queries, but lower performance on "hard" queries, and non-monotone behavior can emerge when a task contains both types of queries. This insight then allows us to compute, from a small number of samples, the number of LM calls that maximizes system performance, and define an analytical scaling model for both systems. Experiments show that our scaling model can accurately predict the performance of Vote and Filter-Vote systems and thus find the optimal number of LM calls to make.
翻訳日:2024-06-07 00:51:07 公開日:2024-06-04
# 分散ロバスト性バランスのための制御可能なプロンプトチューニング

Controllable Prompt Tuning For Balancing Group Distributional Robustness ( http://arxiv.org/abs/2403.02695v2 )

ライセンス: Link先を確認
Hoang Phan, Andrew Gordon Wilson, Qi Lei, (参考訳) 異なるグループやドメインで構成されたデータに基づいてトレーニングされたモデルは、分散シフト時に深刻なパフォーマンス劣化に悩まされる可能性がある。 最近の手法は、最悪のグループ目標の最適化に重点を置いているが、これはしばしば、他のグループに対する良いパフォーマンスを犠牲にしている。 この問題に対処するために,グループ間での優れた性能を実現する最適化手法を導入し,それらの性能を著しく犠牲にすることなく,優れた解を求める。 しかし、そのような最適化を直接適用するには、ネットワーク全体のパラメータを更新する必要がある。 そこで,制御可能なプロンプトチューニング(CPT)を導入する。 突発的な相関ベンチマークでは、変換器と非変換器の両アーキテクチャ、および非モーダルおよびマルチモーダルのデータに対して、調整可能なパラメータは0.4%しか必要とせず、最先端の結果が得られる。

Models trained on data composed of different groups or domains can suffer from severe performance degradation under distribution shifts. While recent methods have largely focused on optimizing the worst-group objective, this often comes at the expense of good performance on other groups. To address this problem, we introduce an optimization scheme to achieve good performance across groups and find a good solution for all without severely sacrificing performance on any of them. However, directly applying such optimization involves updating the parameters of the entire network, making it both computationally expensive and challenging. Thus, we introduce Controllable Prompt Tuning (CPT), which couples our approach with prompt-tuning techniques. On spurious correlation benchmarks, our procedures achieve state-of-the-art results across both transformer and non-transformer architectures, as well as unimodal and multimodal data, while requiring only 0.4% tunable parameters.
翻訳日:2024-06-07 00:51:07 公開日:2024-06-04
# FLAP: LLMにおける制約付きデコーディングによるフローアヒーリング計画

FLAP: Flow-Adhering Planning with Constrained Decoding in LLMs ( http://arxiv.org/abs/2403.05766v3 )

ライセンス: Link先を確認
Shamik Roy, Sailik Sengupta, Daniele Bonadiman, Saab Mansour, Arshit Gupta, (参考訳) 計画はタスク指向対話(TOD)におけるエージェントにとって重要なタスクである。 ヒューマンエージェントは通常、事前に定義されたワークフローに従い、ワークフローステップを実行可能なアイテムに分解し、APIを順番に実行するアクションを実行することで、ユーザの問題を解決します。 LLMの最近の進歩により、タスク計画とAPI使用のためにそれらを使用する試みが増えている。 しかしながら、事前に定義されたワークフローとAPI依存関係に対する計画の忠実さは、LLMでは保証されていない。 さらに、現実のワークフローは、しばしばカスタム定義され、変更しやすいため、適応が望ましい。 そこで本研究では,事前定義されたフローに従ってAPI依存を保ち,ユーザの意図を解消する必要があるTODにおける忠実なプランニングの問題を提案する。 この問題を解決するために,LLMのルックアヘッドヒューリスティックによる制約付きデコードに基づくフローアダリング計画アルゴリズムであるFLAPを提案する。 提案アルゴリズムは,ドメイン固有(計画/依存性)データを用いたLCMの微調整の必要性を軽減し,事前定義されたフローへの迅速な適応を可能にし,他のデコーディングやプロンプトベースラインよりも優れる。 さらに,本アルゴリズムは,より小さなLLM (7B) に対して,より大きなLLM (30B-40B) で実行する権限を与える。

Planning is a crucial task for agents in task oriented dialogs (TODs). Human agents typically resolve user issues by following predefined workflows, decomposing workflow steps into actionable items, and performing actions by executing APIs in order; all of which require reasoning and planning. With the recent advances in LLMs, there have been increasing attempts to use them for task planning and API usage. However, the faithfulness of the plans to predefined workflows and API dependencies, is not guaranteed with LLMs. Moreover, workflows in real life are often custom-defined and prone to changes; hence, adaptation is desirable. To study this, we propose the problem of faithful planning in TODs that needs to resolve user intents by following predefined flows and preserving API dependencies. To solve this problem, we propose FLAP, a Flow-Adhering Planning algorithm based on constrained decoding with lookahead heuristic for LLMs. Our algorithm alleviates the need for finetuning LLMs using domain specific (plan/dependency) data, enables quick adaptation to predefined flows, and outperforms other decoding and prompting-based baselines. Further, our algorithm empowers smaller LLMs (7B) to perform at par larger LLMs (30B-40B).
翻訳日:2024-06-07 00:51:07 公開日:2024-06-04
# カバービリティによるスケーラブルなオンライン探索

Scalable Online Exploration via Coverability ( http://arxiv.org/abs/2403.06571v2 )

ライセンス: Link先を確認
Philip Amortila, Dylan J. Foster, Akshay Krishnamurthy, (参考訳) 探索は、特に関数近似を必要とする高次元領域において、強化学習における大きな課題である。 本研究では,探索研究を体系化する概念的枠組みとして,報酬関数の下流最大化を可能にする探索目標(政策最適化目標)を提案する。 本フレームワークでは,従来の探索手法を一般化し,次の3つの基本的なデシラタをサポートする新たな目的である$L_1$-Coverageを導入する。 L_1$-Coverageは構造パラメータである$L_1$-Coverabilityに関連付けられている。 2.効率的な計画。 既知のMDPでは、$L_1$-Coverageを最適化することで、標準ポリシーの最適化を効率的に削減し、ポリシー勾配やQラーニングアプローチのような既製のメソッドとの柔軟な統合を可能にします。 3.効率的な探索。 $L_1$-Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率の良いモデルベースおよびモデルフリーのアルゴリズムを可能にする。 実証的に、$L_1$-Coverageは、オフザシェルフポリシー最適化アルゴリズムを効果的に駆動し、状態空間を探索する。

Exploration is a major challenge in reinforcement learning, especially for high-dimensional domains that require function approximation. We propose exploration objectives -- policy optimization objectives that enable downstream maximization of any reward function -- as a conceptual framework to systematize the study of exploration. Within this framework, we introduce a new objective, $L_1$-Coverage, which generalizes previous exploration schemes and supports three fundamental desiderata: 1. Intrinsic complexity control. $L_1$-Coverage is associated with a structural parameter, $L_1$-Coverability, which reflects the intrinsic statistical difficulty of the underlying MDP, subsuming Block and Low-Rank MDPs. 2. Efficient planning. For a known MDP, optimizing $L_1$-Coverage efficiently reduces to standard policy optimization, allowing flexible integration with off-the-shelf methods such as policy gradient and Q-learning approaches. 3. Efficient exploration. $L_1$-Coverage enables the first computationally efficient model-based and model-free algorithms for online (reward-free or reward-driven) reinforcement learning in MDPs with low coverability. Empirically, we find that $L_1$-Coverage effectively drives off-the-shelf policy optimization algorithms to explore the state space.
翻訳日:2024-06-07 00:40:47 公開日:2024-06-04
# Span-based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs

Span-Based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs ( http://arxiv.org/abs/2403.11477v2 )

ライセンス: Link先を確認
Matthew Zurek, Yudong Chen, (参考訳) 平均回帰マルコフ決定過程(MDP)において,$\varepsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。 弱通信 MDP に対して、$\widetilde{O}(SA\frac{H}{\varepsilon^2} )$ という複雑性を確立し、$H$ は最適ポリシーのバイアス関数のスパンであり、$SA$ は状態-作用空間の濃度である。 我々の結果は、すべてのパラメータにおいて(ログファクタまで)最小値の最大値である$S,A,H$,$\varepsilon$で、すべてのポリシーに対して一様に有界な混合時間を仮定する既存の作業を改善するか、パラメータに最適に依存するかのいずれかである。 また,一般(複数鎖)平均回帰MDPにおけるサンプル複雑性の研究も開始する。 我々は、新しい過渡時間パラメータ$B$が必要であり、$\widetilde{O}(SA\frac{B + H}{\varepsilon^2})$複雑さ境界を確立し、マッチング(ログファクタまで)の最小限境界を証明する。 両結果は, 概して新しい考え方を必要とする, 平均回帰MDPを割引MDPに還元することに基づいている。 この削減を最適に分析するために、$\widetilde{O}(SA\frac{H}{(1-\gamma)^2\varepsilon^2} )$と$\widetilde{O}(SA\frac{B + H}{(1-\gamma)^2\varepsilon^2} )$サンプルサッフィスで$\varepsilon$-optimal Policyを弱通信および一般のMPPで学べるようにした。 これらの結果はともに、$\widetilde{\Omega}(SA\frac{1}{(1-\gamma)^3\varepsilon^2} )$ for $\gamma$-discounted MDPs というよく知られたミニマックスの下界を回避し、固定された MDP インスタンスに対する立方的地平線依存よりも二次性を確立する。

We study the sample complexity of learning an $\varepsilon$-optimal policy in an average-reward Markov decision process (MDP) under a generative model. For weakly communicating MDPs, we establish the complexity bound $\widetilde{O}(SA\frac{H}{\varepsilon^2} )$, where $H$ is the span of the bias function of the optimal policy and $SA$ is the cardinality of the state-action space. Our result is the first that is minimax optimal (up to log factors) in all parameters $S,A,H$, and $\varepsilon$, improving on existing work that either assumes uniformly bounded mixing times for all policies or has suboptimal dependence on the parameters. We also initiate the study of sample complexity in general (multichain) average-reward MDPs. We argue a new transient time parameter $B$ is necessary, establish an $\widetilde{O}(SA\frac{B + H}{\varepsilon^2})$ complexity bound, and prove a matching (up to log factors) minimax lower bound. Both results are based on reducing the average-reward MDP to a discounted MDP, which requires new ideas in the general setting. To optimally analyze this reduction, we develop improved bounds for $\gamma$-discounted MDPs, showing that $\widetilde{O}(SA\frac{H}{(1-\gamma)^2\varepsilon^2} )$ and $\widetilde{O}(SA\frac{B + H}{(1-\gamma)^2\varepsilon^2} )$ samples suffice to learn $\varepsilon$-optimal policies in weakly communicating and in general MDPs, respectively. Both these results circumvent the well-known minimax lower bound of $\widetilde{\Omega}(SA\frac{1}{(1-\gamma)^3\varepsilon^2} )$ for $\gamma$-discounted MDPs, and establish a quadratic rather than cubic horizon dependence for a fixed MDP instance.
翻訳日:2024-06-07 00:40:47 公開日:2024-06-04
# 多面的概念埋め込みを用いたCommonsense Commonalitiesのモデリング

Modelling Commonsense Commonalities with Multi-Facet Concept Embeddings ( http://arxiv.org/abs/2403.16984v2 )

ライセンス: Link先を確認
Hanane Kteich, Na Li, Usashi Chatterjee, Zied Bouraoui, Steven Schockaert, (参考訳) コンセプト埋め込みは、下流のタスクに常識知識を注入するための実用的で効率的なメカニズムを提供する。 彼らの中核的な目的は、しばしば概念自体の常識的性質を予測しないことではなく、共通の性質、すなわちある興味のある性質を共有する概念の集合を識別することである。 このような共通性は帰納的一般化の基礎であり、したがって高品質な概念の埋め込みは学習を容易にし、より堅牢にすることができる。 残念なことに、標準埋め込みは主に基本的な分類学のカテゴリーを反映しており、より特定の側面(例えば、対象の色や素材)を参照する共通点を見つけるのに適さない。 本稿では,概念の埋め込みを学習する際の関心の異なる側面を明示的にモデル化することで,この制限に対処する。 これは、より多様なコモンセンス特性をキャプチャし、超微細なエンティティタイピングやオントロジー補完といった下流タスクの結果を一貫して改善する埋め込みにつながることを示す。

Concept embeddings offer a practical and efficient mechanism for injecting commonsense knowledge into downstream tasks. Their core purpose is often not to predict the commonsense properties of concepts themselves, but rather to identify commonalities, i.e.\ sets of concepts which share some property of interest. Such commonalities are the basis for inductive generalisation, hence high-quality concept embeddings can make learning easier and more robust. Unfortunately, standard embeddings primarily reflect basic taxonomic categories, making them unsuitable for finding commonalities that refer to more specific aspects (e.g.\ the colour of objects or the materials they are made of). In this paper, we address this limitation by explicitly modelling the different facets of interest when learning concept embeddings. We show that this leads to embeddings which capture a more diverse range of commonsense properties, and consistently improves results in downstream tasks such as ultra-fine entity typing and ontology completion.
翻訳日:2024-06-07 00:30:45 公開日:2024-06-04
# 長期世代の言語校正

Linguistic Calibration of Long-Form Generations ( http://arxiv.org/abs/2404.00474v2 )

ライセンス: Link先を確認
Neil Band, Xuechen Li, Tengyu Ma, Tatsunori Hashimoto, (参考訳) 言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。 この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、評価された信頼度のある長文を生成できない。 LMは,その世代がユーザによるキャリブレーション確率予測を可能にした場合に,言語的にキャリブレーションされる。 この定義により、監督された微調整ステップがLMをブートストラップして「私は30%の確率で...」や「確実に...」といった自信のある文で長文世代を出力する訓練フレームワークが実現され、続いて、ユーザが関連する質問に対してキャリブレーションされた回答を提供できる世代を報奨する強化学習ステップが実現される。 我々はLlama 2 7Bを言語的に校正し,Llama 2 7Bの精度を比較検討した。 これらの知見は、科学的・生医学的な問題への大きなドメインシフトと、完全に保持された人体バイオグラフィー生成タスクに一般化される。 以上の結果から,下流の意思決定においてユーザが行う予測の空間における目的を構築することにより,長大な世代をエンド・ツー・エンドにキャリブレーションできる可能性が示唆された。

Language models (LMs) may lead their users to make suboptimal downstream decisions when they confidently hallucinate. This issue can be mitigated by having the LM verbally convey the probability that its claims are correct, but existing models cannot produce long-form text with calibrated confidence statements. Through the lens of decision-making, we define linguistic calibration for long-form generations: an LM is linguistically calibrated if its generations enable its users to make calibrated probabilistic predictions. This definition enables a training framework where a supervised finetuning step bootstraps an LM to emit long-form generations with confidence statements such as "I estimate a 30% chance of..." or "I am certain that...", followed by a reinforcement learning step which rewards generations that enable a user to provide calibrated answers to related questions. We linguistically calibrate Llama 2 7B and find in automated and human evaluations of long-form generations that it is significantly more calibrated than strong finetuned factuality baselines with comparable accuracy. These findings generalize under significant domain shifts to scientific and biomedical questions and to an entirely held-out person biography generation task. Our results demonstrate that long-form generations may be calibrated end-to-end by constructing an objective in the space of the predictions that users make in downstream decision-making.
翻訳日:2024-06-07 00:30:45 公開日:2024-06-04
# LVLM-Intrepret:大規模視覚言語モデルの解釈可能性ツール

LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models ( http://arxiv.org/abs/2404.03118v2 )

ライセンス: Link先を確認
Gabriela Ben Melech Stan, Estelle Aflalo, Raanan Yehezkel Rohekar, Anahita Bhiwandiwalla, Shao-Yen Tseng, Matthew Lyle Olson, Yaniv Gurwicz, Chenfei Wu, Nan Duan, Vasudev Lal, (参考訳) 人工知能の急速な発展の中で、多モーダルな言語モデルは重要な関心領域として現れつつある。 様々な形式のデータ入力を組み合わせたこれらのモデルは、ますます人気が高まっている。 しかし、それらの内部メカニズムを理解することは依然として複雑な作業である。 説明可能性ツールやメカニズムの分野では、多くの進歩がなされているが、まだ多くの研究がある。 本研究では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。 このインタフェースは,回答を生成するのに有用な画像パッチの解釈可能性を高め,その出力を画像に基礎づける際の言語モデルの有効性を評価する。 我々のアプリケーションでは、ユーザーはシステム機能の強化のために、モデルとシステムの限界を体系的に調査し、発見することができる。 最後に、我々のアプリケーションは、人気のある大規模マルチモーダルモデルであるLLaVAにおいて、障害メカニズムを理解するのにどのように役立つか、ケーススタディを示す。

In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of interest. These models, which combine various forms of data input, are becoming increasingly popular. However, understanding their internal mechanisms remains a complex task. Numerous advancements have been made in the field of explainability tools and mechanisms, yet there is still much to explore. In this work, we present a novel interactive application aimed towards understanding the internal mechanisms of large vision-language models. Our interface is designed to enhance the interpretability of the image patches, which are instrumental in generating an answer, and assess the efficacy of the language model in grounding its output in the image. With our application, a user can systematically investigate the model and uncover system limitations, paving the way for enhancements in system capabilities. Finally, we present a case study of how our application can aid in understanding failure mechanisms in a popular large multi-modal model: LLaVA.
翻訳日:2024-06-07 00:30:45 公開日:2024-06-04
# ランダム一般化測定による量子軌道の漸近的浄化

Asymptotic Purification of Quantum Trajectories under Random Generalized Measurements ( http://arxiv.org/abs/2404.03168v2 )

ライセンス: Link先を確認
Owen Ekblad, Eloy Moreno-Nadales, Lubashan Pathirana, Jeffrey Schenker, (参考訳) 定常雑音下での繰り返しランダムな測定から生じる量子軌道を研究するための一般的な枠組みを開発し、K\"ummererとMaassenの結果をこの設定に一般化する。 量子状態の結果として生じる軌道は、ランダムな環境における時間的不均一なマルコフ連鎖である。 K\"ummerer と Maassen は、ノイズのないプロセスに対するダーク部分空間の概念を導入し、それらの存在がシステム状態の漸近的浄化と等価であることを証明した。 暗黒条件を満たすランダムな部分空間の集合からなる可測対応を定義することにより、乱条件下での暗黒部分空間の概念を明確にする。 さらに、このランダムなダーク部分空間の集合が空である場合に限って、漸近的浄化が生じることを証明する。 これらの現象のいくつかの例が提示されている。

We develop a general framework to study quantum trajectories resulting from repeated random measurements subject to stationary noise, and generalize results of K\"ummerer and Maassen to this setting. The resulting trajectory of quantum states is a time-inhomogeneous Markov chain in a random environment. K\"ummerer and Maassen introduced the concept of dark subspaces for noise-free processes, establishing that their absence is equivalent to asymptotic purification of the system state. We clarify the notion of dark subspaces in the disordered setting by defining a measurable correspondence consisting of a collection of random subspaces satisfying a darkness condition. We further prove that asymptotic purification occurs if and only if this collection of random dark subspaces is empty. Several examples of these phenomena are provided.
翻訳日:2024-06-07 00:30:45 公開日:2024-06-04
# 状態空間モデルにおける状態のイリュージョン

The Illusion of State in State-Space Models ( http://arxiv.org/abs/2404.08819v2 )

ライセンス: Link先を確認
William Merrill, Jackson Petty, Ashish Sabharwal, (参考訳) ステートスペースモデル(SSM)は、かつてユビキタスであったトランスフォーマーアーキテクチャと比較して、大きな言語モデル(LLM)を構築するための代替アーキテクチャとして出現している。 変換器の理論的弱点の1つは、ある種の逐次計算と状態追跡を表現できないことである(Merrill & Sabharwal, 2023)。 しかし、SSMは状態トラッキングの表現力において本当に(トランスフォーマーよりも)有利なものなのだろうか? 驚いたことに、答えはノーだ。 SSMは複雑性クラス$\mathsf{TC}^0$の外では計算を表現できない。 特にこれは、置換合成のような単純な状態追跡問題を解くことができないことを意味する。 SSMは、特定の表記法でチェスの動きを正確に追跡したり、コードを評価したり、長い物語の中でエンティティを追跡したりすることができない。 フォーマルな分析を補完するため,マンバスタイルのSSMが状態追跡に苦慮していることを示す実験を報告した。 したがって、再帰的な定式化にもかかわらず、SSMの「状態」は錯覚である: SSMは、トランスフォーマーのような非再帰モデルに類似した表現性制限を持ち、現実世界の状態追跡問題の解法を根本的に制限する可能性がある。

State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express certain kinds of sequential computation and state tracking (Merrill & Sabharwal, 2023), which SSMs are explicitly designed to address via their close architectural similarity to recurrent neural networks (RNNs). But do SSMs truly have an advantage (over transformers) in expressive power for state tracking? Surprisingly, the answer is no. Our analysis reveals that the expressive power of SSMs is limited very similarly to transformers: SSMs cannot express computation outside the complexity class $\mathsf{TC}^0$. In particular, this means they cannot solve simple state-tracking problems like permutation composition. It follows that SSMs are provably unable to accurately track chess moves with certain notation, evaluate code, or track entities in a long narrative. To supplement our formal analysis, we report experiments showing that Mamba-style SSMs indeed struggle with state tracking. Thus, despite its recurrent formulation, the "state" in an SSM is an illusion: SSMs have similar expressiveness limitations to non-recurrent models like transformers, which may fundamentally limit their ability to solve real-world state-tracking problems.
翻訳日:2024-06-07 00:20:37 公開日:2024-06-04
# インセンティブ・セキュリティによる学習の証明

Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v5 )

ライセンス: Link先を確認
Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Xi Chen, Yuan Zhou, (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。 しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。 これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。 従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。 本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。 特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。 さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。 MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。

Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age.
翻訳日:2024-06-07 00:20:37 公開日:2024-06-04
# 半古典的手法によるエネルギー依存ポテンシャルの逆問題

Inverse problem in energy-dependent potentials using semiclassical methods ( http://arxiv.org/abs/2404.11478v2 )

ライセンス: Link先を確認
Saulo Albuquerque, Sebastian H. Völkel, Kostas D. Kokkotas, (参考訳) エネルギー依存ポテンシャルを持つ波動方程式は、核物理学からブラックホール摂動理論まで、物理学の多くの分野に現れる。 本研究では,半古典的なWKB法を用いて,ボーア・ソマーフェルト則とガモウ公式を用いて,ポテンシャル井戸の有界状態と反射/透過係数の計算を再検討する。 次に、後者の観測値がポテンシャルの性質を再構築する出発点として用いられる逆問題について議論する。 既知の反転手法をエネルギー依存ポテンシャルに拡張することにより、いわゆる幅等価ポテンシャルやWKB等価ポテンシャルはもはや等スペクトルではないことを示す。 その代わり、逆手法で準等スペクトルポテンシャルを構築することは可能であることを明確に示している。 これらの再構成されたエネルギー非依存ポテンシャルは、幅等価ポテンシャルと鍵特性を共有する。 エネルギーに依存しない用語を含めると、特にエネルギーに依存しない等価ポテンシャルに対して豊かな現象論ができると報告する。

Wave equations with energy-dependent potentials appear in many areas of physics, ranging from nuclear physics to black hole perturbation theory. In this work, we use the semi-classical WKB method to first revisit the computation of bound states of potential wells and reflection/transmission coefficients in terms of the Bohr-Sommerfeld rule and the Gamow formula. We then discuss the inverse problem, in which the latter observables are used as a starting point to reconstruct the properties of the potentials. By extending known inversion techniques to energy-dependent potentials, we demonstrate that so-called width-equivalent or WKB-equivalent potentials are not isospectral anymore. Instead, we explicitly demonstrate that constructing quasi-isospectral potentials with the inverse techniques is still possible. Those reconstructed, energy-independent potentials share key properties with the width-equivalent potentials. We report that including energy-dependent terms allows for a rich phenomenology, particularly for the energy-independent equivalent potentials.
翻訳日:2024-06-07 00:20:37 公開日:2024-06-04
# 誘導型グラフニューラルネットワークに対する効率的なモデルステアリング攻撃

Efficient Model-Stealing Attacks Against Inductive Graph Neural Networks ( http://arxiv.org/abs/2405.12295v2 )

ライセンス: Link先を確認
Marcin Podhajski, Jan Dubiński, Franziska Boenisch, Adam Dziedzic, Agnieszka Pregowska, Tomasz Michalak, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造で組織された実世界のデータを処理するための強力なツールとして認識されている。 特に、事前に定義されたグラフ構造に依存しないグラフ構造化データの処理を可能にするインダクティブGNNは、ますます多様なアプリケーションにおいて重要になっている。 これらのネットワークは、様々なタスクにわたる習熟度を示すため、敵が標的ネットワークの機能の複製を試みているモデルステーリング攻撃の利益源となる。 画像やテキストで訓練されたモデルに焦点を当てたモデルステアリング攻撃の開発には、多大な努力が払われている。 しかし、グラフデータで訓練されたGNNには、ほとんど注意が払われていない。 本稿では,グラフコントラスト学習とスペクトルグラフ拡張に基づく誘導型GNNに対する教師なしモデルステーリング攻撃手法を提案する。 提案した攻撃は6つのデータセットで徹底的に評価される。 その結果,既存の盗難攻撃と比較して高い効率性を示した。 より具体的には、我々の攻撃は、ターゲットモデルに送信されるクエリを少なくしながら、盗難モデルの忠実度と下流精度を達成するため、全てのベンチマークでベースラインを上回ります。

Graph Neural Networks (GNNs) are recognized as potent tools for processing real-world data organized in graph structures. Especially inductive GNNs, which enable the processing of graph-structured data without relying on predefined graph structures, are gaining importance in an increasingly wide variety of applications. As these networks demonstrate proficiency across a range of tasks, they become lucrative targets for model-stealing attacks where an adversary seeks to replicate the functionality of the targeted network. A large effort has been made to develop model-stealing attacks that focus on models trained with images and texts. However, little attention has been paid to GNNs trained on graph data. This paper introduces a novel method for unsupervised model-stealing attacks against inductive GNNs, based on graph contrasting learning and spectral graph augmentations to efficiently extract information from the target model. The proposed attack is thoroughly evaluated on six datasets. The results show that this approach demonstrates a higher level of efficiency compared to existing stealing attacks. More concretely, our attack outperforms the baseline on all benchmarks achieving higher fidelity and downstream accuracy of the stolen model while requiring fewer queries sent to the target model.
翻訳日:2024-06-07 00:09:48 公開日:2024-06-04
# BiomedParse: あらゆるものを一度に解析するバイオメディカル基礎モデル

BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once ( http://arxiv.org/abs/2405.12971v3 )

ライセンス: Link先を確認
Theodore Zhao, Yu Gu, Jianwei Yang, Naoto Usuyama, Ho Hin Lee, Tristan Naumann, Jianfeng Gao, Angela Crabtree, Jacob Abel, Christine Moung-Wen, Brian Piening, Carlo Bifulco, Mu Wei, Hoifung Poon, Sheng Wang, (参考訳) バイオメディカル画像解析は、細胞生物学、病理学、放射線学、その他多くの生物医学領域における生物医学的な発見の基礎となる。 ホロスティック画像解析は、セグメンテーション、検出、関連するオブジェクトの認識など、相互依存のサブタスクを含む。 そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。 共同学習により、個々のタスクの精度を向上させることができ、ユーザが各オブジェクトのバウンディングボックスを精力的に指定する必要はなく、テキストプロンプトを通じて画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にすることができる。 我々は、これらのデータセットに付随する手軽に利用可能な自然言語ラベルや記述を活用し、GPT-4を用いて、ノイズの多い非構造化テキスト情報を確立されたバイオメディカルオブジェクトオントロジーと調和させた。 我々は600万枚以上の画像、セグメンテーションマスク、テキスト記述からなる大規模なデータセットを作成しました。 画像セグメンテーションにおいて,BiomedParseは,9つの画像モダリティ(すべて)にまたがる102,855個の画像-マスク-ラベルトリプルに対して,最先端の手法よりも高い精度で適用可能であることを示した。 特定の対象の特定を目的としたオブジェクト検出について、BiomedParseは再び最先端のパフォーマンス、特に不規則な形状のオブジェクト(どこでも)を達成した。 画像内のすべてのオブジェクトとそれらの意味型を同時に識別することを目的としたオブジェクト認識において、BiomedParseは画像内のすべてのバイオメディカルオブジェクト(すべて一度に)を同時にセグメンテーションおよびラベル付けできることを示した。 要約すると、BiomedParseはバイオメディカルイメージ分析のためのオールインワンツールであり、すべての主要なバイオメディカルイメージのセグメンテーション、検出、認識を共同で解決し、効率的で正確な画像ベースのバイオメディカル発見のための道を歩む。

Biomedical image analysis is fundamental for biomedical discovery in cell biology, pathology, radiology, and many other biomedical domains. Holistic image analysis comprises interdependent subtasks such as segmentation, detection, and recognition of relevant objects. Here, we propose BiomedParse, a biomedical foundation model for imaging parsing that can jointly conduct segmentation, detection, and recognition for 82 object types across 9 imaging modalities. Through joint learning, we can improve accuracy for individual tasks and enable novel applications such as segmenting all relevant objects in an image through a text prompt, rather than requiring users to laboriously specify the bounding box for each object. We leveraged readily available natural-language labels or descriptions accompanying those datasets and use GPT-4 to harmonize the noisy, unstructured text information with established biomedical object ontologies. We created a large dataset comprising over six million triples of image, segmentation mask, and textual description. On image segmentation, we showed that BiomedParse is broadly applicable, outperforming state-of-the-art methods on 102,855 test image-mask-label triples across 9 imaging modalities (everything). On object detection, which aims to locate a specific object of interest, BiomedParse again attained state-of-the-art performance, especially on objects with irregular shapes (everywhere). On object recognition, which aims to identify all objects in a given image along with their semantic types, we showed that BiomedParse can simultaneously segment and label all biomedical objects in an image (all at once). In summary, BiomedParse is an all-in-one tool for biomedical image analysis by jointly solving segmentation, detection, and recognition for all major biomedical image modalities, paving the path for efficient and accurate image-based biomedical discovery.
翻訳日:2024-06-06 23:59:22 公開日:2024-06-04
# 適応型ニューラル画像の極端圧縮

Extreme Compression of Adaptive Neural Images ( http://arxiv.org/abs/2405.16807v2 )

ライセンス: Link先を確認
Leo Hoshikawa, Marcos V. Conde, Takeshi Ohashi, Atsushi Irie, (参考訳) Implicit Neural Representations(INR)とNeural Fieldsは、画像やオーディオから3Dシーン、ビデオまで、信号表現のための新しいパラダイムである。 基本的な考え方は、シグナルを連続的で微分可能なニューラルネットワークとして表現することである。 このアイデアは、連続分解能やメモリ効率などの前例のない利点を提供し、新しい圧縮技術を可能にしている。 しかし、データをニューラルネットワークとして表現することは、新たな課題をもたらす。 例えば、ニューラルネットワークとして2D画像が与えられた場合、そのような画像をさらに圧縮するにはどうすればよいのか? と。 本研究では,画像に着目したニューラルフィールドの圧縮に関する新しい解析法を提案する。 また、異なる推論や伝送要求への適応を可能にする効率的なニューラルネットワーク表現であるAdaptive Neural Images (ANI)を導入する。 提案手法では, 感度を損なわず, 忠実度を損なうことなく, 画像のビット/ピクセル(bpp)を4倍に削減できる。 4ビットのニューラル表現の実装が成功したおかげで実現しました。 私たちの研究は、圧縮されたニューラルネットワークを開発するための新しいフレームワークを提供します。

Implicit Neural Representations (INRs) and Neural Fields are a novel paradigm for signal representation, from images and audio to 3D scenes and videos. The fundamental idea is to represent a signal as a continuous and differentiable neural network. This idea offers unprecedented benefits such as continuous resolution and memory efficiency, enabling new compression techniques. However, representing data as neural networks poses new challenges. For instance, given a 2D image as a neural network, how can we further compress such a neural image?. In this work, we present a novel analysis on compressing neural fields, with the focus on images. We also introduce Adaptive Neural Images (ANI), an efficient neural representation that enables adaptation to different inference or transmission requirements. Our proposed method allows to reduce the bits-per-pixel (bpp) of the neural image by 4x, without losing sensitive details or harming fidelity. We achieve this thanks to our successful implementation of 4-bit neural representations. Our work offers a new framework for developing compressed neural fields.
翻訳日:2024-06-06 23:59:22 公開日:2024-06-04
# モダリティギャップではない:コントラストギャップの特徴と対処

Its Not a Modality Gap: Characterizing and Addressing the Contrastive Gap ( http://arxiv.org/abs/2405.18570v2 )

ライセンス: Link先を確認
Abrar Fahim, Alex Murphy, Alona Fyshe, (参考訳) CLIPのようなマルチモーダルコントラストモデルは、入力画像とテキストを共同表現空間に埋め込むことで、ゼロショット分類における最先端の性能を達成する。 近年、CLIPのような2エンコーダのコントラストモデルではモダリティギャップが報告されている。 これまでの研究では、このギャップは存在することが示唆されている。 1)コーン効果 2)データセットのミスマッチペア,及び 3)訓練不足。 これらすべての要因を考慮に入れたとしても、同じモダリティを使用しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。 その結果、モダリティギャップは2エンコーダのコントラスト損失に固有のものであり、コントラストギャップにリネームすることを提案した。 この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。 このギャップを埋めるために, マルチモーダル・セッティングに不定形コントラスト損失の均一性とアライメント特性を適用し, これらの項をCLIP損失に追加するだけで, 表現空間内での埋め込みをより均一に分散し, ギャップを閉じることを示す。 実験では、ゼロショット画像分類やマルチモーダル演算などの下流タスクにおいて、修正された表現空間がデフォルトのCLIP損失よりも優れた性能を実現することを示す。

Multi-modal contrastive models such as CLIP achieve state-of-the-art performance in zero-shot classification by embedding input images and texts on a joint representational space. Recently, a modality gap has been reported in two-encoder contrastive models like CLIP, meaning that the image and text embeddings reside in disjoint areas of the latent space. Previous studies suggest that this gap exists due to 1) the cone effect, 2) mismatched pairs in the dataset, and 3) insufficient training. We show that, even when accounting for all these factors, and even when using the same modality, the contrastive loss actually creates a gap during training. As a result, We propose that the modality gap is inherent to the two-encoder contrastive loss and rename it the contrastive gap. We present evidence that attributes this contrastive gap to low uniformity in CLIP space, resulting in embeddings that occupy only a small portion of the latent space. To close the gap, we adapt the uniformity and alignment properties of unimodal contrastive loss to the multi-modal setting and show that simply adding these terms to the CLIP loss distributes the embeddings more uniformly in the representational space, closing the gap. In our experiments, we show that the modified representational space achieves better performance than default CLIP loss in downstream tasks such as zero-shot image classification and multi-modal arithmetic.
翻訳日:2024-06-06 23:59:22 公開日:2024-06-04
# Value-Incentivized Preference Optimization:オンラインとオフラインのRLHFに対する統一的なアプローチ

Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF ( http://arxiv.org/abs/2405.19320v2 )

ライセンス: Link先を確認
Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合性を示す。 嗜好データの利用状況によっては、オンラインとオフラインのRLHFの両方が調査の活発な領域である。 主なボトルネックは、RLHFの選好データから得られた報奨関数に不確実性推定を組み込む方法を理解することである。 不確実性の下での楽観主義や悲観主義の原理は、標準強化学習(RL)において十分に確立されているが、任意の政策パラメータ化の下では、信頼区間を構築するための標準技術が難解になるため、大規模言語モデルに適応可能な実用的な実装可能で理論的に構築された形式は、まだ利用できない。 本稿では,オンラインおよびオフラインのRLHF (value-incentivized preference optimization, VPO) に対する統一的なアプローチを提案する。 VPOはまた、暗黙の報酬モデリングでポリシーを直接最適化するので、直接の優先最適化と同様のシンプルなRLHFパイプラインを共有している。 VPOの理論的保証は、オンラインとオフラインの両方で提供され、標準RLのレートと一致する。 さらに、テキスト要約とダイアログの実験により、VPOの実用性と有効性を検証する。

Reinforcement learning from human feedback (RLHF) has demonstrated great promise in aligning large language models (LLMs) with human preference. Depending on the availability of preference data, both online and offline RLHF are active areas of investigation. A key bottleneck is understanding how to incorporate uncertainty estimation in the reward function learned from the preference data for RLHF, regardless of how the preference data is collected. While the principles of optimism or pessimism under uncertainty are well-established in standard reinforcement learning (RL), a practically-implementable and theoretically-grounded form amenable to large language models is not yet available, as standard techniques for constructing confidence intervals become intractable under arbitrary policy parameterizations. In this paper, we introduce a unified approach to online and offline RLHF -- value-incentivized preference optimization (VPO) -- which regularizes the maximum-likelihood estimate of the reward function with the corresponding value function, modulated by a $\textit{sign}$ to indicate whether the optimism or pessimism is chosen. VPO also directly optimizes the policy with implicit reward modeling, and therefore shares a simpler RLHF pipeline similar to direct preference optimization. Theoretical guarantees of VPO are provided for both online and offline settings, matching the rates of their standard RL counterparts. Moreover, experiments on text summarization and dialog verify the practicality and effectiveness of VPO.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-04
# 文脈と時間知覚的長期記憶を用いた会話エージェントの実現に向けて

Toward Conversational Agents with Context and Time Sensitive Long-term Memory ( http://arxiv.org/abs/2406.00057v2 )

ライセンス: Link先を確認
Nick Alonso, Tomás Figliolia, Anthony Ndirango, Beren Millidge, (参考訳) 近年,長期記憶を持つ会話エージェントへの関心が高まっており,検索強化生成(RAG)を用いた言語モデルの開発が急速に進んでいる。 最近まで、RAGに関するほとんどの研究は、長文の会話の情報ではなく、ウィキペディアのような巨大なテキストデータベースからの情報検索に重点を置いてきた。 本稿では,データベースの静的検索と比較して,長文形式の会話データからの効果的な検索が2つの問題に直面していることを論じる。 1)時間/イベントベースのクエリで、会話イベントの時間や順序(例えば、火曜日の第3回会話)に基づいて、モデルが過去の会話に関する情報を取得する必要がある。 2) 周囲の会話コンテキストを理解する必要があるあいまいなクエリ。 これらの課題に対処できるRAGベースのエージェントをより良く開発するために、私たちは、最近の長文でシミュレートされた会話のデータセットの上に構築された、あいまいで時間的な質問の新しいデータセットを作成し、標準RAGベースのアプローチがそのような質問を不十分に扱うことを実証する。 そこで我々は,連鎖型検索手法,標準ベクトルデータベース検索,問合せを曖昧にするためのプロンプト手法を組み合わせた新しい検索モデルを開発し,これらの課題を解決するための現在の手法よりも大幅に改善されていることを示す。 この新しいデータセットとより高度なRAGエージェントは、重要なベンチマークとして機能し、さまざまなAIアプリケーションで使用可能な、効果的なメモリ拡張会話エージェントへと踏み込むことができると考えています。

There has recently been growing interest in conversational agents with long-term memory which has led to the rapid development of language models that use retrieval-augmented generation (RAG). Until recently, most work on RAG has focused on information retrieval from large databases of texts, like Wikipedia, rather than information from long-form conversations. In this paper, we argue that effective retrieval from long-form conversational data faces two unique problems compared to static database retrieval: 1) time/event-based queries, which requires the model to retrieve information about previous conversations based on time or the order of a conversational event (e.g., the third conversation on Tuesday), and 2) ambiguous queries that require surrounding conversational context to understand. To better develop RAG-based agents that can deal with these challenges, we generate a new dataset of ambiguous and time-based questions that build upon a recent dataset of long-form, simulated conversations, and demonstrate that standard RAG based approaches handle such questions poorly. We then develop a novel retrieval model which combines chained-of-table search methods, standard vector-database retrieval, and a prompting method to disambiguate queries, and demonstrate that this approach substantially improves over current methods at solving these tasks. We believe that this new dataset and more advanced RAG agent can act as a key benchmark and stepping stone towards effective memory augmented conversational agents that can be used in a wide variety of AI applications.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-04
# Conveyor: ツール部分実行を備えた効率的なツール対応LDM

Conveyor: Efficient Tool-aware LLM Serving with Tool Partial Execution ( http://arxiv.org/abs/2406.00059v2 )

ライセンス: Link先を確認
Yechen Xu, Xinhao Kong, Tingjun Chen, Danyang Zhuo, (参考訳) 大規模言語モデル(LLM)サービスワークロードの複雑さは、ChatGPTプラグインのような外部ツール呼び出しとの統合によって大幅に増大している。 本稿では, LLMデコーディングと並行してツール部分実行を行う要求に対して, 効率的なLLMサービスを実現するための新たな機会を特定する。 この目的のために、外部ツールを含む要求を処理するために最適化された効率的なLLMサービスシステムであるConveyorを設計する。 ツール開発者がLCMサービスシステムに部分的な実行機会を公開するための新しいインターフェースと、部分的なツール実行を容易にする要求スケジューラを導入する。 ツールの部分的な実行は、要求完了のレイテンシを最大38.8%改善することを示した。

The complexity of large language model (LLM) serving workloads has substantially increased due to the integration with external tool invocations, such as ChatGPT plugins. In this paper, we identify a new opportunity for efficient LLM serving for requests that trigger tools: tool partial execution alongside LLM decoding. To this end, we design Conveyor, an efficient LLM serving system optimized for handling requests involving external tools. We introduce a novel interface for tool developers to expose partial execution opportunities to the LLM serving system and a request scheduler that facilitates partial tool execution. Our results demonstrate that tool partial execution can improve request completion latency by up to 38.8%.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-04
# 高次元統計学における再現性

Replicability in High Dimensional Statistics ( http://arxiv.org/abs/2406.02628v1 )

ライセンス: Link先を確認
Max Hopkins, Russell Impagliazzo, Daniel Kane, Sihan Liu, Christopher Ye, (参考訳) レプリカ化の危機は、統計学におけるレプリカ化の正式な研究を呼びかけ、実証科学のほぼすべての領域で大きな問題となっている。 この文脈で動機づけられた [Impagliazzo, Lei, Pitassi, Sorrell STOC 2022] は、複製可能な学習アルゴリズムの概念を導入し、統計的クエリを含む1ドルでのタスクの基本的な手順を与えた。 本研究では,複数次元の統計的タスクの再現性に関する計算的・統計的コストについて検討する。 我々の主な貢献は、最適なレプリカブルアルゴリズムと高次元等尺タイリングの計算的および統計的等価性を確立することである。 その結果,有界共分散を持つ分布を推定し, [Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sivakumar, and Sorrell, STOC2023] および$N$-Coin問題に対して, [Karbasi, Velegkas, Yang, and Zhou, NeurIPS2023] の開問題をログファクターまで解いた。 我々の等価性は計算であり、最もよく知られた効率的なアルゴリズムからサンプルの複雑さのログファクターを削ることができるが、効率的な等尺タイリングは知られていない。 これを回避するために, 前処理, 適応性, 近似複製性など, サンプリングおよび計算効率のよいアルゴリズムを実現する, 緩和されたパラダイムをいくつか導入する。 これらのケースでは、平均推定とコイン問題に最もよく知られたサンプルの複雑さをマッチングまたはビートするアルゴリズムが提供され、その中には、複製可能性の標準的な2次オーバーヘッドを期待値の線形化に還元する一般的な手順が含まれる。

The replicability crisis is a major issue across nearly all areas of empirical science, calling for the formal study of replicability in statistics. Motivated in this context, [Impagliazzo, Lei, Pitassi, and Sorrell STOC 2022] introduced the notion of replicable learning algorithms, and gave basic procedures for $1$-dimensional tasks including statistical queries. In this work, we study the computational and statistical cost of replicability for several fundamental high dimensional statistical tasks, including multi-hypothesis testing and mean estimation. Our main contribution establishes a computational and statistical equivalence between optimal replicable algorithms and high dimensional isoperimetric tilings. As a consequence, we obtain matching sample complexity upper and lower bounds for replicable mean estimation of distributions with bounded covariance, resolving an open problem of [Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sivakumar, and Sorrell, STOC2023] and for the $N$-Coin Problem, resolving a problem of [Karbasi, Velegkas, Yang, and Zhou, NeurIPS2023] up to log factors. While our equivalence is computational, allowing us to shave log factors in sample complexity from the best known efficient algorithms, efficient isoperimetric tilings are not known. To circumvent this, we introduce several relaxed paradigms that do allow for sample and computationally efficient algorithms, including allowing pre-processing, adaptivity, and approximate replicability. In these cases we give efficient algorithms matching or beating the best known sample complexity for mean estimation and the coin problem, including a generic procedure that reduces the standard quadratic overhead of replicability to linear in expectation.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-04
# SSNet:クラウド上の実用的なプライバシ保護機械学習サービスのための軽量マルチパーティ計算スキーム

SSNet: A Lightweight Multi-Party Computation Scheme for Practical Privacy-Preserving Machine Learning Service in the Cloud ( http://arxiv.org/abs/2406.02629v1 )

ライセンス: Link先を確認
Shijin Duan, Chenghong Wang, Hongwu Peng, Yukui Luo, Wujie Wen, Caiwen Ding, Xiaolin Xu, (参考訳) プライバシー保護がディープラーニング(DL)開発の重要な側面となるにつれ、マルチパーティ計算(MPC)はその効率性と強力なセキュリティで注目されている。 しかし、現在のMPCフレームワークの実践は制限されており、特に大規模なニューラルネットワークを扱う場合、ResNet-152上のセキュアな推論のために25.8秒の長時間実行時間で例示される。 主な課題は、既存のMPCアプローチが追加的な秘密共有に依存していることであり、これは比較のような非線形操作とかなりの通信オーバーヘッドを引き起こす。 さらに、追加的な共有は、パーティサイズにおけるスケーラビリティの低下に悩まされる。 対照的に、MPCの進化する状況は、より多くの計算パーティを収容し、悪意のあるアクティビティや計算障害に対して堅牢なパフォーマンスを確保する必要がある。 これらの課題を踏まえ、我々は初めてShamirの秘密共有(SSS)をMPCベースのMLフレームワークのバックボーンとして採用するSSNetを提案する。 セキュアなDLモデルのためのフレームワークプリミティブと操作を慎重に開発し、SSSスキームとシームレスに統合する。 SSNetは、パーティ番号を簡単にスケールアップする機能を示し、パフォーマンス上の大きなオーバーヘッドを発生させることなく、計算の正しさを認証するための戦略を組み込む。 さらに、SSNetは非線形操作に関連する通信オーバーヘッドを低減するために設計されたマスキング戦略を導入した。 私たちは、Amazon AWSの商用クラウドコンピューティングインフラストラクチャに関する包括的な実験的な評価を行い、さまざまなDNNモデルとデータセットを提供しています。 SSNetは、SOTA MPCフレームワークと比較して3倍から14倍のスピードアップを実現している。 さらに、SSNetは、セキュアなDL推論の文脈において、5パーティの計算設定で評価される最初のフレームワークでもある。

As privacy-preserving becomes a pivotal aspect of deep learning (DL) development, multi-party computation (MPC) has gained prominence for its efficiency and strong security. However, the practice of current MPC frameworks is limited, especially when dealing with large neural networks, exemplified by the prolonged execution time of 25.8 seconds for secure inference on ResNet-152. The primary challenge lies in the reliance of current MPC approaches on additive secret sharing, which incurs significant communication overhead with non-linear operations such as comparisons. Furthermore, additive sharing suffers from poor scalability on party size. In contrast, the evolving landscape of MPC necessitates accommodating a larger number of compute parties and ensuring robust performance against malicious activities or computational failures. In light of these challenges, we propose SSNet, which for the first time, employs Shamir's secret sharing (SSS) as the backbone of MPC-based ML framework. We meticulously develop all framework primitives and operations for secure DL models tailored to seamlessly integrate with the SSS scheme. SSNet demonstrates the ability to scale up party numbers straightforwardly and embeds strategies to authenticate the computation correctness without incurring significant performance overhead. Additionally, SSNet introduces masking strategies designed to reduce communication overhead associated with non-linear operations. We conduct comprehensive experimental evaluations on commercial cloud computing infrastructure from Amazon AWS, as well as across diverse prevalent DNN models and datasets. SSNet demonstrates a substantial performance boost, achieving speed-ups ranging from 3x to 14x compared to SOTA MPC frameworks. Moreover, SSNet also represents the first framework that is evaluated on a five-party computation setup, in the context of secure DL inference.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-04
# AIエージェントの脅威:鍵となるセキュリティ問題と今後の道

AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways ( http://arxiv.org/abs/2406.02630v1 )

ライセンス: Link先を確認
Zehang Deng, Yongjian Guo, Changzhou Han, Wanlun Ma, Junwu Xiong, Sheng Wen, Yang Xiang, (参考訳) 人工知能(AI)エージェント(英: Artificial Intelligence, AI)は、自律的にタスクを実行したり、事前に定義された目的やデータ入力に基づいて決定を行うソフトウェアエンティティである。 ユーザ入力の認識、推論と計画タスク、アクションの実行が可能なAIエージェントは、アルゴリズム開発とタスクパフォーマンスにおいて顕著な進歩を見せている。 しかし、彼らが起こすセキュリティ上の課題は未調査のままであり、未解決のままである。 この調査では、AIエージェントが直面している新たなセキュリティ脅威について、複数のステップのユーザ入力の予測不能、内部実行の複雑さ、運用環境の多様性、信頼できない外部エンティティとのインタラクションの4つの重要な知識ギャップに分類する。 これらの脅威を体系的にレビューすることで、この論文はAIエージェントの保護における進歩と既存の制限の両方を強調している。 提供された洞察は、AIエージェントに関連するセキュリティ脅威に対処するためのさらなる研究を刺激し、より堅牢でセキュアなAIエージェントアプリケーションの開発を促進することを目的としている。

An Artificial Intelligence (AI) agent is a software entity that autonomously performs tasks or makes decisions based on pre-defined objectives and data inputs. AI agents, capable of perceiving user inputs, reasoning and planning tasks, and executing actions, have seen remarkable advancements in algorithm development and task performance. However, the security challenges they pose remain under-explored and unresolved. This survey delves into the emerging security threats faced by AI agents, categorizing them into four critical knowledge gaps: unpredictability of multi-step user inputs, complexity in internal executions, variability of operational environments, and interactions with untrusted external entities. By systematically reviewing these threats, this paper highlights both the progress made and the existing limitations in safeguarding AI agents. The insights provided aim to inspire further research into addressing the security threats associated with AI agents, thereby fostering the development of more robust and secure AI agent applications.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-04
# コントラスト言語ビデオの事前学習

Contrastive Language Video Time Pre-training ( http://arxiv.org/abs/2406.02631v1 )

ライセンス: Link先を確認
Hengyue Liu, Kyle Min, Hector A. Valdez, Subarna Tripathi, (参考訳) 本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。 EgoVLPのようなビデオテキストペアの事前トレーニングとは異なり、LAVITIは、未トリミングビデオで意味のある瞬間を抽出することによって、言語、ビデオ、時間的特徴を調整することを目的としている。 我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。 視覚と言語アライメントに加えて、ビデオ中のタイムスタンプを表現するための相対時間埋め込み(TE)を導入し、時間に対する対照的な学習を可能にした。 従来のアプローチとは大きく異なり、特定のタイムスタンプの予測は、予測されたTEと全てのTEの類似度スコアを計算することによって変換される。 さらに、ビデオ理解のための既存のアプローチは、計算の複雑さとメモリフットプリントが高いため、主にショートビデオ用に設計されている。 Ego4Dデータセットで1日8個のNVIDIA RTX-3090 GPUでトレーニングすることができる。 本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。

We introduce LAVITI, a novel approach to learning language, video, and temporal representations in long-form videos via contrastive learning. Different from pre-training on video-text pairs like EgoVLP, LAVITI aims to align language, video, and temporal features by extracting meaningful moments in untrimmed videos. Our model employs a set of learnable moment queries to decode clip-level visual, language, and temporal features. In addition to vision and language alignment, we introduce relative temporal embeddings (TE) to represent timestamps in videos, which enables contrastive learning of time. Significantly different from traditional approaches, the prediction of a particular timestamp is transformed by computing the similarity score between the predicted TE and all TEs. Furthermore, existing approaches for video understanding are mainly designed for short videos due to high computational complexity and memory footprint. Our method can be trained on the Ego4D dataset with only 8 NVIDIA RTX-3090 GPUs in a day. We validated our method on CharadesEgo action recognition, achieving state-of-the-art results.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-04
# Dual-Space Prototypeal Network-based Approach を用いたDDoS攻撃検出の再定義

Redefining DDoS Attack Detection Using A Dual-Space Prototypical Network-Based Approach ( http://arxiv.org/abs/2406.02632v1 )

ライセンス: Link先を確認
Fernando Martinez, Mariyam Mapkar, Ali Alfatemi, Mohamed Rahouti, Yufeng Xin, Kaiqi Xiong, Nasir Ghani, (参考訳) DDoS(Distributed Denial of Service)攻撃は、世界中の組織にますます深刻なサイバーセキュリティの脅威をもたらす。 本稿では,DDoS攻撃を検出するためのディープラーニングに基づく新しい手法を提案する。 具体的には、幾何学的および角的類似度測定により、様々な攻撃パターンの検出精度を高めるために、ユニークな二空間損失関数を利用する新しい二空間プロトタイプネットワークを提案する。 このアプローチは、潜在空間内の表現学習(機械学習分析のための複雑なパターンをキャプチャするデータの低次元表現)の強みを生かし、モデルの適応性と様々なDDoS攻撃ベクトルに対する感度を向上させる。 我々の総合的な評価は、オフライントレーニング、シミュレートされたオンライントレーニング、プロトタイプネットワークシナリオを含む複数のトレーニング環境にまたがり、多様なデータ量と不足条件下でモデルの堅牢性を検証する。 アテンション付き多層パーセプトロン(MLP)は、トレーニングセットを減らした2次元空間のプロトタイプ設計で訓練され、平均精度94.85%、F1スコア94.71%に達し、動的および制約された実世界のシナリオにおけるその効果を示す。

Distributed Denial of Service (DDoS) attacks pose an increasingly substantial cybersecurity threat to organizations across the globe. In this paper, we introduce a new deep learning-based technique for detecting DDoS attacks, a paramount cybersecurity challenge with evolving complexity and scale. Specifically, we propose a new dual-space prototypical network that leverages a unique dual-space loss function to enhance detection accuracy for various attack patterns through geometric and angular similarity measures. This approach capitalizes on the strengths of representation learning within the latent space (a lower-dimensional representation of data that captures complex patterns for machine learning analysis), improving the model's adaptability and sensitivity towards varying DDoS attack vectors. Our comprehensive evaluation spans multiple training environments, including offline training, simulated online training, and prototypical network scenarios, to validate the model's robustness under diverse data abundance and scarcity conditions. The Multilayer Perceptron (MLP) with Attention, trained with our dual-space prototypical design over a reduced training set, achieves an average accuracy of 94.85% and an F1-Score of 94.71% across our tests, showcasing its effectiveness in dynamic and constrained real-world scenarios.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-04
# 言語モデルのための距離ロバストな透かしの編集

Edit Distance Robust Watermarks for Language Models ( http://arxiv.org/abs/2406.02633v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, (参考訳) AI生成テキストの検出の問題に触発されて、証明可能な保証付き言語モデルの出力を透かしする問題を考える。 私たちは満足のいく透かしを目指しています。 (a)非検出性(英: undetectability)とは、Christ, Gunn & Zamir (2024)によって導入された暗号概念で、透かし付き言語モデルの出力を実際の出力分布から区別することが計算的に難しいことを規定している。 b) 透かし付きテキストに一定の数の逆挿入、置換、削除をもたらすチャネルに対する堅牢性。 従来のスキームは確率的な置換や削除しか扱えないため、編集距離に関するより自然で魅力的な堅牢性を保証することを目指しています。 我々の主な成果は、言語モデルのアルファベットサイズがセキュリティパラメータの多項式として成長することを許された場合に、編集の不検出性と堅牢性を両立する透かし方式である。 このようなスキームを導出するために、Christ & Gunn (2024) が導入したアプローチは、上記のものと類似した非検出性と堅牢性を満足する擬似乱数符号を最初に構築することで進行する。 さらに、我々の符号は以前の研究よりも弱い計算仮定に依存している。 次に、大文字上のそのような符号から任意の言語モデルのための透かしスキームへの一般的な変換が存在することを示す。

Motivated by the problem of detecting AI-generated text, we consider the problem of watermarking the output of language models with provable guarantees. We aim for watermarks which satisfy: (a) undetectability, a cryptographic notion introduced by Christ, Gunn & Zamir (2024) which stipulates that it is computationally hard to distinguish watermarked language model outputs from the model's actual output distribution; and (b) robustness to channels which introduce a constant fraction of adversarial insertions, substitutions, and deletions to the watermarked text. Earlier schemes could only handle stochastic substitutions and deletions, and thus we are aiming for a more natural and appealing robustness guarantee that holds with respect to edit distance. Our main result is a watermarking scheme which achieves both undetectability and robustness to edits when the alphabet size for the language model is allowed to grow as a polynomial in the security parameter. To derive such a scheme, we follow an approach introduced by Christ & Gunn (2024), which proceeds via first constructing pseudorandom codes satisfying undetectability and robustness properties analogous to those above; our key idea is to handle adversarial insertions and deletions by interpreting the symbols as indices into the codeword, which we call indexing pseudorandom codes. Additionally, our codes rely on weaker computational assumptions than used in previous work. Then we show that there is a generic transformation from such codes over large alphabets to watermarking schemes for arbitrary language models.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# 時間的インプットによるソースフリー時間領域適応の正当性

Evidentially Calibrated Source-Free Time-Series Domain Adaptation with Temporal Imputation ( http://arxiv.org/abs/2406.02635v1 )

ライセンス: Link先を確認
Peiliang Gong, Mohamed Ragab, Emadeldeen Eldele, Wenyu Zhang, Min Wu, Chuan-Sheng Foo, Daoqiang Zhang, Xiaoli Li, Zhenghua Chen, (参考訳) ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインで事前トレーニングされたモデルを、ソースデータにアクセスせずにラベル付きターゲットドメインに適応し、ソースドメインのプライバシを保存することを目的としている。 SFDAはコンピュータビジョンで広く使われているが、時系列分析では探索されていない。 既存のSFDA法は、視覚データのために設計されており、時系列の時間的ダイナミクスを捉えるのに苦労し、適応性能を妨げている。 本稿では, 時系列SFDAの新規かつ効果的なアプローチであるMAsk And imPUte(MAPU)を提案する。 MAPUは、新しい時間的計算タスクを導入することで、時間的一貫性の重要な課題に対処する。 このタスクは、時系列信号をランダムにマスキングし、専用の時間インプタを利用して学習された埋め込み空間内の元の信号を復元し、ノイズの多い生データの複雑さを回避します。 特に、MAPUは時系列SFDAの文脈で時間的一貫性を明示的に扱う最初の方法である。 さらに、既存のSFDAメソッドとシームレスに統合され、柔軟性が向上する。 さらにE-MAPUを導入し,不確実性推定を取り入れ,ソフトマックス予測に固有の過信問題に対処する。 そこで我々は、前向きな深層学習を活用して、より良い校正された事前学習モデルを取得し、目標エンコーダを適用して、サポート外ターゲットサンプルを、ソースドメインのサポートに近い新しい特徴表現にマッピングする。 これによりアライメントが向上し、最終的に適応性能が向上する。 5つの実世界の時系列データセットに対する大規模な実験により、MAPUとE-MAPUの両方が既存の手法と比較して大きな性能向上を達成した。 これらの結果は,様々な時系列領域適応問題に対処するための提案手法の有効性を浮き彫りにした。

Source-free domain adaptation (SFDA) aims to adapt a model pre-trained on a labeled source domain to an unlabeled target domain without access to source data, preserving the source domain's privacy. While SFDA is prevalent in computer vision, it remains largely unexplored in time series analysis. Existing SFDA methods, designed for visual data, struggle to capture the inherent temporal dynamics of time series, hindering adaptation performance. This paper proposes MAsk And imPUte (MAPU), a novel and effective approach for time series SFDA. MAPU addresses the critical challenge of temporal consistency by introducing a novel temporal imputation task. This task involves randomly masking time series signals and leveraging a dedicated temporal imputer to recover the original signal within the learned embedding space, bypassing the complexities of noisy raw data. Notably, MAPU is the first method to explicitly address temporal consistency in the context of time series SFDA. Additionally, it offers seamless integration with existing SFDA methods, providing greater flexibility. We further introduce E-MAPU, which incorporates evidential uncertainty estimation to address the overconfidence issue inherent in softmax predictions. To achieve that, we leverage evidential deep learning to obtain a better-calibrated pre-trained model and adapt the target encoder to map out-of-support target samples to a new feature representation closer to the source domain's support. This fosters better alignment, ultimately enhancing adaptation performance. Extensive experiments on five real-world time series datasets demonstrate that both MAPU and E-MAPU achieve significant performance gains compared to existing methods. These results highlight the effectiveness of our proposed approaches for tackling various time series domain adaptation problems.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# 自己監督学習とほとんどショット学習によるIoT環境におけるネットワーク侵入検出の強化

Strengthening Network Intrusion Detection in IoT Environments with Self-Supervised Learning and Few Shot Learning ( http://arxiv.org/abs/2406.02636v1 )

ライセンス: Link先を確認
Safa Ben Atitallah, Maha Driss, Wadii Boulila, Anis Koubaa, (参考訳) IoT(Internet of Things)は、インテリジェンスを日常のオブジェクトに統合し、それら間の高レベルの接続を可能にするブレークスルー技術として導入された。 IoTネットワークが拡大し、拡大するにつれ、サイバーセキュリティ攻撃の影響を受けやすくなっている。 IoTの現在の侵入検知システムにおける重要な課題は、ラベル付きデータが不足している不均衡なデータセットの処理である。 既存の文献は、しばしばそのような未表現の攻撃クラスを検出するのに失敗する。 本稿では,これらの課題に対処する新しい侵入検知手法を提案する。 Self Supervised Learning(SSL)、Few Shot Learning(FSL)、Random Forest(RF)を統合することで、制限された不均衡なデータからの学習と検出能力の向上に長けています。 このアプローチは、データセットから重要な機能を抽出するようにトレーニングされたDeep Infomaxモデルから始まる。 これらの特徴は、識別埋め込みを生成するために、プロトタイプネットワークに入力される。 その後、RF分類器を使用して、IoTネットワークで頻繁に見られる攻撃を含む潜在的なマルウェアを検出し、分類する。 提案手法はMaleVisとWSN-DSの2つの異なるデータセットを用いて評価され、98.60%と99.56%の精度、98.79%と99.56%の精度、98.60%と99.56%のリコール、98.63%と99.56%のF1スコアでそれぞれ優れた性能を示した。

The Internet of Things (IoT) has been introduced as a breakthrough technology that integrates intelligence into everyday objects, enabling high levels of connectivity between them. As the IoT networks grow and expand, they become more susceptible to cybersecurity attacks. A significant challenge in current intrusion detection systems for IoT includes handling imbalanced datasets where labeled data are scarce, particularly for new and rare types of cyber attacks. Existing literature often fails to detect such underrepresented attack classes. This paper introduces a novel intrusion detection approach designed to address these challenges. By integrating Self Supervised Learning (SSL), Few Shot Learning (FSL), and Random Forest (RF), our approach excels in learning from limited and imbalanced data and enhancing detection capabilities. The approach starts with a Deep Infomax model trained to extract key features from the dataset. These features are then fed into a prototypical network to generate discriminate embedding. Subsequently, an RF classifier is employed to detect and classify potential malware, including a range of attacks that are frequently observed in IoT networks. The proposed approach was evaluated through two different datasets, MaleVis and WSN-DS, which demonstrate its superior performance with accuracies of 98.60% and 99.56%, precisions of 98.79% and 99.56%, recalls of 98.60% and 99.56%, and F1-scores of 98.63% and 99.56%, respectively.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# EchoMamba4Rec: 高度なシーケンスレコメンデーションのためのスペクトルフィルタリングによる双方向状態空間モデルの調和

EchoMamba4Rec: Harmonizing Bidirectional State Space Models with Spectral Filtering for Advanced Sequential Recommendation ( http://arxiv.org/abs/2406.02638v1 )

ライセンス: Link先を確認
Yuda Wang, Xuxin He, Shengxin Zhu, (参考訳) シークエンシャルレコメンデーションは,ユーザ行動の動的嗜好とシーケンシャルな依存関係を推定することを目的としている。 注意に基づくモデルはシーケンシャルなレコメンデーションに有効であることが証明されているが、特に長距離行動系列において、注意機構の2次計算の複雑さにより、推論の非効率性に悩まされている。 動的システムのモデリングと制御のための堅牢なフレームワークを提供する制御理論における状態空間モデル(SSM)の最近の成功に触発されて,EchoMamba4Recを提案する。 制御理論は、長期依存を管理し、構造化状態行列を通して推論効率を維持するためのSSMの使用を強調している。 EchoMamba4Recは、これらの制御関係をシーケンシャルなレコメンデーションで利用し、双方向処理と周波数領域フィルタリングを統合して、ユーザインタラクションデータの複雑なパターンや依存関係をより効率的にキャプチャする。 我々のモデルは、並列計算を学習し実行し、計算効率とスケーラビリティを大幅に向上させる状態空間モデル(SSM)の利点がある。 前方と後方の両方のMambaコンポーネントを組み込んだ双方向のMambaモジュールを備えており、過去と将来のインタラクションからの情報を活用する。 さらに、フィルタ層は、学習可能なFast Fourier Transform(FFT)と学習可能なフィルタを使用して周波数領域で動作し、続いて逆FFTによってアイテム埋め込みを洗練しノイズを低減する。 また、ゲート線形ユニット(GLU)を統合して情報の流れを動的に制御し、モデルの表現性や訓練安定性を高める。 実験の結果、EchoMambaは既存のモデルを大幅に上回り、より正確でパーソナライズされたレコメンデーションを提供することが示された。

Sequential recommendation aims to estimate dynamic user preferences and sequential dependencies among historical user behaviors. Attention-based models have proven effective for sequential recommendation, but they suffer from inference inefficiency due to the quadratic computational complexity of attention mechanisms, particularly for long-range behavior sequences. Inspired by the recent success of state space models (SSMs) in control theory, which provide a robust framework for modeling and controlling dynamic systems, we present EchoMamba4Rec. Control theory emphasizes the use of SSMs for managing long-range dependencies and maintaining inferential efficiency through structured state matrices. EchoMamba4Rec leverages these control relationships in sequential recommendation and integrates bi-directional processing with frequency-domain filtering to capture complex patterns and dependencies in user interaction data more effectively. Our model benefits from the ability of state space models (SSMs) to learn and perform parallel computations, significantly enhancing computational efficiency and scalability. It features a bi-directional Mamba module that incorporates both forward and reverse Mamba components, leveraging information from both past and future interactions. Additionally, a filter layer operates in the frequency domain using learnable Fast Fourier Transform (FFT) and learnable filters, followed by an inverse FFT to refine item embeddings and reduce noise. We also integrate Gate Linear Units (GLU) to dynamically control information flow, enhancing the model's expressiveness and training stability. Experimental results demonstrate that EchoMamba significantly outperforms existing models, providing more accurate and personalized recommendations.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# E-ICL: 原型理論のレンズによる細粒度感情認識の強化

E-ICL: Enhancing Fine-Grained Emotion Recognition through the Lens of Prototype Theory ( http://arxiv.org/abs/2406.02642v1 )

ライセンス: Link先を確認
Zhou Yang, Zhaochun Ren, Chenglong Ye, Yufeng Wang, Haizhou Sun, Chao Chen, Xiaofei Zhu, Yunbing Wu, Xiangwen Liao, (参考訳) In-context Learning (ICL)は、知識獲得、常識推論、意味理解など、様々な領域において顕著なパフォーマンスを達成する。 しかし、その性能は感情検出タスク、特に微粒な感情認識において著しく低下する。 その根底にある理由は未だ不明である。 本稿では,プロトタイプ理論の観点からICLの性能低下の原因を特定し,この問題に対処する手法を提案する。 具体的には、広範囲にわたる実験を行い、ICLが微粒な感情認識のプロトタイプ理論に適合していることを見出した。 この理論に基づいて、(1)感情を予測するために意味論的に類似しているが感情的に不正確であるプロトタイプ(例-ラベルペア)に依存している。 2)無関係なカテゴリーから干渉する傾向があり,予測の正確性や堅牢性に影響を及ぼす。 これらの問題に対処するため,感情認識のための感情コンテキスト学習法(E-ICL)を提案する。 E-ICLは、動的ラベルで感情的に類似した例を参照することでカテゴリを予測するために、より感情的に正確なプロトタイプに依存している。 同時に、E-ICLは無関係なカテゴリからの干渉を避けるために排他的感情予測戦略を採用し、その精度と堅牢性を高める。 プロセス全体は、追加のトレーニングなしで、プラグアンドプレイの感情補助モデルの助けを借りて達成されていることに注意してください。 EDOS, Empathetic-Dialogues, EmpatheticIntent, GoEmotionsの詳細な感情データセット実験により, E-ICLが優れた感情予測性能を発揮することが示された。 さらに、使用する感情補助モデルがLLMの10%未満である場合でも、E-ICLは複数のデータセット上でLLMのパフォーマンスを4%以上向上させることができる。

In-context learning (ICL) achieves remarkable performance in various domains such as knowledge acquisition, commonsense reasoning, and semantic understanding. However, its performance significantly deteriorates for emotion detection tasks, especially fine-grained emotion recognition. The underlying reasons for this remain unclear. In this paper, we identify the reasons behind ICL's poor performance from the perspective of prototype theory and propose a method to address this issue. Specifically, we conduct extensive pilot experiments and find that ICL conforms to the prototype theory on fine-grained emotion recognition. Based on this theory, we uncover the following deficiencies in ICL: (1) It relies on prototypes (example-label pairs) that are semantically similar but emotionally inaccurate to predict emotions. (2) It is prone to interference from irrelevant categories, affecting the accuracy and robustness of the predictions. To address these issues, we propose an Emotion Context Learning method (E-ICL) on fine-grained emotion recognition. E-ICL relies on more emotionally accurate prototypes to predict categories by referring to emotionally similar examples with dynamic labels. Simultaneously, E-ICL employs an exclusionary emotion prediction strategy to avoid interference from irrelevant categories, thereby increasing its accuracy and robustness. Note that the entire process is accomplished with the assistance of a plug-and-play emotion auxiliary model, without additional training. Experiments on the fine-grained emotion datasets EDOS, Empathetic-Dialogues, EmpatheticIntent, and GoEmotions show that E-ICL achieves superior emotion prediction performance. Furthermore, even when the emotion auxiliary model used is lower than 10% of the LLMs, E-ICL can still boost the performance of LLMs by over 4% on multiple datasets.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# 確率ブロックモデルに対する微分的私的精度回復

Differentially private exact recovery for stochastic block models ( http://arxiv.org/abs/2406.02644v1 )

ライセンス: Link先を確認
Dung Nguyen, Anil Vullikanti, (参考訳) 確率ブロックモデル(SBM)は、コミュニティ検出アルゴリズムのための非常によく研究されているネットワークモデルである。 SBMの標準形式では、グラフの$n$頂点(またはノード)は、一般に複数の事前決定されたコミュニティ(またはクラスタ)に分けられる。 頂点のペア間の接続は、2つのノードを含むコミュニティに依存する事前定義された確率でランダムに独立に生成される。 SBMの基本的な問題は、コミュニティ構造の回復であり、鋭い情報理論境界は、多くのバージョンのSBMの回復可能性で知られている。 我々の焦点は、ネットワークがプライベートであるときのSBMの回復可能性の問題です。 エッジ差分プライバシモデルでは、非対称SBM(非一様サイズ)、一般構造SBM(外接型)、検閲SBM(エッジ特徴付き)の3つの異なるバージョンにおいて、正確な回復可能性の条件を導出する。 我々のプライベートアルゴリズムは、入力グラフのサイズの多項式実行時間を持ち、$\epsilon\rightarrow\infty$のときの非プライベート設定の回復しきい値と一致する。 対照的に、SBMの回復可能性に関する以前の最良の結果は、対称な場合(等間隔のコミュニティ)にのみ適用され、準多項式時間、または、リカバリしきい値が非プライベートな設定からいくつかの定数に密着した多項式時間で実行される。

Stochastic block models (SBMs) are a very commonly studied network model for community detection algorithms. In the standard form of an SBM, the $n$ vertices (or nodes) of a graph are generally divided into multiple pre-determined communities (or clusters). Connections between pairs of vertices are generated randomly and independently with pre-defined probabilities, which depend on the communities containing the two nodes. A fundamental problem in SBMs is the recovery of the community structure, and sharp information-theoretic bounds are known for recoverability for many versions of SBMs. Our focus here is the recoverability problem in SBMs when the network is private. Under the edge differential privacy model, we derive conditions for exact recoverability in three different versions of SBMs, namely Asymmetric SBM (when communities have non-uniform sizes), General Structure SBM (with outliers), and Censored SBM (with edge features). Our private algorithms have polynomial running time w.r.t. the input graph's size, and match the recovery thresholds of the non-private setting when $\epsilon\rightarrow\infty$. In contrast, the previous best results for recoverability in SBMs only hold for the symmetric case (equal size communities), and run in quasi-polynomial time, or in polynomial time with recovery thresholds being tight up to some constants from the non-private settings.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# Astral: エラーメジャートを用いた物理インフォームドニューラルネットワークのトレーニング

Astral: training physics-informed neural networks with error majorants ( http://arxiv.org/abs/2406.02645v1 )

ライセンス: Link先を確認
Vladimir Fanaskov, Tianchi Yu, Alexander Rudikov, Ivan Oseledets, (参考訳) 物理インフォームドラーニングの基本的なアプローチは、残余の最小化である。 我々は、残差は、せいぜい、近似解の誤差の間接測度であり、代わりに誤差メジャーで訓練することを提案する。 エラーメジャートはエラーの直接上限を与えるので、正確な解にどれだけ近いかを確実に推定し、所望の精度に達すると最適化プロセスを止めることができる。 エラーメジャーな $\textbf{Astral}$: neur$\textbf{A}$l a po$\textbf{ST}$erio$\textbf{RI}$ function$\textbf{A}$l Loss と関連する損失関数を呼び出します。 アストラルと残留損失関数を比較するために、様々なPDEに対して誤差行列を導出し、拡散方程式(異方性やL字型領域を含む)、対流拡散方程式、マクスウェル方程式の時間的離散化、静磁場問題を用いて実験する方法について説明する。 その結果、アストラル損失は残留損失と競合し、典型的にはより高速な収束と低い誤差をもたらす(例えばマクスウェルの方程式では、より優れた相対誤差と訓練時間のオーダーが観察される)。 また, アストラル損失による誤差推定は, 平均1.5ドルで誤差を過大評価し, 対流拡散を1.7ドルで行うと, 高い異方性方程式に対して, 情報伝達に十分なほど厳密であることも報告した。

The primal approach to physics-informed learning is a residual minimization. We argue that residual is, at best, an indirect measure of the error of approximate solution and propose to train with error majorant instead. Since error majorant provides a direct upper bound on error, one can reliably estimate how close PiNN is to the exact solution and stop the optimization process when the desired accuracy is reached. We call loss function associated with error majorant $\textbf{Astral}$: neur$\textbf{A}$l a po$\textbf{ST}$erio$\textbf{RI}$ function$\textbf{A}$l Loss. To compare Astral and residual loss functions, we illustrate how error majorants can be derived for various PDEs and conduct experiments with diffusion equations (including anisotropic and in the L-shaped domain), convection-diffusion equation, temporal discretization of Maxwell's equation, and magnetostatics problem. The results indicate that Astral loss is competitive to the residual loss, typically leading to faster convergence and lower error (e.g., for Maxwell's equations, we observe an order of magnitude better relative error and training time). We also report that the error estimate obtained with Astral loss is usually tight enough to be informative, e.g., for a highly anisotropic equation, on average, Astral overestimates error by a factor of $1.5$, and for convection-diffusion by a factor of $1.7$.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# Tsetlin マシンにおける超次元ベクトルの探索効果

Exploring Effects of Hyperdimensional Vectors for Tsetlin Machines ( http://arxiv.org/abs/2406.02648v1 )

ライセンス: Link先を確認
Vojtech Halenka, Ahmed K. Kadhim, Paul F. A. Clarke, Bimal Bhattarai, Rupsa Saha, Ole-Christoffer Granmo, Lei Jiao, Per-Arne Andersen, (参考訳) Tsetlin Machine (TM) はいくつかのアプリケーション領域で成功しており、入力データのブール表現で高い効率で動作している。 しかし、シーケンス、グラフ、画像、信号スペクトル、化合物、自然言語などの複雑なデータ構造をブール化することは簡単ではない。 本稿では,任意の入力データに関連付けられた任意の概念セットを任意に表現するハイパーベクタ(HV)に基づく手法を提案する。 超次元空間を用いてベクトルを構築すると、TMの容量と柔軟性が劇的に拡大する。 提案手法により, 画像, 化合物, 自然言語テキストがどのように符号化されるか, 得られたHV駆動TMが, 良く知られたベンチマークにおいて, より精度が高く, より高速な学習を実現するかを示す。 我々の研究成果は,新たなブール化戦略,TM推論と学習の最適化,新しいTMアプリケーションなど,ハイパースペースでの運用のメリットの拡大と活用に関する新たな研究方向を開くものである。

Tsetlin machines (TMs) have been successful in several application domains, operating with high efficiency on Boolean representations of the input data. However, Booleanizing complex data structures such as sequences, graphs, images, signal spectra, chemical compounds, and natural language is not trivial. In this paper, we propose a hypervector (HV) based method for expressing arbitrarily large sets of concepts associated with any input data. Using a hyperdimensional space to build vectors drastically expands the capacity and flexibility of the TM. We demonstrate how images, chemical compounds, and natural language text are encoded according to the proposed method, and how the resulting HV-powered TM can achieve significantly higher accuracy and faster learning on well-known benchmarks. Our results open up a new research direction for TMs, namely how to expand and exploit the benefits of operating in hyperspace, including new booleanization strategies, optimization of TM inference and learning, as well as new TM applications.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# キーワード誘導による音声認識の適応

Keyword-Guided Adaptation of Automatic Speech Recognition ( http://arxiv.org/abs/2406.02649v1 )

ライセンス: Link先を確認
Aviv Shamsian, Aviv Navon, Neta Glazer, Gill Hetz, Joseph Keshet, (参考訳) 音声認識(ASR)技術は近年大きく進歩し、様々な領域に正確に転写されている。 しかし、特にノイズの多い環境や専門用語では、いくつかの課題が残っている。 本稿では,Whisper ベースモデルを用いた文脈偏見による単語認識の改良手法を提案する。 本稿では,Whisperエンコーダ表現を利用したキーワードスポッティングモデルを用いて,書き起こし処理中にデコーダを誘導するプロンプトを動的に生成する。 提案手法は,Whisperデコーダの微調整を目的としたKG-Whisperと,プリミティブプレフィックスを学習するKG-Whisper-PTである。 その結果,特定のキーワードの認識精度が向上し,全体的な単語誤り率の低減が図られた。 具体的には、目に見えない言語一般化において、Whisperよりも平均5.1%のWER改善を示す。

Automatic Speech Recognition (ASR) technology has made significant progress in recent years, providing accurate transcription across various domains. However, some challenges remain, especially in noisy environments and specialized jargon. In this paper, we propose a novel approach for improved jargon word recognition by contextual biasing Whisper-based models. We employ a keyword spotting model that leverages the Whisper encoder representation to dynamically generate prompts for guiding the decoder during the transcription process. We introduce two approaches to effectively steer the decoder towards these prompts: KG-Whisper, which is aimed at fine-tuning the Whisper decoder, and KG-Whisper-PT, which learns a prompt prefix. Our results show a significant improvement in the recognition accuracy of specified keywords and in reducing the overall word error rates. Specifically, in unseen language generalization, we demonstrate an average WER improvement of 5.1% over Whisper.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# 公正な意味とフール: 深層強化学習による市場シミュレーションにおける衝突の定量化

By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning ( http://arxiv.org/abs/2406.02650v1 )

ライセンス: Link先を確認
Michael Schlechtinger, Damaris Kosack, Franz Krause, Heiko Paulheim, (参考訳) 急速に進化するeコマースの世界では、人工知能(AI)ベースの価格アルゴリズム、特に強化学習(RL)を利用するものがますます普及している。 この上昇は、市場の共謀の可能性を秘めている価格の状況に繋がった。 本研究は,基本経済理論から主観的消費者需要選好までのシナリオをカバーするために,価格競争を繰り返す実験的なオリゴポリーモデルを用いて,環境を体系的に変化させる。 また、様々な需要モデルの実装を可能にする新しい需要フレームワークを導入し、異なるモデルの重み付けを可能にする。 この領域における既存の研究とは対照的に、エージェントが開発する戦略や価格パターンについて検討することを目的としており、これが協調的な結果をもたらす可能性がある。 さらに,エージェントが競争相手の価格を観測できないシナリオについても検討する。 最後に、すべてのシナリオに対して包括的な法的分析を提供します。 以上の結果から,RLをベースとしたAIエージェントは,必ずしもエージェント間通信を必要とせず,超競争的な価格帯電を特徴とする癒着状態に収束することが示唆された。 代替RLアルゴリズムの実装、エージェント数やシミュレーション設定の変更、エージェントの観察範囲の制限は、市場の結果に大きく影響しない。

In the rapidly evolving landscape of eCommerce, Artificial Intelligence (AI) based pricing algorithms, particularly those utilizing Reinforcement Learning (RL), are becoming increasingly prevalent. This rise has led to an inextricable pricing situation with the potential for market collusion. Our research employs an experimental oligopoly model of repeated price competition, systematically varying the environment to cover scenarios from basic economic theory to subjective consumer demand preferences. We also introduce a novel demand framework that enables the implementation of various demand models, allowing for a weighted blending of different models. In contrast to existing research in this domain, we aim to investigate the strategies and emerging pricing patterns developed by the agents, which may lead to a collusive outcome. Furthermore, we investigate a scenario where agents cannot observe their competitors' prices. Finally, we provide a comprehensive legal analysis across all scenarios. Our findings indicate that RL-based AI agents converge to a collusive state characterized by the charging of supracompetitive prices, without necessarily requiring inter-agent communication. Implementing alternative RL algorithms, altering the number of agents or simulation settings, and restricting the scope of the agents' observation space does not significantly impact the collusive market outcome behavior.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# RoutePlacer: グラフニューラルネットワークを用いたエンドツーエンドのランタビリティ認識プレーザ

RoutePlacer: An End-to-End Routability-Aware Placer with Graph Neural Network ( http://arxiv.org/abs/2406.02651v1 )

ライセンス: Link先を確認
Yunbo Hou, Haoran Ye, Yingxue Zhang, Siyuan Xu, Guojie Song, (参考訳) 配置は現代のチップ設計における決定的かつ挑戦的なステップであり、ルタビリティは配置品質の重要な指標である。 現在のroutability-oriented placerは、通常、反復的な2段階のアプローチを適用し、第1段階は配置解を生成し、第2段階は、解の質をヒューリスティックに改善するために、微分不可能なルーティング結果を提供する。 この方法では、配置中の暴走性面を共同最適化することを妨げる。 この問題に対処するため,本研究では,終端可逆性を考慮した配置法であるRoutePlacerを導入する。 カスタマイズされたグラフニューラルネットワークであるRouteGNNをトレーニングし、幾何学的およびトポロジカルな配置表現をキャプチャして融合することにより、ルタビリティを効率的に正確に予測する。 十分に訓練されたRouteGNNは、routabilityの微分可能な近似として機能し、エンドツーエンドの勾配に基づくroutabilityの最適化を可能にする。 また、RouteGNNは外部ルータのプラグアンドプレイ代替として2段プレースを改善できる。 オープンソースのAI4EDAプラットフォームであるDREAMPlaceを実験したところ、ルーティングされたワイヤ長を保ちながらトータルオーバーフローを最大16%削減できることがわかった。

Placement is a critical and challenging step of modern chip design, with routability being an essential indicator of placement quality. Current routability-oriented placers typically apply an iterative two-stage approach, wherein the first stage generates a placement solution, and the second stage provides non-differentiable routing results to heuristically improve the solution quality. This method hinders jointly optimizing the routability aspect during placement. To address this problem, this work introduces RoutePlacer, an end-to-end routability-aware placement method. It trains RouteGNN, a customized graph neural network, to efficiently and accurately predict routability by capturing and fusing geometric and topological representations of placements. Well-trained RouteGNN then serves as a differentiable approximation of routability, enabling end-to-end gradient-based routability optimization. In addition, RouteGNN can improve two-stage placers as a plug-and-play alternative to external routers. Our experiments on DREAMPlace, an open-source AI4EDA platform, show that RoutePlacer can reduce Total Overflow by up to 16% while maintaining routed wirelength, compared to the state-of-the-art; integrating RouteGNN within two-stage placers leads to a 44% reduction in Total Overflow without compromising wirelength.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# RepCNN: Wakeword検出のためのマイクロサイズマイティモデル

RepCNN: Micro-sized, Mighty Models for Wakeword Detection ( http://arxiv.org/abs/2406.02652v1 )

ライセンス: Link先を確認
Arnav Kundu, Prateeth Nayak, Hywel Richards, Priyanka Padmanabhan, Devang Naik, (参考訳) 常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。 彼らの制限されたパラメータカウントは、学習するモデルの能力と、最高のパラメータを見つけるための通常のトレーニングアルゴリズムの有効性を制限する。 ここでは、小さな畳み込みモデルを、まず計算をより大きな冗長なマルチブランチアーキテクチャにリファクタリングすることで、よりよく訓練できることを示す。 そして、推論のために、トレーニングされたモデルをより少ないパラメータでより少ないメモリフットプリントと計算コストで単一ブランチ形式に代数的に再パラメータ化する。 この手法を用いることで、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。 RepCNNの再パラメータ化モデルは、同じランタイムを持ちながら、ユニブランチの畳み込みモデルよりも43%正確である。 RepCNNは、BC-ResNetのような複雑なアーキテクチャの精度も満たしている。

Always-on machine learning models require a very low memory and compute footprint. Their restricted parameter count limits the model's capacity to learn, and the effectiveness of the usual training algorithms to find the best parameters. Here we show that a small convolutional model can be better trained by first refactoring its computation into a larger redundant multi-branched architecture. Then, for inference, we algebraically re-parameterize the trained model into the single-branched form with fewer parameters for a lower memory footprint and compute cost. Using this technique, we show that our always-on wake-word detector model, RepCNN, provides a good trade-off between latency and accuracy during inference. RepCNN re-parameterized models are 43% more accurate than a uni-branch convolutional model while having the same runtime. RepCNN also meets the accuracy of complex architectures like BC-ResNet, while having 2x lesser peak memory usage and 10x faster runtime.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# Denoising Diffusion Modelを用いたCT画像における膵腫瘍分節の異常検出

Pancreatic Tumor Segmentation as Anomaly Detection in CT Images Using Denoising Diffusion Models ( http://arxiv.org/abs/2406.02653v1 )

ライセンス: Link先を確認
Reza Babaei, Samuel Cheng, Theresa Thai, Shangqing Zhao, (参考訳) 医学の進歩にもかかわらず、がんは依然として恐ろしい課題である。 特に膵腫瘍では,その多様性と診断の遅さが特徴であり,早期発見は治療に極めて重要な課題である。 深層学習技術の進歩、特に教師付きアルゴリズムは、医療分野における膵腫瘍検出を著しく推進している。 しかし、教師付き深層学習アプローチは、トレーニングに広範囲なラベル付き医療画像を必要とするが、そのようなアノテーションの取得は限定的かつ費用がかかる。 逆に、画像レベルのアノテーションのみを必要とする弱い教師付き異常検出手法は関心を集めている。 既存の手法は主にGAN(Generative Adversarial Network)やオートエンコーダ(autoencoder)モデルにヒンジし、訓練の複雑さを生じさせる。 本研究は, 膵腫瘍検出に対する新しいアプローチとして, デノナイズ拡散法を用いて, 弱い監督異常検出を応用した手法を提案する。 分類器誘導とともにノイズを付加・除去する決定論的反復処理を組み込むことにより、病気と健常者の画像のシームレスな翻訳を可能にし、複雑なトレーニングプロトコルやセグメンテーションマスクを必要とせずに詳細な異常マップを作成できる。 本研究は, 膵腫瘍検出の分野に寄与する, GANsのような従来の生成モデルに対する最近の進歩として, 拡散モデルについて考察する。 本研究は, 膵癌の生存率の低さを認識し, 医療セグメント化作業における拡散モデルの効率を活用するための継続的な研究の必要性を強調した。

Despite the advances in medicine, cancer has remained a formidable challenge. Particularly in the case of pancreatic tumors, characterized by their diversity and late diagnosis, early detection poses a significant challenge crucial for effective treatment. The advancement of deep learning techniques, particularly supervised algorithms, has significantly propelled pancreatic tumor detection in the medical field. However, supervised deep learning approaches necessitate extensive labeled medical images for training, yet acquiring such annotations is both limited and costly. Conversely, weakly supervised anomaly detection methods, requiring only image-level annotations, have garnered interest. Existing methodologies predominantly hinge on generative adversarial networks (GANs) or autoencoder models, which can pose complexity in training and, these models may face difficulties in accurately preserving fine image details. This research presents a novel approach to pancreatic tumor detection, employing weak supervision anomaly detection through denoising diffusion algorithms. By incorporating a deterministic iterative process of adding and removing noise along with classifier guidance, the method enables seamless translation of images between diseased and healthy subjects, resulting in detailed anomaly maps without requiring complex training protocols and segmentation masks. This study explores denoising diffusion models as a recent advancement over traditional generative models like GANs, contributing to the field of pancreatic tumor detection. Recognizing the low survival rates of pancreatic cancer, this study emphasizes the need for continued research to leverage diffusion models' efficiency in medical segmentation tasks.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# マルウェアデータ依存グラフの特徴のkNN分類

kNN Classification of Malware Data Dependency Graph Features ( http://arxiv.org/abs/2406.02654v1 )

ライセンス: Link先を確認
John Musgrave, Anca Ralescu, (参考訳) 特徴分解能は、マルウェアの分類に適用した場合、分類器が説明可能な推論を行う能力に影響を与える。 データ依存グラフから構築した特徴に基づいて分類を行い、k-Nearest Neighbors(kNN)分類器の結果を示す。 本研究は,新しい特徴表現に基づく分類が高精度であるだけでなく,データ依存の特徴がプログラムの振舞いを直接表現しているため,推論における説明可能性も向上することを示す。 特徴抽出と表現のための新しいアプローチで処理したMicrosoft Kaggle 2015のマルウェアデータセットを用いて分類結果を示す。 パラメータ空間における分類に対する非パラメトリックアプローチは,Kaggleマルウェアデータセットのマルチクラス分類に適用した場合,87.5\%の分類精度を得ることができることを示す。 さらに、計量空間の類似性は事前の訓練なしに直接計算することができる。 この結果は,データ依存グラフが意味情報と構造情報の両方を正確に捉えていることを示す。

Feature resolution impacts the ability of classifiers to make explainable inferences when applied to malware classification. We explore classification based on features constructed from data dependency graphs, and present results from k-Nearest Neighbors (kNN) classifiers. Our study demonstrates that classification based on a novel feature representation not only yields high accuracy, but also increases explainability in inference, as features of data dependency are directly representative of program behavior. We present classification results using the Microsoft Kaggle 2015 malware dataset which was processed with a novel approach to feature extraction and representation. We show that non-parametric approaches to classification in the metric space are able to obtain classification accuracy of 87.5\% when applied to multi-class classification in the Kaggle malware dataset. Additionally, similarity in the metric space can be calculated directly without prior training. Our results provide evidence that data dependency graphs accurately capture both semantic and structural information.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# Block Transformer: 高速推論のためのグローバル-ローカル言語モデリング

Block Transformer: Global-to-Local Language Modeling for Fast Inference ( http://arxiv.org/abs/2406.02657v1 )

ライセンス: Link先を確認
Namgyu Ho, Sangmin Bae, Taehyeon Kim, Hyunjik Jo, Yireun Kim, Tal Schuster, Adam Fisch, James Thorne, Se-Young Yun, (参考訳) 本稿では,自己意識の推論ボトルネックを軽減するために,階層的グローバル・ローカル・モデリングを自己回帰変換器に適用したBlock Transformerアーキテクチャを提案する。 自己アテンションを適用するには、すべての前のシーケンスのキー値(KV)キャッシュをデコードステップ毎にメモリから取り出す必要がある。 これにより、このKVキャッシュIOは、バッチ推論において重大なボトルネックとなる。 これらのコストは、グローバルなコンテキストに自己注意を適用することに起因するため、グローバルなモデリングの高価なボトルネックを下位層に分離し、上位層に高速な局所的モデリングを適用する。 下層の残りのコストを軽減するために、入力トークンを固定サイズブロックに集約し、この粗いレベルで自己注意を適用する。 コンテキスト情報は単一の埋め込みに集約され、グローバルな注意を払わずに、上位層が次のトークンブロックをデコードできるようにする。 グローバルな注意ボトルネックがなければ、上位層は推論スループットを最大化するために計算ハードウェアを完全に活用できる。 グローバルモジュールとローカルモジュールを活用することで、Block Transformerアーキテクチャは、等価なパープレキシティを持つバニラトランスに比べて、推論スループットが10~20倍向上することを示した。 本研究では,グローバル・ローカル・モデリングの新たな応用を通じて,言語モデル推論を最適化する新たなアプローチを提案する。 コードはhttps://github.com/itsnamgyu/block-transformer.comから入手できる。

This paper presents the Block Transformer architecture which adopts hierarchical global-to-local modeling to autoregressive transformers to mitigate the inference bottlenecks of self-attention. To apply self-attention, the key-value (KV) cache of all previous sequences must be retrieved from memory at every decoding step. Thereby, this KV cache IO becomes a significant bottleneck in batch inference. We notice that these costs stem from applying self-attention on the global context, therefore we isolate the expensive bottlenecks of global modeling to lower layers and apply fast local modeling in upper layers. To mitigate the remaining costs in the lower layers, we aggregate input tokens into fixed size blocks and then apply self-attention at this coarse level. Context information is aggregated into a single embedding to enable upper layers to decode the next block of tokens, without global attention. Free of global attention bottlenecks, the upper layers can fully utilize the compute hardware to maximize inference throughput. By leveraging global and local modules, the Block Transformer architecture demonstrates 10-20x gains in inference throughput compared to vanilla transformers with equivalent perplexity. Our work introduces a new approach to optimize language model inference through novel application of global-to-local modeling. Code is available at https://github.com/itsnamgyu/block-transformer.
翻訳日:2024-06-06 23:19:06 公開日:2024-06-04
# 進化的マルチモーダル最適化における多様性の維持

Maintaining Diversity Provably Helps in Evolutionary Multimodal Optimization ( http://arxiv.org/abs/2406.02658v1 )

ライセンス: Link先を確認
Shengjie Ren, Zhijia Qiu, Chao Bian, Miqing Li, Chao Qian, (参考訳) 実世界では、解空間における複数の(局所的な)最適解が対象空間の単一点に対応するような最適化問題のクラスが存在する。 本稿では,このようなマルチモーダル問題に対して,解空間における解の多様性を考慮した簡単な手法が進化的アルゴリズム(EA)の探索に有効であることを理論的に示す。 具体的には,クロスオーバーを用いた提案手法が探索の促進に有効であることを証明し,予測走行時間における多項式や指数加速度に繋がることを示した。 この結果は、広範に研究されている単目的問題であるJumpとNSGA-IIを解く$(\mu+1)$-GAや、広く研究されている二目的問題であるOneJumpZeroJumpを解くSMS-EMOA(2つの確立された多目的EA)を含む、単目的および多目的シナリオの厳密な実行時間解析によって導かれる。 理論的結果を検証する実験も行われている。 我々は,既存EAが通常,目的空間の多様性のみを考慮し,局所的最適性に陥りやすいような,多目的最適化のためのソリューション空間における多様性維持の探索を促進することを期待する。

In the real world, there exist a class of optimization problems that multiple (local) optimal solutions in the solution space correspond to a single point in the objective space. In this paper, we theoretically show that for such multimodal problems, a simple method that considers the diversity of solutions in the solution space can benefit the search in evolutionary algorithms (EAs). Specifically, we prove that the proposed method, working with crossover, can help enhance the exploration, leading to polynomial or even exponential acceleration on the expected running time. This result is derived by rigorous running time analysis in both single-objective and multi-objective scenarios, including $(\mu+1)$-GA solving the widely studied single-objective problem, Jump, and NSGA-II and SMS-EMOA (two well-established multi-objective EAs) solving the widely studied bi-objective problem, OneJumpZeroJump. Experiments are also conducted to validate the theoretical results. We hope that our results may encourage the exploration of diversity maintenance in the solution space for multi-objective optimization, where existing EAs usually only consider the diversity in the objective space and can easily be trapped in local optima.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 動的視覚刺激の神経表現

Neural Representations of Dynamic Visual Stimuli ( http://arxiv.org/abs/2406.02659v1 )

ライセンス: Link先を確認
Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr, (参考訳) 人間は、常に変化する視覚刺激を通して世界を経験し、シーンはシフトしたり移動したり、外観を変えたり、距離を変えたりすることができる。 視覚知覚のダイナミックな性質は、私たちの日常生活の基本的な側面であるが、物体やシーン処理、特にfMRIを用いた研究の大部分は、静的刺激に焦点を当てている。 静的画像知覚の研究は、計算の単純さから魅力的であるが、人間の視覚の研究に強い非自然主義的制約を課している。 対照的に、動的視覚刺激は、より生態学的に有意なアプローチを提供するが、空間的情報と時間的情報との相互作用による新たな課題を呈し、安定した画像の特徴や動きの表現を解き放つことは困難である。 この制限を克服するために、動的入力が与えられた場合、静的な画像表現と人間の脳における動き表現のモデリングを明示的に分離する。 3つの結果は、このアプローチの実現可能性を示している。 まず、fMRIによって計測された脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。 第2に、この予測された動きは、運動条件付きビデオ拡散モデル(動きはfMRI脳活動によって駆動される)を用いて、静的画像を現実的にアニメーションすることができることを示す。 既存のビデオエンコーダは、ビデオ画像からfMRI脳活動を予測するために微調整が可能であり、画像エンコーダよりも効果的に行うことができる。 この基礎研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための、新しく拡張可能な枠組みを提供する。

Humans experience the world through constantly changing visual stimuli, where scenes can shift and move, change in appearance, and vary in distance. The dynamic nature of visual perception is a fundamental aspect of our daily lives, yet the large majority of research on object and scene processing, particularly using fMRI, has focused on static stimuli. While studies of static image perception are attractive due to their computational simplicity, they impose a strong non-naturalistic constraint on our investigation of human vision. In contrast, dynamic visual stimuli offer a more ecologically-valid approach but present new challenges due to the interplay between spatial and temporal information, making it difficult to disentangle the representations of stable image features and motion. To overcome this limitation -- given dynamic inputs, we explicitly decouple the modeling of static image representations and motion representations in the human brain. Three results demonstrate the feasibility of this approach. First, we show that visual motion information as optical flow can be predicted (or decoded) from brain activity as measured by fMRI. Second, we show that this predicted motion can be used to realistically animate static images using a motion-conditioned video diffusion model (where the motion is driven by fMRI brain activity). Third, we show prediction in the reverse direction: existing video encoders can be fine-tuned to predict fMRI brain activity from video imagery, and can do so more effectively than image encoders. This foundational work offers a novel, extensible framework for interpreting how the human brain processes dynamic visual information.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 非対称データを用いた対称カーネル:データに依存しない学習性境界

Symmetric Kernels with Non-Symmetric Data: A Data-Agnostic Learnability Bound ( http://arxiv.org/abs/2406.02663v1 )

ライセンス: Link先を確認
Itay Lavie, Zohar Ringel, (参考訳) カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールであり、近年の高度にパラメータ化された深層ニューラルネットワークへの応用がある。 これらのツールがターゲット関数を学習する能力は、入力データ上にサンプリングされたカーネルの固有値に直接関係している。 高い固有値をサポートするターゲットは、より学習しやすい。 カーネルはしばしば高度に対称なオブジェクトであるが、データはしばしばそうではない。 したがって、カーネル対称性は上記の固有値や学習可能性にほとんど依存していないようで、実世界のデータに対するスペクトル分析は困難である。 ここでは、この一般的なルアーとは対照的に、高度に理想化されたデータ尺度に付随する固有値と固有関数を用いて、現実的なデータに学習可能性を持つことを示す。 実演として、自然言語に作用するジェネリックトランスフォーマーに関連するカーネルのヘッドのコピーの複雑さを理論的に低くする。

Kernel ridge regression (KRR) and Gaussian processes (GPs) are fundamental tools in statistics and machine learning with recent applications to highly over-parameterized deep neural networks. The ability of these tools to learn a target function is directly related to the eigenvalues of their kernel sampled on the input data. Targets having support on higher eigenvalues are more learnable. While kernels are often highly symmetric objects, the data is often not. Thus kernel symmetry seems to have little to no bearing on the above eigenvalues or learnability, making spectral analysis on real-world data challenging. Here, we show that contrary to this common lure, one may use eigenvalues and eigenfunctions associated with highly idealized data-measures to bound learnability on realistic data. As a demonstration, we give a theoretical lower bound on the sample complexity of copying heads for kernels associated with generic transformers acting on natural language.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 非局所符号における4つの論理量子ビットの破れ外へのエンタング

Entangling four logical qubits beyond break-even in a nonlocal code ( http://arxiv.org/abs/2406.02666v1 )

ライセンス: Link先を確認
Yifan Hong, Elijah Durso-Sabina, David Hayes, Andrew Lucas, (参考訳) 量子誤り訂正は、論理量子ビットを物理的量子ビットの絡み合った状態に符号化することで、論理量子情報を環境デコヒーレンスから保護する。 スケーラブルな量子コンピュータを構築する際の最も重要な短期的課題の1つは、誤り訂正量子ビット上の論理量子回路が、修正されていない物理量子ビット上の等価回路よりも高い忠実性を達成する破局点に達することである。 QuantinuumのH2トラップイオン量子プロセッサを用いて、4つの論理量子ビットのGHZ状態を99.5 \pm 0.15 \% \le F \le 99.7 \pm 0.1\%$でエンコードする(結果の98%をポストセレクトした後)。 同じ量子プロセッサを用いて、4つの物理量子ビット上に9,7.8 \pm 0.2 \% \le F\le 98.7\pm 0.2\%$で補正されていないGHZ状態を作成することができる。 論理キュービットは$[\! 25,4,3 ]\! Taner-transformed long-range-enhanced surface code。 論理エンタングゲートは単純なスワップ操作で実装される。 我々の結果は、幾何学的に非局所的な量子低密度パリティチェック符号で符号化された論理量子ビットを用いたフォールトトレラント量子計算の実現に向けた第一歩である。

Quantum error correction protects logical quantum information against environmental decoherence by encoding logical qubits into entangled states of physical qubits. One of the most important near-term challenges in building a scalable quantum computer is to reach the break-even point, where logical quantum circuits on error-corrected qubits achieve higher fidelity than equivalent circuits on uncorrected physical qubits. Using Quantinuum's H2 trapped-ion quantum processor, we encode the GHZ state in four logical qubits with fidelity $ 99.5 \pm 0.15 \% \le F \le 99.7 \pm 0.1\% $ (after postselecting on over 98% of outcomes). Using the same quantum processor, we can prepare an uncorrected GHZ state on four physical qubits with fidelity $97.8 \pm 0.2 \% \le F\le 98.7\pm 0.2\%$. The logical qubits are encoded in a $[\![ 25,4,3 ]\!]$ Tanner-transformed long-range-enhanced surface code. Logical entangling gates are implemented using simple swap operations. Our results are a first step towards realizing fault-tolerant quantum computation with logical qubits encoded in geometrically nonlocal quantum low-density parity check codes.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 高品質画像生成のための潜時型量子GAN

Latent Style-based Quantum GAN for high-quality Image Generation ( http://arxiv.org/abs/2406.02668v1 )

ライセンス: Link先を確認
Su Yeon Chang, Supanut Thanasilp, Bertrand Le Saux, Sofia Vallecorsa, Michele Grossi, (参考訳) 量子生成モデリングは、データ分析において実用的な優位性を達成するための有望な候補の一つである。 それでも重要な課題の1つは、従来の画像に匹敵する大きな画像を生成することである。 本研究では、この方向の最初のステップを踏襲し、任意の複雑なデータ生成のためのGAN(Generative Adversarial Networks)の訓練に古典量子アプローチを併用したLastnt Style-based Quantum GAN(LaSt-QGAN)を導入する。 この新しいアプローチは、高次元の原画像データセットを潜在表現にマッピングするために、強力な古典的オートエンコーダに依存している。 ハイブリッド古典量子GANは、任意の数の偽の機能を生成するためにこの潜伏空間で動作し、それをオートエンコーダに渡して元のデータを再構築する。 我々のLaSt-QGANは、10キュービットのFashion MNIST(ファッション製品)とSAT4(地球観測画像)という、標準的なMNISTを超えるリアルなコンピュータビジョンデータセットでうまくトレーニングすることができ、その結果、古典的なGANと同等のパフォーマンス(といくつかの指標)が得られる。 さらに, 多項式深度回路を用いて連続量子生成モデルのこの文脈におけるバレンプラトー現象を解析し, 深層ネットワークのトレーニングにおける有害効果を軽減する方法を提案する。 実験的な実験と理論的解析を通じて、画像生成の文脈で実用化するためのLaSt-QGANの可能性を示し、将来、より大きなデータセットに適用する可能性を開く。

Quantum generative modeling is among the promising candidates for achieving a practical advantage in data analysis. Nevertheless, one key challenge is to generate large-size images comparable to those generated by their classical counterparts. In this work, we take an initial step in this direction and introduce the Latent Style-based Quantum GAN (LaSt-QGAN), which employs a hybrid classical-quantum approach in training Generative Adversarial Networks (GANs) for arbitrary complex data generation. This novel approach relies on powerful classical auto-encoders to map a high-dimensional original image dataset into a latent representation. The hybrid classical-quantum GAN operates in this latent space to generate an arbitrary number of fake features, which are then passed back to the auto-encoder to reconstruct the original data. Our LaSt-QGAN can be successfully trained on realistic computer vision datasets beyond the standard MNIST, namely Fashion MNIST (fashion products) and SAT4 (Earth Observation images) with 10 qubits, resulting in a comparable performance (and even better in some metrics) with the classical GANs. Moreover, we analyze the barren plateau phenomena within this context of the continuous quantum generative model using a polynomial depth circuit and propose a method to mitigate the detrimental effect during the training of deep-depth networks. Through empirical experiments and theoretical analysis, we demonstrate the potential of LaSt-QGAN for the practical usage in the context of image generation and open the possibility of applying it to a larger dataset in the future.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 中間回路計測のための一般化サイクルベンチマークアルゴリズム

A generalized cycle benchmarking algorithm for characterizing mid-circuit measurements ( http://arxiv.org/abs/2406.02669v1 )

ライセンス: Link先を確認
Zhihan Zhang, Senrui Chen, Yunchao Liu, Liang Jiang, (参考訳) ミドルサーキット計測(MCM)は、フォールトトレラント量子計算の開発において重要な要素である。 MCMの実現には急激な実験的進展があったが、ノイズの多いMCMを特徴付ける体系的手法はまだ検討中である。 本研究では、クリフォードゲートのパウリノイズチャネルを特徴付ける標準的な手法であるサイクルベンチマークの一般化により、ノイズの多いMCMを特徴付けるアルゴリズムを開発する。 鍵となる考え方は、古典的および量子レジスタ上のジョイントフーリエ変換を使い、次にサイクルベンチマークで使用されるパウリのフィデリティに類似したフーリエ空間のパラメータを推定することである。 さらに, MCMの雑音学習可能性の理論を開発し, ノイズモデルについてどのような情報を学習できるか(状態準備, 測定ノイズの有無)と, 学習可能な情報はすべて, アルゴリズムを用いて学習可能であることを示す。 応用として,MCMにおける計測ノイズと状態準備ノイズの独立性をテストするために,学習情報を利用する方法を示す。 最後に,本アルゴリズムの実用性を示す数値シミュレーションを行う。 サイクルベンチマークと同様に、我々はアルゴリズムが実験的な関心を持つ有用なツールキットを提供することを期待している。

Mid-circuit measurement (MCM) is a crucial ingredient in the development of fault-tolerant quantum computation. While there have been rapid experimental progresses in realizing MCM, a systematic method for characterizing noisy MCM is still under exploration. In this work we develop an algorithm to characterize noisy MCM, via a generalization of cycle benchmarking -- a standard approach for characterizing the Pauli noise channel of Clifford gates. The key idea is to use a joint Fourier transform on the classical and quantum registers and then estimate parameters in the Fourier space, analogous to Pauli fidelities used in cycle benchmarking. Furthermore, we develop a theory of the noise learnability of MCM, which determines what information can be learned about the noise model (in the presence of state preparation and measurement noise) and what cannot, which shows that all learnable information can be learned using our algorithm. As an application, we show how to use the learned information to test the independence between measurement noise and state preparation noise in a MCM. Finally, we conduct numerical simulations to illustrate the practical applicability of the algorithm. Similar to cycle benchmarking, we expect the algorithm to provide a useful toolkit that is of experimental interest.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 強相関物質の量子輸送理論

Quantum Transport Theory of Strongly Correlated Matter ( http://arxiv.org/abs/2406.02677v1 )

ライセンス: Link先を確認
Assa Auerbach, Sauri Bhattacharyya, (参考訳) 本報告では, 一般相互作用ハミルトニアンに対するKubo式計算の最近の進歩について述べる。 ボルツマン方程式とホール伝導率プロキシがそれらの妥当性を超える強い散乱状態における電気的および熱的導電率を計算することを目的としている。 3つの主要なアプローチが説明される。 1. ホール型導電率の縮退計画偏極公式は, 計算された電流行列要素の数を大幅に減少させる。 これらの式はベリー曲率積分公式を不完全格子に一般化する。 2. 動的長手導電率の連続分数表現 計算は熱力学的平均値のセットを生成し、その数学的関係を低周波および高周波導電性漸近量に制御して外挿することができる。 3. 熱力学平均から構築したホール型係数和式。 熱力学公式は、ハミルトニアン固有スペクトルの不透明度と高い計算コストを避ける作用素ヒルベルト空間定式化(英語版)によって導かれる。 この係数は、よく確立された実時間モンテカルロサンプリング、高温膨張、演算子の痕跡、低温での変動波動関数によって得られる。 格子電子とボソンのよく知られたモデルへの応用により、アプローチ1--3のパワーを実証する。 計算により, モット絶縁体近傍の金属輸送に及ぼす強い局所相互作用の影響が明らかにされた。 これらのアプローチの今後の方向性について論じる。

This report reviews recent progress in computing Kubo formulas for general interacting Hamiltonians. The aim is to calculate electric and thermal magneto-conductivities in strong scattering regimes where Boltzmann equation and Hall conductivity proxies exceed their validity. Three primary approaches are explained. 1. Degeneracy-projected polarization formulas for Hall-type conductivities, which substantially reduce the number of calculated current matrix elements. These expressions generalize the Berry curvature integral formulas to imperfect lattices. 2. Continued fraction representation of dynamical longitudinal conductivities. The calculations produce a set of thermodynamic averages, which can be controllably extrapolated using their mathematical relations to low and high frequency conductivity asymptotics. 3. Hall-type coefficients summation formulas, which are constructed from thermodynamic averages. The thermodynamic formulas are derived in the operator Hilbert space formalism, which avoids the opacity and high computational cost of the Hamiltonian eigenspectrum. The coefficients can be obtained by well established imaginary-time Monte Carlo sampling, high temperature expansion, traces of operator products, and variational wavefunctions at low temperatures. We demonstrate the power of approaches 1--3 by their application to well known models of lattice electrons and bosons. The calculations clarify the far-reaching influence of strong local interactions on the metallic transport near Mott insulators. Future directions for these approaches are discussed.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# iQRL -- サンプル効率強化学習のための暗黙的に量子化された表現

iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning ( http://arxiv.org/abs/2406.02696v1 )

ライセンス: Link先を確認
Aidan Scannell, Kalle Kujanpää, Yi Zhao, Mohammadreza Nakhaei, Arno Solin, Joni Pajarinen, (参考訳) 強化学習(RL)のための学習表現は、継続的な制御に大いに期待されている。 自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。 提案手法では, エンコーダとダイナミックスモデルを用いて, 観測結果を潜時状態にマッピングし, 将来の潜時状態を予測する。 我々は,表現のランクが経験的に保存されるような潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。 提案手法は,iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)と呼ばれ,任意のモデルフリーなRLアルゴリズムと互換性があり,DeepMind Control Suiteの連続制御ベンチマークで提案された他の表現学習手法よりも優れた性能を示す。

Learning representations for reinforcement learning (RL) has shown much promise for continuous control. We propose an efficient representation learning method using only a self-supervised latent-state consistency loss. Our approach employs an encoder and a dynamics model to map observations to latent states and predict future latent states, respectively. We achieve high performance and prevent representation collapse by quantizing the latent representation such that the rank of the representation is empirically preserved. Our method, named iQRL: implicitly Quantized Reinforcement Learning, is straightforward, compatible with any model-free RL algorithm, and demonstrates excellent performance by outperforming other recently proposed representation learning methods in continuous control benchmarks from DeepMind Control Suite.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 運転遅延空間

Operational Latent Spaces ( http://arxiv.org/abs/2406.02699v1 )

ライセンス: Link先を確認
Scott H. Hawley, Austin R. Tackett, (参考訳) 意味論的操作を支援する自己教師付き学習による潜在空間の構築について検討する。 オペレーショナルアンプと類似して、これらの「オペレーショナル潜在空間」(OpLaS)はクラスタリングのようなセマンティック構造を示すだけでなく、固有の意味を持つ共通の変換操作をサポートする。 いくつかの操作潜在空間は、意図しないがまだ有用な性質が空間内の点の関係の中で発見される、ある(他の)自己教師付き学習目標に向けた進行において「意図しない」ことが判明した。 他の空間は、開発者が所望の構造を生成するために特定の種類のクラスタリングや変換を規定することで「意図的に」構築することができる。 本研究では,自己教師付き学習による操作潜在空間の意図的な創出に焦点をあて,新たな「FiLMR」層による回転演算子の導入など,いくつかの音楽的構成で見られるリングライクな対称性の実現に利用することができる。

We investigate the construction of latent spaces through self-supervised learning to support semantically meaningful operations. Analogous to operational amplifiers, these "operational latent spaces" (OpLaS) not only demonstrate semantic structure such as clustering but also support common transformational operations with inherent semantic meaning. Some operational latent spaces are found to have arisen "unintentionally" in the progress toward some (other) self-supervised learning objective, in which unintended but still useful properties are discovered among the relationships of points in the space. Other spaces may be constructed "intentionally" by developers stipulating certain kinds of clustering or transformations intended to produce the desired structure. We focus on the intentional creation of operational latent spaces via self-supervised learning, including the introduction of rotation operators via a novel "FiLMR" layer, which can be used to enable ring-like symmetries found in some musical constructions.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 正確な量子誤り訂正のためのデコーダ先行値の最適化

Optimization of decoder priors for accurate quantum error correction ( http://arxiv.org/abs/2406.02700v1 )

ライセンス: Link先を確認
Volodymyr Sivak, Michael Newman, Paul Klimov, (参考訳) 量子誤り訂正符号の正確な復号化は、量子情報の復号化から保護するための重要な要素である。 論理量子状態を破損させるエラーチャネルを特徴付け、この情報をデコーダの先行として提供する必要がある。 論理的誤り率を最小限に抑えることを目的とした,これらの先行を校正するための強化学習インスピレーション方式を提案する。 提案手法は,GoogleのSycamoreプロセッサ上で実行された繰り返しおよび表面コードメモリ実験における復号精度を大幅に向上させ,それぞれ16%,3.3%のリードデコーダ非依存手法より優れていた。 このキャリブレーション手法は、近距離および将来の誤り訂正量子デバイスの性能を最大化する重要なツールとなる。

Accurate decoding of quantum error-correcting codes is a crucial ingredient in protecting quantum information from decoherence. It requires characterizing the error channels corrupting the logical quantum state and providing this information as a prior to the decoder. We introduce a reinforcement learning inspired method for calibrating these priors that aims to minimize the logical error rate. Our method significantly improves the decoding accuracy in repetition and surface code memory experiments executed on Google's Sycamore processor, outperforming the leading decoder-agnostic method by 16% and 3.3% respectively. This calibration approach will serve as an important tool for maximizing the performance of both near-term and future error-corrected quantum devices.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 量子対応型連続マイクロ波-光周波数変換

Quantum-enabled continuous microwave-to-optics frequency conversion ( http://arxiv.org/abs/2406.02704v1 )

ライセンス: Link先を確認
Han Zhao, William David Chen, Abhishek Kejriwal, Mohammad Mirhosseini, (参考訳) マイクロ波と光子の間の量子インターフェースは、遠隔超伝導量子プロセッサの絡み合わせに不可欠である。 脆弱な量子状態を維持するためには、トランスデューサはその入力に言及されるノイズの1つ未満を発生させながら効率的に動作する必要がある。 ここでは、結晶シリコンを原料とするデバイスにおける静電気的相互作用と光学的相互作用の組み合わせを利用して、これらの基準を満たすプラットフォームを提案する。 このプラットフォームの小さな機械的散逸と低光吸収により、基底状態の放射冷却が可能となり、連続したレーザードライブで量子可能な動作が可能となった。 高効率(低雑音)の最適設定の下では、マイクロ波-光変換において、外部効率が2.2\%$(0.47\%$)、入力参照付加ノイズが0.94$(0.58$)である。 我々は効率帯域幅の積を用いてトランスデューサのスループットを定量化し、これと似たノイズ性能を持つ以前のデモを約2桁の精度で上回り、遠隔超伝導量子ビットを相互接続する実用的な経路を築き上げた。

A quantum interface between microwave and optical photons is essential for entangling remote superconducting quantum processors. To preserve fragile quantum states, a transducer must operate efficiently while generating less than one photon of noise referred to its input. Here, we present a platform that meets these criteria, utilizing a combination of electrostatic and optomechanical interactions in devices made entirely from crystalline silicon. This platform's small mechanical dissipation and low optical absorption enable ground-state radiative cooling, resulting in quantum-enabled operation with a continuous laser drive. Under the optimal settings for high efficiency (low noise), we measure an external efficiency of $2.2\%$ ($0.47\%$) and an input-referred added noise of $0.94$ ($0.58$) in microwave-to-optics conversion. We quantify the transducer throughput using the efficiency-bandwidth product, finding it exceeds previous demonstrations with similar noise performance by approximately two orders of magnitude, thereby paving a practical path to interconnecting remote superconducting qubits.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# SegFormer を用いた窓と壁の比検出

Window to Wall Ratio Detection using SegFormer ( http://arxiv.org/abs/2406.02706v1 )

ライセンス: Link先を確認
Zoe De Simone, Sayandeep Biswas, Oscar Wu, (参考訳) ウインドウ・トゥ・ウォール比(WWR)は、建物のエネルギー、日光、換気性能を評価する鍵となる。 研究によると、窓面積は建築性能とシミュレーションに大きな影響を与えている。 しかし、これらの環境モデルやシミュレーションをセットアップするデータは一般的には利用できない。 その代わり、標準的な40%のWWRが全ての建物に当てはまるのが一般的である。 本稿では、既存のコンピュータビジョンウィンドウ検出手法を利用して、セマンティックセグメンテーションを用いた外部ストリートビュー画像からの建物のWWRを予測し、アーキテクチャ応用における確立されたコンピュータビジョン技術の適用可能性を示す。

Window to Wall Ratios (WWR) are key to assessing the energy, daylight and ventilation performance of buildings. Studies have shown that window area has a large impact on building performance and simulation. However, data to set up these environmental models and simulations is typically not available. Instead, a standard 40% WWR is typically assumed for all buildings. This paper leverages existing computer vision window detection methods to predict WWR of buildings from external street view images using semantic segmentation, demonstrating the potential for adapting established computer vision technique in architectural applications
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# ECGコンプレックスの自己学習モデル

Self-Trained Model for ECG Complex Delineation ( http://arxiv.org/abs/2406.02711v1 )

ライセンス: Link先を確認
Aram Avetisyan, Nikolas Khachaturov, Ariana Asatryan, Shahane Tigranyan, Yury Markin, (参考訳) 心電図(ECG)のデライン化は、正確な診断で心臓科医を支援する上で重要な役割を担っている。 先行研究は、深層学習技術の適用を含む様々な手法を探求し、正確な記述を実現している。 しかし、既存のアプローチは、主にデータセットのサイズと堅牢性に関連する制限に直面している。 本稿では,ECGデライン化のためのデータセットを導入し,大量の未ラベルECGデータを活用することを目的とした,新たな自己学習手法を提案する。 私たちのアプローチでは、データセットでトレーニングされたニューラルネットワークを使用して、ラベルなしデータの擬似ラベル付けを行います。 その後,新たにラベル付けされたサンプルを用いて,デライン化の質を高めるためにモデルを訓練する。 我々は、我々のデータセットがロバストモデルのトレーニングに有用な資源であること、そして、提案した自己学習手法がECGデラインの予測品質を改善することを実証する実験を行った。

Electrocardiogram (ECG) delineation plays a crucial role in assisting cardiologists with accurate diagnoses. Prior research studies have explored various methods, including the application of deep learning techniques, to achieve precise delineation. However, existing approaches face limitations primarily related to dataset size and robustness. In this paper, we introduce a dataset for ECG delineation and propose a novel self-trained method aimed at leveraging a vast amount of unlabeled ECG data. Our approach involves the pseudolabeling of unlabeled data using a neural network trained on our dataset. Subsequently, we train the model on the newly labeled samples to enhance the quality of delineation. We conduct experiments demonstrating that our dataset is a valuable resource for training robust models and that our proposed self-trained method improves the prediction quality of ECG delineation.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 単一エポックと大バッチを用いたDP-SCOの最適レート

Optimal Rates for DP-SCO with a Single Epoch and Large Batches ( http://arxiv.org/abs/2406.02716v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, Arun Ganesh, Abhradeep Thakurta, (参考訳) 微分プライベート(DP)機械学習(ML)のための最も一般的なアルゴリズムは、例えばDP-SGDのような確率勾配勾配に基づくものである。 これらのアルゴリズムは、各勾配を独立したプライベートクエリとして扱うことでDPを実現する。 しかし、この独立性は、勾配の軌跡全体を分析しないため、プライバシーの損失を過払いする可能性がある。 本研究では,DP-SRGD (Accelerated-DP-SRGD) と呼ばれる新しいDPアルゴリズムを提案する。 提案アルゴリズムは,データセット上の1つのエポックのみを用いてDP-stochastic convex Optimization (DP-SCO) 誤差を最適化し,ネステロフ加速率に収束する。 我々のアルゴリズムは、バッチサイズが少なくとも$\sqrt{n}$のバッチ勾配ステップで実行することができる。 これを実現するために,提案アルゴリズムは,確率的再帰勾配(SRG)の変種,勾配勾配の加速,DP連続計数からの相関雑音生成の3つの重要な要素を組み合わせた。 また,本アルゴリズムはMNISTとCIFAR-10の多クラスロジスティック回帰において,既存のSoTAよりも改善されていることを示す。

The most common algorithms for differentially private (DP) machine learning (ML) are all based on stochastic gradient descent, for example, DP-SGD. These algorithms achieve DP by treating each gradient as an independent private query. However, this independence can cause us to overpay in privacy loss because we don't analyze the entire gradient trajectory. In this work, we propose a new DP algorithm, which we call Accelerated-DP-SRGD (DP stochastic recursive gradient descent), that enables us to break this independence and only pay for privacy in the gradient difference, i.e., in the new information at the current step. Our algorithm achieves the optimal DP-stochastic convex optimization (DP-SCO) error (up to polylog factors) using only a single epoch over the dataset, and converges at the Nesterov's accelerated rate. Our algorithm can be run in at most $\sqrt{n}$ batch gradient steps with batch size at least $\sqrt{n}$, unlike prior work which required $O(n)$ queries with mostly constant batch sizes. To achieve this, our algorithm combines three key ingredients, a variant of stochastic recursive gradients (SRG), accelerated gradient descent, and correlated noise generation from DP continual counting. Finally, we also show that our algorithm improves over existing SoTA on multi-class logistic regression on MNIST and CIFAR-10.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 強化学習に基づく量子機械学習のためのアーキテクチャ探索

Reinforcement learning-based architecture search for quantum machine learning ( http://arxiv.org/abs/2406.02717v1 )

ライセンス: Link先を確認
Frederic Rapp, David A. Kreplin, Marco Roth, (参考訳) 量子機械学習(QML)は、量子コンピューティングによって提供される大きなヒルベルト空間をデータ符号化に利用し、典型的にはパラメータ化量子回路(PQC)によって実現される。 古典的な機械学習は問題固有のモデル設計を幅広く扱うが、QMLモデルはハードウェア効率とヒューリスティック回路設計を主に用いている。 そこで本研究では,強化学習アルゴリズム MuZero を用いて,QML の性能向上のための問題固有の PQC を生成する手法を提案する。 従来の探索アルゴリズムから切り離して,探索空間を大幅に削減する階層回路設計を採用する。 さらに、クロスバリデーションスコアを用いて強化学習アルゴリズムを訓練し、高性能回路の発見に報いる。 ベンチマークでは、適合回路と文献の参照回路、ランダムに生成された回路、遺伝的アルゴリズムによって生成された回路を比較した。 本研究はQMLモデルの性能向上における問題調整符号化回路の有効性を実証するものである。

Quantum machine learning (QML) leverages the large Hilbert space provided by quantum computing for data encoding, typically realized by parameterized quantum circuits (PQCs). While classical machine learning deals extensively with problem-specific model design, QML models mainly use hardwareefficient and heuristic circuit designs for PQCs. This work presents a novel approach employing the reinforcement learning algorithm MuZero to generate problem-specific PQCs to improve the QML performance. Diverging from previous search algorithms, we adopt a layered circuit design to significantly reduce the search space. Furthermore, we utilize cross-validation scoring to train the reinforcement learning algorithm, rewarding the discovery of high-performing circuits. In benchmarks we compare our tailored circuits with reference circuits from the literature, randomly generated circuits, and circuits generated by genetic algorithms. Our findings underscore the efficacy of problem-tailored encoding circuits in enhancing QML model performance.
翻訳日:2024-06-06 23:08:11 公開日:2024-06-04
# 3D-HGS:3D半ガウス鋳型

3D-HGS: 3D Half-Gaussian Splatting ( http://arxiv.org/abs/2406.02720v1 )

ライセンス: Link先を確認
Haolin Li, Jinyang Liu, Mario Sznaier, Octavia Camps, (参考訳) 光リアルな3D再構成は、3Dコンピュータビジョンの基本的な問題である。 この領域は、最近のニューラルレンダリング技術の出現により、かなりの進歩を遂げた。 これらの技術は主に、3Dシーンのボリューム表現を学習し、レンダリングから派生した損失関数を通してこれらの表現を精製することに焦点を当てている。 このうち、3Dガウススプラッティング(3D-GS)は、ニューラル・ラジアンス・フィールド(NeRF)を超越した重要な手法として登場した。 3D-GSは、空間的位置と色情報の両方をモデリングするためにパラメータ化された3Dガウスアンを使用し、タイルベースの高速レンダリング技術と組み合わせている。 レンダリング性能と速度が優れているにもかかわらず、3Dガウスカーネルの使用には、不連続な関数を正確に表現する固有の制限がある。 この問題に対処するために,プラグアンドプレイカーネルとして使用できる3D半ガウス(3D-HGS)カーネルを提案する。 本実験は,現在の3D-GS関連手法の性能向上と,レンダリング速度を損なうことなく,様々なデータセット上で最先端のレンダリング性能を実現する能力を示す。

Photo-realistic 3D Reconstruction is a fundamental problem in 3D computer vision. This domain has seen considerable advancements owing to the advent of recent neural rendering techniques. These techniques predominantly aim to focus on learning volumetric representations of 3D scenes and refining these representations via loss functions derived from rendering. Among these, 3D Gaussian Splatting (3D-GS) has emerged as a significant method, surpassing Neural Radiance Fields (NeRFs). 3D-GS uses parameterized 3D Gaussians for modeling both spatial locations and color information, combined with a tile-based fast rendering technique. Despite its superior rendering performance and speed, the use of 3D Gaussian kernels has inherent limitations in accurately representing discontinuous functions, notably at edges and corners for shape discontinuities, and across varying textures for color discontinuities. To address this problem, we propose to employ 3D Half-Gaussian (3D-HGS) kernels, which can be used as a plug-and-play kernel. Our experiments demonstrate their capability to improve the performance of current 3D-GS related methods and achieve state-of-the-art rendering performance on various datasets without compromising rendering speed.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御

Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller ( http://arxiv.org/abs/2406.02721v1 )

ライセンス: Link先を確認
Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Difan Zou, Yisong Yue, Ziniu Hu, (参考訳) 本研究では, 接尾辞勾配を用いた多言語モデル(LLM)の動作制御手法であるSelf-Controlを提案する。 接尾辞文字列で表現されたガイドラインとモデルの自己評価が与えられたとき、自己制御はモデルが隠した状態に関してこの自己判断の勾配を計算し、自動回帰生成プロセスに直接望ましい振る舞いに影響を及ぼす。 効率を向上させるために,Suffixグラデーションから学習した表現をPrefix Controllerにカプセル化するコンパクトモジュールであるSelf-Control_{prefixを導入し,様々なLLM動作の推論時間制御を容易にする。 実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。 特に、Self-Control_{prefix}は、プラグインとプレイの制御を可能にし、複数の属性を共同で制御し、モデルパラメータを変更することなくモデル出力を改善する。

We propose Self-Control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a guideline expressed in suffix string and the model's self-assessment of adherence, Self-Control computes the gradient of this self-judgment concerning the model's hidden states, directly influencing the auto-regressive generation process towards desired behaviors. To enhance efficiency, we introduce Self-Control_{prefix}, a compact module that encapsulates the learned representations from suffix gradients into a Prefix Controller, facilitating inference-time control for various LLM behaviors. Our experiments demonstrate Self-Control's efficacy across multiple domains, including emotional modulation, ensuring harmlessness, and enhancing complex reasoning. Especially, Self-Control_{prefix} enables a plug-and-play control and jointly controls multiple attributes, improving model outputs without altering model parameters or increasing inference-time costs.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# Perron-Frobenius演算子の近似によるAIエージェントの動作予測

Predicting AI Agent Behavior through Approximation of the Perron-Frobenius Operator ( http://arxiv.org/abs/2406.02723v1 )

ライセンス: Link先を確認
Shiqi Zhang, Darshan Gadginmath, Fabio Pasqualetti, (参考訳) AI駆動エージェントの振る舞いを予測することは、既存のモデルなしでは特に難しい。 本稿では、AIエージェントを非線形力学系として扱い、確率論的視点を用いて、ペロン・フロベニウス(PF)演算子を用いてそれらの統計的挙動を予測することにより、この問題に対処する。 我々は、PF演算子の近似をエントロピー最小化問題として定式化し、作用素のマルコフ特性を活用してそのスペクトルを分解することで解くことができる。 我々のデータ駆動手法は、PF演算子を同時に近似し、エージェントの進化を予測するとともに、ロボットシステムや生成モデルのようなAIエージェントの終端確率密度を予測する。 我々はAIアルゴリズムによって駆動される実用的なシステムに関する広範な実験を通して予測モデルの有効性を実証する。

Predicting the behavior of AI-driven agents is particularly challenging without a preexisting model. In our paper, we address this by treating AI agents as nonlinear dynamical systems and adopting a probabilistic perspective to predict their statistical behavior using the Perron-Frobenius (PF) operator. We formulate the approximation of the PF operator as an entropy minimization problem, which can be solved by leveraging the Markovian property of the operator and decomposing its spectrum. Our data-driven methodology simultaneously approximates the PF operator to perform prediction of the evolution of the agents and also predicts the terminal probability density of AI agents, such as robotic systems and generative models. We demonstrate the effectiveness of our prediction model through extensive experiments on practical systems driven by AI algorithms.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# 交通予測のための時間グラフ学習リカレントニューラルネットワーク

Temporal Graph Learning Recurrent Neural Network for Traffic Forecasting ( http://arxiv.org/abs/2406.02726v1 )

ライセンス: Link先を確認
Sanghyun Lee, Chanyoung Park, (参考訳) 正確な交通流予測は交通管理において重要な研究課題である。 しかし, 交通条件の急激な変化, 交通流の非線形性, 道路網の複雑な空間的・時間的相関が問題となっている。 既存の研究の多くは、異なる時間ステップで同じ意味グラフを使って道路間の空間的依存関係を捉えようとするか、あるいは道路上のすべてのセンサーが、その距離に関係なく等しく接続される可能性が高いと仮定する。 しかし,道路間の空間的依存関係は時間とともに実際に変化し,交通流を予測する際には2つの離れた道路が互いに役に立たない傾向にあり,どちらも既存研究の性能を制限している。 本稿では,これらの問題に対処するため,TGLRN(Temporal Graph Learning Recurrent Neural Network)を提案する。 より正確には、時系列の性質を効果的にモデル化するために、リカレントニューラルネットワーク(RNN)を活用し、各ステップでグラフを動的に構築することで、道路間の時間進化する空間的依存関係(顕微鏡ビュー)をキャプチャする。 同時に、我々はモデルに適応構造情報を提供し、接近・連続するセンサが交通流(マクロビュー)を予測する上でより重要であるとみなす。 さらに,TGLRNに堅牢性を持たせるため,各ステップでグラフを構築する際にエッジサンプリング戦略を導入し,最終的にはモデル性能をさらに改善する。 実世界の4つのベンチマークデータセットの実験結果から, TGLRNの有効性が示された。

Accurate traffic flow forecasting is a crucial research topic in transportation management. However, it is a challenging problem due to rapidly changing traffic conditions, high nonlinearity of traffic flow, and complex spatial and temporal correlations of road networks. Most existing studies either try to capture the spatial dependencies between roads using the same semantic graph over different time steps, or assume all sensors on the roads are equally likely to be connected regardless of the distance between them. However, we observe that the spatial dependencies between roads indeed change over time, and two distant roads are not likely to be helpful to each other when predicting the traffic flow, both of which limit the performance of existing studies. In this paper, we propose Temporal Graph Learning Recurrent Neural Network (TGLRN) to address these problems. More precisely, to effectively model the nature of time series, we leverage Recurrent Neural Networks (RNNs) to dynamically construct a graph at each time step, thereby capturing the time-evolving spatial dependencies between roads (i.e., microscopic view). Simultaneously, we provide the Adaptive Structure Information to the model, ensuring that close and consecutive sensors are considered to be more important for predicting the traffic flow (i.e., macroscopic view). Furthermore, to endow TGLRN with robustness, we introduce an edge sampling strategy when constructing the graph at each time step, which eventually leads to further improvements on the model performance. Experimental results on four commonly used real-world benchmark datasets show the effectiveness of TGLRN.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# GEFL:グラフ分類のための拡張フィルタ学習

GEFL: Extended Filtration Learning for Graph Classification ( http://arxiv.org/abs/2406.02732v1 )

ライセンス: Link先を確認
Simon Zhang, Soham Mukherjee, Tamal K. Dey, (参考訳) 拡張永続化は、グラフからグローバルなマルチスケールトポロジ情報を得るための、トポロジデータ解析の技法である。 これには、接続されたコンポーネントや、いわゆる永続バーコードによってキャプチャされるサイクルに関する情報が含まれている。 グラフ分類のための教師付き学習フレームワークに永続性の拡張を導入する。 グローバルトポロジカル情報は、4つの異なるバーとそれらの明示的なサイクル代表を持つバーコードという形で、拡張永続性によって計算される読み取り関数によってモデルに結合される。 モデル全体がエンドツーエンドで差別化可能である。 リンクカットツリーデータ構造と並列処理を用いて、拡張永続化計算の複雑さを低減し、拡張永続化計算のための最先端の60倍以上のスピードアップを得る。 これにより、機械学習に永続性を拡張することができる。 ある条件下では、拡張持続性はWL[1]グラフ同型テストと0次元バーコードの両方を、より大域的な(位相的な)情報を加えるため、表現性の観点から超越していることが示される。 特に、任意の長い周期を表現できるため、有限受容場メッセージパッシンググラフニューラルネットワークでは困難である。 さらに,近年のグラフ表現学習法と比較して,実世界のデータセットに対する本手法の有効性を示す。

Extended persistence is a technique from topological data analysis to obtain global multiscale topological information from a graph. This includes information about connected components and cycles that are captured by the so-called persistence barcodes. We introduce extended persistence into a supervised learning framework for graph classification. Global topological information, in the form of a barcode with four different types of bars and their explicit cycle representatives, is combined into the model by the readout function which is computed by extended persistence. The entire model is end-to-end differentiable. We use a link-cut tree data structure and parallelism to lower the complexity of computing extended persistence, obtaining a speedup of more than 60x over the state-of-the-art for extended persistence computation. This makes extended persistence feasible for machine learning. We show that, under certain conditions, extended persistence surpasses both the WL[1] graph isomorphism test and 0-dimensional barcodes in terms of expressivity because it adds more global (topological) information. In particular, arbitrarily long cycles can be represented, which is difficult for finite receptive field message passing graph neural networks. Furthermore, we show the effectiveness of our method on real world datasets compared to many existing recent graph representation learning methods.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# ノイズロスト表現型音声音声音声合成のための自己監督蒸留によるテキストレス音響モデル

Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation ( http://arxiv.org/abs/2406.02733v1 )

ライセンス: Link先を確認
Min-Jae Hwang, Ilia Kulikov, Benjamin Peloquin, Hongyu Gong, Peng-Jen Chen, Ann Lee, (参考訳) 本稿では,音声音声合成(S2ST)のための自己教師付き蒸留方式を用いたテキストレス音響モデルを提案する。 最近提案された表現型S2STシステムは,音声から単位への翻訳モデルにU2Sジェネレータをカスケードすることで,印象的な表現性維持性能を実現している。 しかし、これらのシステムは、実世界の翻訳シナリオにおける仮定である入力音声における雑音の存在に弱い。 この制限に対処するために,ラベルのない蒸留(DINO)を事前学習プロセスに組み込むU2Sジェネレータを提案する。 提案手法は雑音非依存の表現を捉えるため,雑音環境においても有資格音声を生成することができる。 目的, 主観評価の結果から, クリーン環境下での競合性能を維持しつつ, ノイズの多い環境下での表現型S2STシステムの性能を著しく向上することが確認された。

In this paper, we propose a textless acoustic model with a self-supervised distillation strategy for noise-robust expressive speech-to-speech translation (S2ST). Recently proposed expressive S2ST systems have achieved impressive expressivity preservation performances by cascading unit-to-speech (U2S) generator to the speech-to-unit translation model. However, these systems are vulnerable to the presence of noise in input speech, which is an assumption in real-world translation scenarios. To address this limitation, we propose a U2S generator that incorporates a distillation with no label (DINO) self-supervised training strategy into it's pretraining process. Because the proposed method captures noise-agnostic expressivity representation, it can generate qualified speech even in noisy environment. Objective and subjective evaluation results verified that the proposed method significantly improved the performance of the expressive S2ST system in noisy environments while maintaining competitive performance in clean environments.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# 合成データアウトレイア: アイデンティティの開示をナビゲートする

Synthetic Data Outliers: Navigating Identity Disclosure ( http://arxiv.org/abs/2406.02736v1 )

ライセンス: Link先を確認
Carolina Trindade, Luís Antunes, Tânia Carvalho, Nuno Moniz, (参考訳) 複数の合成データ生成モデルが登場し、そのうちの1つは、深層学習モデルが、原データの基礎となる特徴を捉える能力によって、先駆者となっていることである。 しかし、合成データと元のデータとの類似性は、個人のプライバシー保護に関する重要な疑問を提起する。 合成データは個人情報を完全に保護する手段として認識されるため、現在の研究は再識別リスクの影響を無視している。 特にプライバシの関連性にもかかわらず、異常値の探索には限定的な注意が向けられている。 本研究では,合成データのプライバシを外部から解析する。 本研究は, リンク攻撃による異常再同定が可能であり, 容易に達成できることを示唆する。 さらに、差分プライバシーなどの追加の保護は、データユーティリティを犠牲にして、再識別を防止することができる。

Multiple synthetic data generation models have emerged, among which deep learning models have become the vanguard due to their ability to capture the underlying characteristics of the original data. However, the resemblance of the synthetic to the original data raises important questions on the protection of individuals' privacy. As synthetic data is perceived as a means to fully protect personal information, most current related work disregards the impact of re-identification risk. In particular, limited attention has been given to exploring outliers, despite their privacy relevance. In this work, we analyze the privacy of synthetic data w.r.t the outliers. Our main findings suggest that outliers re-identification via linkage attack is feasible and easily achieved. Furthermore, additional safeguards such as differential privacy can prevent re-identification, albeit at the expense of the data utility.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# CAMP: コンパイラとアロケータベースのヒープメモリ保護

CAMP: Compiler and Allocator-based Heap Memory Protection ( http://arxiv.org/abs/2406.02737v1 )

ライセンス: Link先を確認
Zhenpeng Lin, Zheng Yu, Ziyi Guo, Simone Campanoni, Peter Dinda, Xinyu Xing, (参考訳) ヒープは多くのアプリケーションの重要かつ広く使われているコンポーネントである。 その動的な性質と、ヒープ管理アルゴリズムの複雑さが組み合わさって、セキュリティエクスプロイトの頻繁なターゲットでもある。 ヒープのセキュリティを強化するために、さまざまなヒープ保護技術が導入されている。 我々は,ヒープメモリの破損を検知し,キャプチャする新しいサニタイザであるCAMPを提案する。 CAMPはコンパイラとカスタマイズされたメモリアロケータを利用する。 コンパイラは、ターゲットプログラムに境界チェックとエスケープ追跡命令を追加し、メモリアロケータはメモリ範囲を追跡し、インスツルメンテーションと調整し、ダングリングポインタを中和する。 新たなエラー検出方式により、CAMPは様々なコンパイラ最適化戦略を可能にし、冗長で不要なチェックインスツルメンテーションを排除できる。 この設計は、セキュリティ保証を犠牲にすることなく、ランタイムオーバーヘッドを最小限にする。 実環境アプリケーションとSPEC CPUベンチマークの両方を用いて,CAMPと既存のツールの比較を行った結果,実行時のオーバーヘッドを低減し,より優れたヒープ破損検出能力が得られることがわかった。

The heap is a critical and widely used component of many applications. Due to its dynamic nature, combined with the complexity of heap management algorithms, it is also a frequent target for security exploits. To enhance the heap's security, various heap protection techniques have been introduced, but they either introduce significant runtime overhead or have limited protection. We present CAMP, a new sanitizer for detecting and capturing heap memory corruption. CAMP leverages a compiler and a customized memory allocator. The compiler adds boundary-checking and escape-tracking instructions to the target program, while the memory allocator tracks memory ranges, coordinates with the instrumentation, and neutralizes dangling pointers. With the novel error detection scheme, CAMP enables various compiler optimization strategies and thus eliminates redundant and unnecessary check instrumentation. This design minimizes runtime overhead without sacrificing security guarantees. Our evaluation and comparison of CAMP with existing tools, using both real-world applications and SPEC CPU benchmarks, show that it provides even better heap corruption detection capability with lower runtime overhead.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# 連続時間動的グラフの長距離伝播

Long Range Propagation on Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2406.02740v1 )

ライセンス: Link先を確認
Alessio Gravina, Giulio Lovisotto, Claudio Gallicchio, Davide Bacciu, Claas Grohnfeldt, (参考訳) 連続時間動的グラフ(C-TDG)の学習には、不規則にサンプリングされたイベントのストリーム上の時空間情報を正確にモデル化する必要がある。 近年、多くの手法が提案されているが、ほとんどのメッセージパッシング、再帰、自己アテンションに基づく手法は、長距離タスクでは不十分である。 これらのタスクは、現在の出来事から「遠く」に起こった情報、空間的に(高次のノード情報)または時間次元に沿って起こる情報(過去の出来事)を関連付ける必要がある。 長距離依存に対処するため,CTAN(Continuous-Time Graph Anti-Symmetric Network)を導入する。 本手法は, 情報伝達の効率化を目的として, 常微分方程式の枠組みを基礎として設計されている。 本稿ではCTANについて述べる。 一 理論的知見及び方法による長距離モデリング能力の確立 (II)合成長範囲ベンチマークや実世界のベンチマークにおける経験的性能は他の手法よりも優れている。 以上の結果から,CTANのC-TDGにおける長距離情報伝達能力と,時間グラフモデル評価の一部としての長距離タスクの活用が示唆された。

Learning Continuous-Time Dynamic Graphs (C-TDGs) requires accurately modeling spatio-temporal information on streams of irregularly sampled events. While many methods have been proposed recently, we find that most message passing-, recurrent- or self-attention-based methods perform poorly on long-range tasks. These tasks require correlating information that occurred "far" away from the current event, either spatially (higher-order node information) or along the time dimension (events occurred in the past). To address long-range dependencies, we introduce Continuous-Time Graph Anti-Symmetric Network (CTAN). Grounded within the ordinary differential equations framework, our method is designed for efficient propagation of information. In this paper, we show how CTAN's (i) long-range modeling capabilities are substantiated by theoretical findings and how (ii) its empirical performance on synthetic long-range benchmarks and real-world benchmarks is superior to other methods. Our results motivate CTAN's ability to propagate long-range information in C-TDGs as well as the inclusion of long-range tasks as part of temporal graph models evaluation.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# 任意共変量シフトによる学習のためのトレラントアルゴリズム

Tolerant Algorithms for Learning with Arbitrary Covariate Shift ( http://arxiv.org/abs/2406.02742v1 )

ライセンス: Link先を確認
Surbhi Goel, Abhishek Shetty, Konstantinos Stavropoulos, Arsen Vasilyan, (参考訳) 学習者は,ある分布からラベル付き集合を学習するが,異なる,潜在的に逆向きに生成されたテスト分布で評価する。 我々は,PQ学習 (Goldwasser, A. Kalai, Y. Kalai, Montasser NeurIPS 2020) とTDS学習 (Klivans, Stavropoulos, Vasilyan COLT 2024) の2つのフレームワークに注目した。 既知の全てのアルゴリズムは、単純な関数クラスであっても計算的に難しいプリミティブを学習するか、あるいはわずかな分散シフトがあっても完全に中断する。 ハーフスペースと決定ツリーの交点を含む自然関数クラスに対するこれらの課題と、ガウスを含む標準トレーニング分布に対処する。 PQ学習では,効率的な学習アルゴリズムを提供する一方,TDS学習では,アルゴリズムは適度な分散シフトを許容する。 提案手法の核心は,ノイズを伴って学習するスペクトル外乱除去技術の改良である。 分析では,(1)任意の分布シフトを扱うのに欠かせない,任意の分布シフトを扱うために,また(2)外乱除去後の分布の多項式モーメントの強い境界を求めることができ,分布シフト下での多項式回帰に対する新たな洞察が得られる。 最後に,本手法は,耐久性試験可能な学習(Rubinfeld と Vasilyan STOC 2023)と騒音による学習の新たな結果をもたらす。

We study the problem of learning under arbitrary distribution shift, where the learner is trained on a labeled set from one distribution but evaluated on a different, potentially adversarially generated test distribution. We focus on two frameworks: PQ learning [Goldwasser, A. Kalai, Y. Kalai, Montasser NeurIPS 2020], allowing abstention on adversarially generated parts of the test distribution, and TDS learning [Klivans, Stavropoulos, Vasilyan COLT 2024], permitting abstention on the entire test distribution if distribution shift is detected. All prior known algorithms either rely on learning primitives that are computationally hard even for simple function classes, or end up abstaining entirely even in the presence of a tiny amount of distribution shift. We address both these challenges for natural function classes, including intersections of halfspaces and decision trees, and standard training distributions, including Gaussians. For PQ learning, we give efficient learning algorithms, while for TDS learning, our algorithms can tolerate moderate amounts of distribution shift. At the core of our approach is an improved analysis of spectral outlier-removal techniques from learning with nasty noise. Our analysis can (1) handle arbitrarily large fraction of outliers, which is crucial for handling arbitrary distribution shifts, and (2) obtain stronger bounds on polynomial moments of the distribution after outlier removal, yielding new insights into polynomial regression under distribution shifts. Lastly, our techniques lead to novel results for tolerant testable learning [Rubinfeld and Vasilyan STOC 2023], and learning with nasty noise.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# DPDR : 個人差分深層学習のためのグラディエント分解と再構成

DPDR: Gradient Decomposition and Reconstruction for Differentially Private Deep Learning ( http://arxiv.org/abs/2406.02744v1 )

ライセンス: Link先を確認
Yixuan Liu, Li Xiong, Yuhan Liu, Yujie Gu, Ruixuan Liu, Hong Chen, (参考訳) Differentially Private Stochastic Gradients Descent (DP-SGD)は、ディープラーニングにおけるプライバシを保護するための重要なパラダイムである。 トレーニングステップ毎に標準に調整されたランダムノイズで勾配を乱すことで、プライバシを確保する。 しかし、この摂動は準最適パフォーマンスに悩まされ、異なるバッチからの勾配間で共有される一般的な収束方向のプライバシー予算を何度も無駄にします。 そこで本研究では,プライバシー予算をより効率的に活用するための,早期勾配分解・再構成(DPDR)を備えた差分プライベートトレーニングフレームワークを提案する。 本質的には、インクリメンタルな情報保護と、初期の訓練段階における以前の勾配から学んだ民営化された共通知識のリサイクルに焦点をあてることで、モデルの有用性を高める。 具体的には、DPDRには3つのステップが組み込まれている。 まず、従来の雑音勾配に基づいてそれらを分解することで、現在の勾配における共通知識と漸進情報を解き放つ。 第2に、ほとんどのプライバシー予算は、より高い情報を得るためにインクリメンタルな情報を保護するために費やされている。 第3に、リサイクルされた共通知識から再構成された勾配とノイズのあるインクリメンタル情報によってモデルが更新される。 理論解析と広範な実験により、DPDRは収束率と精度の両方で最先端のベースラインを上回ります。

Differentially Private Stochastic Gradients Descent (DP-SGD) is a prominent paradigm for preserving privacy in deep learning. It ensures privacy by perturbing gradients with random noise calibrated to their entire norm at each training step. However, this perturbation suffers from a sub-optimal performance: it repeatedly wastes privacy budget on the general converging direction shared among gradients from different batches, which we refer as common knowledge, yet yields little information gain. Motivated by this, we propose a differentially private training framework with early gradient decomposition and reconstruction (DPDR), which enables more efficient use of the privacy budget. In essence, it boosts model utility by focusing on incremental information protection and recycling the privatized common knowledge learned from previous gradients at early training steps. Concretely, DPDR incorporates three steps. First, it disentangles common knowledge and incremental information in current gradients by decomposing them based on previous noisy gradients. Second, most privacy budget is spent on protecting incremental information for higher information gain. Third, the model is updated with the gradient reconstructed from recycled common knowledge and noisy incremental information. Theoretical analysis and extensive experiments show that DPDR outperforms state-of-the-art baselines on both convergence rate and accuracy.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# ボルツマン影響関数による確率的データ複雑度の測定

Measuring Stochastic Data Complexity with Boltzmann Influence Functions ( http://arxiv.org/abs/2406.02745v1 )

ライセンス: Link先を確認
Nathan Ng, Roger Grosse, Marzyeh Ghassemi, (参考訳) テストポイントにおけるモデルの予測の不確かさを推定することは、分散シフトの下で信頼性とキャリブレーションを確保する重要な要素である。 この問題に対する最小記述長アプローチでは、予測正規化極大(pNML)分布を用いて、データポイントのすべてのラベルを考慮し、他のラベルがモデルやトレーニングデータと整合性がある場合の予測の信頼性を低下させる。 本研究では,温度スケールボルツマンの影響関数でモデルを線形化するpNML分布のスケーラブルかつ効率的な近似であるIF-COMPを提案する。 IF-COMPは、テストポイント上のよく校正された予測を生成するだけでなく、ラベル付けされた設定とラベル付けされていない設定の両方の複雑さを測定するために使用できる。 IF-COMPは不確実性の校正、誤ラベル検出、OOD検出のタスクに対して実験により検証され、そこでは強いベースライン法と一貫した一致または打ち負かされる。

Estimating the uncertainty of a model's prediction on a test point is a crucial part of ensuring reliability and calibration under distribution shifts. A minimum description length approach to this problem uses the predictive normalized maximum likelihood (pNML) distribution, which considers every possible label for a data point, and decreases confidence in a prediction if other labels are also consistent with the model and training data. In this work we propose IF-COMP, a scalable and efficient approximation of the pNML distribution that linearizes the model with a temperature-scaled Boltzmann influence function. IF-COMP can be used to produce well-calibrated predictions on test points as well as measure complexity in both labelled and unlabelled settings. We experimentally validate IF-COMP on uncertainty calibration, mislabel detection, and OOD detection tasks, where it consistently matches or beats strong baseline methods.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# RATT:コヒーレントかつ正しいLDM推論のための構造

RATT: AThought Structure for Coherent and Correct LLMReasoning ( http://arxiv.org/abs/2406.02746v1 )

ライセンス: Link先を確認
Jinghan Zhang, Xiting Wang, Weijieying Ren, Lu Jiang, Dongjie Wang, Kunpeng Liu, (参考訳) 大きな言語モデル(LLM)は思考構造から実質的な推論と意思決定能力を得る。 しかし、思考の樹」や「検索された思考」のような既存の手法は、事実知識の局所的検索が不十分で、戦略のグローバルな選択が不十分なため、複雑なタスクでは不足することが多い。 これらの制限は、これらの手法が事実の精度と包括的な論理最適化を効果的にバランスさせることを困難にしている。 これらの制約に対処するため,思考過程の各段階における論理的健全性と事実的正当性を両立する新しい思考構造であるRetrieval Augmented Thought Tree(RATT)を導入する。 具体的には、思考枝の各点で、RATTは、複数の潜在的な推論ステップを探索し、評価するための計画と検討を行い、検索・拡張生成(RAG)の事実チェック能力とLLMの全体的な戦略を評価する能力を統合する。 この事実知識と戦略的実現性の組み合わせにより、RATTは思考木構造を調整・統合し、探索空間内で最も有望な枝を探索する。 この思考構造は、論理的推論におけるモデルの一貫性と意思決定効率を大幅に向上させ、思考構造に基づく信頼性の高い推論と決定を生成するLLMの能力の限界を増大させる。 様々な種類のタスクに関する幅広い実験により、RATT構造が既存の手法を事実的正当性と論理的整合性で著しく上回っていることが示されている。

Large Language Models (LLMs) gain substantial reasoning and decision-making capabilities from thought structures. However, existing methods such as Tree of Thought and Retrieval Augmented Thoughts often fall short in complex tasks due to the limitations of insufficient local retrieval of factual knowledge and inadequate global selection of strategies. These limitations make it challenging for these methods to balance factual accuracy and comprehensive logical optimization effectively. To address these limitations, we introduce the Retrieval Augmented Thought Tree (RATT), a novel thought structure that considers both overall logical soundness and factual correctness at each step of the thinking process. Specifically, at every point of a thought branch, RATT performs planning and lookahead to explore and evaluate multiple potential reasoning steps, and integrate the fact-checking ability of Retrieval-Augmented Generation (RAG) with LLM's ability to assess overall strategy. Through this combination of factual knowledge and strategic feasibility, the RATT adjusts and integrates the thought tree structure to search for the most promising branches within the search space. This thought structure significantly enhances the model's coherence in logical inference and efficiency in decision-making, and thus increases the limit of the capacity of LLM to generate reliable inferences and decisions based on thought structures. A broad range of experiments on different types of tasks showcases that the RATT structure significantly outperforms existing methods in factual correctness and logical coherence.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# ビジュアルインプットからストーリ生成:テクニック,関連課題,課題

Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges ( http://arxiv.org/abs/2406.02748v1 )

ライセンス: Link先を確認
Daniel A. P. Oliveira, Eugénio Ribeiro, David Martins de Matos, (参考訳) ビジュアルデータから魅力的な物語を作ることは、デジタルメディアの自動消費、補助技術、インタラクティブエンターテイメントにとって不可欠である。 この調査は、これらの物語の生成に使用される方法論を取り上げ、それらの原則、強み、限界に焦点をあてる。 この調査では、画像やビデオのキャプション、視覚的な質問応答、視覚的な入力のないストーリー生成など、自動ストーリ生成に関わるタスクについても取り上げている。 これらのタスクは、視覚的なストーリー生成と共通の課題を共有し、現場で使用されるテクニックのインスピレーションとなった。 主要なデータセットと評価指標を分析し、それらの制限について重要な視点を提供する。

Creating engaging narratives from visual data is crucial for automated digital media consumption, assistive technologies, and interactive entertainment. This survey covers methodologies used in the generation of these narratives, focusing on their principles, strengths, and limitations. The survey also covers tasks related to automatic story generation, such as image and video captioning, and visual question answering, as well as story generation without visual inputs. These tasks share common challenges with visual story generation and have served as inspiration for the techniques used in the field. We analyze the main datasets and evaluation metrics, providing a critical perspective on their limitations.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# 微粒化スーパービジョンによる大規模言語モデルの調整

Aligning Large Language Models via Fine-grained Supervision ( http://arxiv.org/abs/2406.02756v1 )

ライセンス: Link先を確認
Dehong Xu, Liang Qiu, Minseok Kim, Faisal Ladhak, Jaeyoung Do, (参考訳) 事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。 現在のアプローチでは、LLM出力の粗い人間の好みをモデル学習プロセスのガイドとなるフィードバック信号に変換することで、モデルアライメントを改善するために強化学習(RLHF)を使用することに重点を置いている。 しかし、このアプローチはシーケンスレベルのフィードバックで動作するため、ユーザの好みに影響を与える出力の正確な部分を特定する精度に欠ける。 このギャップに対処するため,トークンレベルの細粒化によるLCMアライメント向上手法を提案する。 具体的には、アノテータに対して、標準報酬モデリングデータセット内であまり好ましくないレスポンスを最小限に編集して、より好ましいものにするよう求めます。 洗練されたデータセットはトークンレベルの報酬モデルをトレーニングするために使用され、その後、きめ細かいPPO(Proximal Policy Optimization)モデルをトレーニングするために使用される。 実験の結果,従来のPPOモデルと比較して,LLM性能において最大5.1 %の絶対的な改善が達成できることが示された。

Pre-trained large-scale language models (LLMs) excel at producing coherent articles, yet their outputs may be untruthful, toxic, or fail to align with user expectations. Current approaches focus on using reinforcement learning with human feedback (RLHF) to improve model alignment, which works by transforming coarse human preferences of LLM outputs into a feedback signal that guides the model learning process. However, because this approach operates on sequence-level feedback, it lacks the precision to identify the exact parts of the output affecting user preferences. To address this gap, we propose a method to enhance LLM alignment through fine-grained token-level supervision. Specifically, we ask annotators to minimally edit less preferred responses within the standard reward modeling dataset to make them more favorable, ensuring changes are made only where necessary while retaining most of the original content. The refined dataset is used to train a token-level reward model, which is then used for training our fine-grained Proximal Policy Optimization (PPO) model. Our experiment results demonstrate that this approach can achieve up to an absolute improvement of $5.1\%$ in LLM performance, in terms of win rate against the reference model, compared with the traditional PPO model.
翻訳日:2024-06-06 22:58:01 公開日:2024-06-04
# マルチモーダルタスクのための多層学習型注意マスク

Multi-layer Learnable Attention Mask for Multimodal Tasks ( http://arxiv.org/abs/2406.02761v1 )

ライセンス: Link先を確認
Wayner Barrios, SouYoung Jin, (参考訳) トランスフォーマーモデルにおける自己保持機構は多くの領域で有効であることが証明されているが、各トークンの粒度や長さ列の高い計算要求により、より多様な設定(例えばマルチモーダリティ)において効果が低いことが観察されている。 これらの課題に対処するため,我々は,アテンションマップをグローバルに規制し,シーケンス内の重要なトークンを優先するように戦略的に設計されたLearningable Attention Mask (LAM)を導入する。 BERT型変圧器ネットワークにおける自己保持モジュールの活用により,トークン間の関連性を良好に把握する。 LAMのマルチレイヤバージョンへの拡張は、Transformerネットワークの各レイヤに埋め込まれた様々な情報アスペクトに対応する。 MADv2、QVHighlights、ImageNet 1K、MSRVTTといった様々なデータセットに対する総合的な実験的検証は、冗長計算を緩和しながらモデル性能を向上させる能力を実証している。 この先駆的なアプローチは、映画理解のような複雑なシナリオの理解を深める上で、大きな進歩をもたらす。

While the Self-Attention mechanism in the Transformer model has proven to be effective in many domains, we observe that it is less effective in more diverse settings (e.g. multimodality) due to the varying granularity of each token and the high computational demands of lengthy sequences. To address the challenges, we introduce the Learnable Attention Mask (LAM), strategically designed to globally regulate attention maps and prioritize critical tokens within the sequence. Leveraging the Self-Attention module in a BERT-like transformer network, our approach adeptly captures associations between tokens. The extension of the LAM to a multi-layer version accommodates the varied information aspects embedded at each layer of the Transformer network. Comprehensive experimental validation on various datasets, such as MADv2, QVHighlights, ImageNet 1K, and MSRVTT, demonstrates the efficacy of the LAM, exemplifying its ability to enhance model performance while mitigating redundant computations. This pioneering approach presents a significant advancement in enhancing the understanding of complex scenarios, such as in movie understanding.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 人間のフィードバックによる強化学習のための適応的選好スケーリング

Adaptive Preference Scaling for Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2406.02764v1 )

ライセンス: Link先を確認
Ilgee Hong, Zichong Li, Alexander Bukharin, Yixiao Li, Haoming Jiang, Tianbao Yang, Tuo Zhao, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、人間の嗜好データから報酬を学習することで、AIシステムを人間の価値と整合させる一般的なアプローチである。 しかし、様々な理由により、これらのデータは典型的には軌道セグメントのペアよりもランク付けの形式をとるが、これは異なるペア間での好みの強さの変化を捉えるのに失敗する。 本稿では,この不確実性に対応するために,分散ロバスト最適化 (DRO) を基盤とした適応的選好損失を提案する。 適応的スケーリングパラメータを各ペアの損失に組み込むことで、報奨関数の柔軟性を高めることができる。 具体的には、小さなスケーリングパラメータをあいまいな選好を持つペアに割り当て、より同等の報奨と大きなスケーリングパラメータを、より明確な選好を持つ人たちに与えます。 計算により,提案した損失関数は,各スケーリングパラメータに対して厳密に凸かつ一変数化され,単純な2次アルゴリズムによる効率的な最適化が可能となる。 提案手法は汎用性が高く,直接選好最適化(DPO)など,さまざまな選好最適化フレームワークに容易に適用可能である。 大規模言語モデル(LLM)を用いたロボット制御と自然言語生成による実験により,提案手法は政策性能の向上だけでなく,報酬関数の選択をポリシー最適化と密接に整合させ,ハイパーパラメータチューニングプロセスを簡素化することを示した。

Reinforcement learning from human feedback (RLHF) is a prevalent approach to align AI systems with human values by learning rewards from human preference data. Due to various reasons, however, such data typically takes the form of rankings over pairs of trajectory segments, which fails to capture the varying strengths of preferences across different pairs. In this paper, we propose a novel adaptive preference loss, underpinned by distributionally robust optimization (DRO), designed to address this uncertainty in preference strength. By incorporating an adaptive scaling parameter into the loss for each pair, our method increases the flexibility of the reward function. Specifically, it assigns small scaling parameters to pairs with ambiguous preferences, leading to more comparable rewards, and large scaling parameters to those with clear preferences for more distinct rewards. Computationally, our proposed loss function is strictly convex and univariate with respect to each scaling parameter, enabling its efficient optimization through a simple second-order algorithm. Our method is versatile and can be readily adapted to various preference optimization frameworks, including direct preference optimization (DPO). Our experiments with robotic control and natural language generation with large language models (LLMs) show that our method not only improves policy performance but also aligns reward function selection more closely with policy optimization, simplifying the hyperparameter tuning process.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 遺伝的プログラミングによる動的シンボリック・ポリシーの発見

Discovering Dynamic Symbolic Policies with Genetic Programming ( http://arxiv.org/abs/2406.02765v1 )

ライセンス: Link先を確認
Sigur de Vries, Sander Keemink, Marcel van Gerven, (参考訳) 人工知能(AI)技術は、制御問題の解決にますます応用されている。 しかし、AIで開発された制御システムは、しばしばブラックボックス方式であり、どのようにして、なぜ出力を生成するのかは明らかになっていない。 透明性の欠如は、特に制御タスクにおいて、バイアスやエラーの識別が複雑になるため、システムに対するユーザの信頼に悪影響を及ぼすため、問題となることがある。 制御系における解釈可能性と透明性を向上させるため、ブラックボックス構造を数学的表現によって記述されたホワイトボックスのシンボルポリシーに置き換えることができる。 遺伝的プログラミングは、微分不可能な数学的表現の構造を最適化するための勾配のない方法を提供する。 本稿では,遺伝的プログラミングがシンボル制御システム発見に有効であることを示す。 これは、観測を制御信号に変換する関数の記号表現を学ぶことで達成される。 メモリのない静的制御ポリシーを実装するシステムと動的メモリベースの制御ポリシーを実装するシステムの両方を考慮する。 後者の場合、発見関数は微分方程式の状態方程式となり、証拠積分が可能である。 この結果から,様々な制御タスクにおいて,ブラックボックスポリシと互換性のあるシンボリックポリシが発見された。 さらに、静的ポリシーが不足する実験では、動的ポリシーにおけるメモリ容量の付加価値が示される。 全体として、ブラックボックスモデルに欠けている解釈性と透明性を提供しながら、ホワイトボックスのシンボルポリシーを遺伝的プログラミングで最適化できることを示します。

Artificial intelligence (AI) techniques are increasingly being applied to solve control problems. However, control systems developed in AI are often black-box methods, in that it is not clear how and why they generate their outputs. A lack of transparency can be problematic for control tasks in particular, because it complicates the identification of biases or errors, which in turn negatively influences the user's confidence in the system. To improve the interpretability and transparency in control systems, the black-box structure can be replaced with white-box symbolic policies described by mathematical expressions. Genetic programming offers a gradient-free method to optimise the structure of non-differentiable mathematical expressions. In this paper, we show that genetic programming can be used to discover symbolic control systems. This is achieved by learning a symbolic representation of a function that transforms observations into control signals. We consider both systems that implement static control policies without memory and systems that implement dynamic memory-based control policies. In case of the latter, the discovered function becomes the state equation of a differential equation, which allows for evidence integration. Our results show that symbolic policies are discovered that perform comparably with black-box policies on a variety of control tasks. Furthermore, the additional value of the memory capacity in the dynamic policies is demonstrated on experiments where static policies fall short. Overall, we demonstrate that white-box symbolic policies can be optimised with genetic programming, while offering interpretability and transparency that lacks in black-box models.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 空間的・社会的状況を考慮した変圧器を用いた自律システムの軌道予測

Spatial and social situation-aware transformer-based trajectory prediction of autonomous systems ( http://arxiv.org/abs/2406.02767v1 )

ライセンス: Link先を確認
Kathrin Donandt, Dirk Söffker, (参考訳) 自動車や船舶などの自律輸送システムでは、衝突せずに移動するために静的かつ動的環境を考慮する必要がある。 エージェントの振る舞いを所定の状況で予測するには、時間内に適切に反応する必要がある。 近年,深層学習に基づくモデル開発が,動き予測の主流となっている。 社会環境は、CNN-LSTMベースのサブモジュール処理により、周囲のエージェントの過去の軌跡の情報を含む$\textit{social tensor}$として考慮されることが多い。 提案した変圧器を用いた軌道予測モデルでは,より効率的なソーシャルテンソル定義と処理が提案されている。 個々の処理されたエージェントの最後に隠されたLSTM状態の情報に頼るのではなく、各時間におけるターゲットと周辺エージェント間の相互依存性を、直接的に考慮する。 トランスをベースとしたサブモジュールであるSocial Tensor Transformerは、全体的な予測モデルに統合される。 ターゲットエージェントの転位特徴をソーシャルテンソルから得られるソーシャルインタラクション情報で強化する役割を担っている。 空間的制限の認識のために、転位特徴は航行可能な領域に関連して定義される。 これは追加で計算コストのかかるマップ処理サブモジュールを置き換える。 アブレーション研究では、予測軌道の地平線が長くなると、予測軌道の地平線からの偏差は、空間的、社会的に不可知なモデルに比べて低いことが示されている。 空間限定モデルから空間的・社会的文脈依存モデルへの性能向上が, 共通誤差測定の観点からは小さいとしても, 結果を可視化することにより, 提案モデルが実際に周囲のエージェントに対する反応を予測でき, 解釈可能な振る舞いを明示できることを示すことができる。

Autonomous transportation systems such as road vehicles or vessels require the consideration of the static and dynamic environment to dislocate without collision. Anticipating the behavior of an agent in a given situation is required to adequately react to it in time. Developing deep learning-based models has become the dominant approach to motion prediction recently. The social environment is often considered through a CNN-LSTM-based sub-module processing a $\textit{social tensor}$ that includes information of the past trajectory of surrounding agents. For the proposed transformer-based trajectory prediction model, an alternative, computationally more efficient social tensor definition and processing is suggested. It considers the interdependencies between target and surrounding agents at each time step directly instead of relying on information of last hidden LSTM states of individually processed agents. A transformer-based sub-module, the Social Tensor Transformer, is integrated into the overall prediction model. It is responsible for enriching the target agent's dislocation features with social interaction information obtained from the social tensor. For the awareness of spatial limitations, dislocation features are defined in relation to the navigable area. This replaces additional, computationally expensive map processing sub-modules. An ablation study shows, that for longer prediction horizons, the deviation of the predicted trajectory from the ground truth is lower compared to a spatially and socially agnostic model. Even if the performance gain from a spatial-only to a spatial and social context-sensitive model is small in terms of common error measures, by visualizing the results it can be shown that the proposed model in fact is able to predict reactions to surrounding agents and explicitely allows an interpretable behavior.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 資源拘束型IoTデバイス用軽量CNN-BiLSTMによる侵入検知システム

Lightweight CNN-BiLSTM based Intrusion Detection Systems for Resource-Constrained IoT Devices ( http://arxiv.org/abs/2406.02768v1 )

ライセンス: Link先を確認
Mohammed Jouhari, Mohsen Guizani, (参考訳) 侵入検知システム(IDS)は、従来のコンピュータシステムにおけるサイバー攻撃の検出と防止に重要な役割を果たしてきた。 サイバー脅威からモノのインターネット(IoT)ネットワークに同じ技術が適用されていることは驚くべきことではない。 IoTデバイス上で利用可能な限られた計算リソースは、従来のコンピューティングベースのIDSのデプロイを困難にしている。 IoT環境用に設計されたIDSは、高い分類性能を示し、低複雑さモデルを使用し、小さなサイズでなければならない。 IoTベースの侵入検出の大幅な進歩にもかかわらず、高い分類性能と複雑さの低減を両立するモデルの開発は依然として困難である。 本研究では,UNSW-NB15データセット上でのIDSの性能を向上させるために,軽量CNNと双方向LSTM(BiLSTM)を組み合わせたハイブリッドCNNアーキテクチャを提案する。 提案するモデルは、リソース制約のあるIoTデバイス上で動作し、その計算能力要件を満たすように設計されている。 提案モデルは,IoTデバイスの要件に適合し,精度の高いモデルの設計の複雑さにもかかわらず,バイナリ分類では97.28\%,マルチ分類では96.91\%の精度を達成し,文献における既存の研究成果を上回っている。

Intrusion Detection Systems (IDSs) have played a significant role in detecting and preventing cyber-attacks within traditional computing systems. It is not surprising that the same technology is being applied to secure Internet of Things (IoT) networks from cyber threats. The limited computational resources available on IoT devices make it challenging to deploy conventional computing-based IDSs. The IDSs designed for IoT environments must also demonstrate high classification performance, utilize low-complexity models, and be of a small size. Despite significant progress in IoT-based intrusion detection, developing models that both achieve high classification performance and maintain reduced complexity remains challenging. In this study, we propose a hybrid CNN architecture composed of a lightweight CNN and bidirectional LSTM (BiLSTM) to enhance the performance of IDS on the UNSW-NB15 dataset. The proposed model is specifically designed to run onboard resource-constrained IoT devices and meet their computation capability requirements. Despite the complexity of designing a model that fits the requirements of IoT devices and achieves higher accuracy, our proposed model outperforms the existing research efforts in the literature by achieving an accuracy of 97.28\% for binary classification and 96.91\% for multiclassification.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 線形対角ネットワークに対する再重み付き最小二乗アルゴリズムの高精度漸近

Precise asymptotics of reweighted least-squares algorithms for linear diagonal networks ( http://arxiv.org/abs/2406.02769v1 )

ライセンス: Link先を確認
Chiraag Kaushik, Justin Romberg, Vidya Muthukumar, (参考訳) 古典的反復再重み付き最小二乗法(IRLS)アルゴリズムは、各ステップで重みが再帰的に更新される重み付き最小二乗問題の列を実行することにより、線形測定から未知の信号を復元することを目的としている。 このアルゴリズムのバラエティは、スパースリカバリと$\ell_p$-norm最小化の理論的保証と良好な経験的性能を達成することが示されている。 近年、高次元線形モデルにおいて低次元構造を利用するために観測されるIRLSとある種の非凸線形ニューラルネットワークアーキテクチャとの間の予備的な接続も行われている。 本研究では、IRLSを含むアルゴリズム群、最近提案されたlin-RFMアルゴリズム(ニューラルネットワークの機能学習に動機づけられた)、線形対角ニューラルネットワーク上での交互最小化アルゴリズムについて、統一的な漸近解析を行う。 我々の分析はガウシアン共変量を用いた「バッチ」環境で動作し、適切に選択された再重み付けポリシーにより、アルゴリズムはほんの数イテレーションで有利な性能を達成することができることを示す。 また,本研究の結果をグループスパースリカバリの事例にまで拡張し,この構造を再重み付け方式で活用することで,座標ワイド再重み付けよりもテスト誤差が良好に向上することを示した。

The classical iteratively reweighted least-squares (IRLS) algorithm aims to recover an unknown signal from linear measurements by performing a sequence of weighted least squares problems, where the weights are recursively updated at each step. Varieties of this algorithm have been shown to achieve favorable empirical performance and theoretical guarantees for sparse recovery and $\ell_p$-norm minimization. Recently, some preliminary connections have also been made between IRLS and certain types of non-convex linear neural network architectures that are observed to exploit low-dimensional structure in high-dimensional linear models. In this work, we provide a unified asymptotic analysis for a family of algorithms that encompasses IRLS, the recently proposed lin-RFM algorithm (which was motivated by feature learning in neural networks), and the alternating minimization algorithm on linear diagonal neural networks. Our analysis operates in a "batched" setting with i.i.d. Gaussian covariates and shows that, with appropriately chosen reweighting policy, the algorithm can achieve favorable performance in only a handful of iterations. We also extend our results to the case of group-sparse recovery and show that leveraging this structure in the reweighting scheme provably improves test error compared to coordinate-wise reweighting.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# エンコーダ・デコーダモデルによる陸上船舶軌道の短期予測

Short-term Inland Vessel Trajectory Prediction with Encoder-Decoder Models ( http://arxiv.org/abs/2406.02770v1 )

ライセンス: Link先を確認
Kathrin Donandt, Karim Böttger, Dirk Söffker, (参考訳) 保存および効率的な航法には正確な船舶軌道予測が必要である。 深層学習に基づく予測モデル、例えばエンコーダデコーダは、特に内陸航法にはほとんど適用されない。 海洋ドメインからのアプローチは、特定の運転行動が影響する要因により、直接河川航行に移行することはできない。 変圧器エンコーダ・デコーダを含む異なるエンコーダ・デコーダアーキテクチャは、AISの時空間情報だけでなく、河川特有の特徴も考慮し、内陸血管の次の位置を予測するために比較される。 その結果, 回帰タスクを分類問題として再編成し, 河川特有の特徴を組み込むことで, 変位誤差が最少であることが示唆された。 標準のLSTMエンコーダデコーダは、考慮されたデータに対してトランスフォーマーエンコーダデコーダよりも優れているが、計算コストは高い。 本研究では, 変圧器を用いたエンコーダデコーダモデルを船舶軌道予測問題に適用した。 ここでは、ナビゲーション入力パラメータの河川固有の文脈を用いた特徴ベクトルを確立する。 提案したモデルに基づいて今後の研究を行い,さらに高パラメータ最適化を通じて計算効率のよいトランスフォーマーの改良について検討し,さらに予測精度を高めるために,文脈表現に追加の河川固有情報を利用する。

Accurate vessel trajectory prediction is necessary for save and efficient navigation. Deep learning-based prediction models, esp. encoder-decoders, are rarely applied to inland navigation specifically. Approaches from the maritime domain cannot directly be transferred to river navigation due to specific driving behavior influencing factors. Different encoder-decoder architectures, including a transformer encoder-decoder, are compared herein for predicting the next positions of inland vessels, given not only spatio-temporal information from AIS, but also river specific features. The results show that the reformulation of the regression task as classification problem and the inclusion of river specific features yield the lowest displacement errors. The standard LSTM encoder-decoder outperforms the transformer encoder-decoder for the data considered, but is computationally more expensive. In this study for the first time a transformer-based encoder-decoder model is applied to the problem of predicting the ship trajectory. Here, a feature vector using the river-specific context of navigation input parameters is established. Future studies can built on the proposed models, investigate the improvement of the computationally more efficient transformer, e.g. through further hyper-parameter optimization, and use additional river-specific information in the context representation to further increase prediction accuracy.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 内陸船舶軌道予測のための文脈感性変換器モデルの改良

Improved context-sensitive transformer model for inland vessel trajectory prediction ( http://arxiv.org/abs/2406.02771v1 )

ライセンス: Link先を確認
Kathrin Donandt, Karim Böttger, Dirk Söffker, (参考訳) 物理関連およびモデルに基づく船体軌道予測は非常に正確であるが、常に実用的とは限らない船体の具体的な知識が必要である。 機械学習に基づく軌道予測モデルは専門家の知識を必要としないが、大量のデータから抽出された暗黙の知識に依存している。 近年,血管軌跡予測のための深層学習法が提案されている。 DLモデルは一般的に、グローバル参照システムに関して定義された船舶の配置に関する情報のみを処理する。 内陸航法の文脈では、限られた航法空間の知識がなければ、非現実的な軌道が決定される可能性があるため、この問題が問題となる可能性がある。 空間制約が導入された場合、例えば、マップデータを処理するための追加のサブモジュールを実装することで、全体的な複雑さが増大する。 一方の船体変位情報と他方の空間情報を処理する代わりに,両情報の融合を提案する。 ここでは、フェアウェイ関連およびナビゲーション関連変位情報を直接使用する。 このようにして、従来提案されていた文脈依存型分類変換器(CSCT)は、空間認識の向上を示す。 さらに、CSCTは、推論中にドロップアウトを有効にすることにより、モデルの不確実性を評価するように適合する。 このアプローチは、その一般化性を分析するために、異なる内陸水路で訓練されている。 改良されたCSCTは、予測誤差が低く、各予測の信頼性を推定できるため、従来開発されたモデルよりも、内陸航法における安全クリティカルな応用に適している。

Physics-related and model-based vessel trajectory prediction is highly accurate but requires specific knowledge of the vessel under consideration which is not always practical. Machine learning-based trajectory prediction models do not require expert knowledge, but rely on the implicit knowledge extracted from massive amounts of data. Several deep learning (DL) methods for vessel trajectory prediction have recently been suggested. The DL models developed typically only process information about the (dis)location of vessels defined with respect to a global reference system. In the context of inland navigation, this can be problematic, since without knowledge of the limited navigable space, irrealistic trajectories are likely to be determined. If spatial constraintes are introduced, e.g., by implementing an additional submodule to process map data, however, overall complexity increases. Instead of processing the vessel displacement information on the one hand and the spatial information on the other hand, the paper proposes the merging of both information. Here, fairway-related and navigation-related displacement information are used directly. In this way, the previously proposed context-sensitive Classification Transformer (CSCT) shows an improved spatial awareness. Additionally, the CSCT is adapted to assess the model uncertainty by enabling dropout during inference. This approach is trained on different inland waterways to analyze its generalizability. As the improved CSCT obtains lower prediction errors and enables to estimate the trustworthiness of each prediction, it is more suitable for safety-critical applications in inland navigation than previously developed models.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# ハイパーボリックベンチマークによるネットワークトポロジーの解明-GNN性能と機能関係

Hyperbolic Benchmarking Unveils Network Topology-Feature Relationship in GNN Performance ( http://arxiv.org/abs/2406.02772v1 )

ライセンス: Link先を確認
Roya Aliakbarisani, Robert Jankowski, M. Ángeles Serrano, Marián Boguñá, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークのトレンドの識別から薬物発見やマルウェア検出まで、さまざまなアプリケーションにおけるグラフ特性の予測に優れています。 新しいアーキテクチャの多さと複雑さの増大により、GNNは、いくつかのよく知られたデータセットでテストすることで、高度に専門化されている。 しかし、GNNの性能がグラフの位相的特性や特徴にどのように依存するかは、まだ未解決の問題である。 本稿では,グラフ機械学習のための総合的なベンチマークフレームワークについて紹介する。 双曲空間における幾何学的ソフト構成モデルを用いて,現実的な位相特性を持つ合成ネットワークとノード特徴ベクトルを生成する。 提案手法により, トポロジ-特徴相関, 次数分布, 三角形(あるいはクラスタリング)の局所密度, およびホモフィリーなどのネットワーク特性が, 異なるGNNアーキテクチャの有効性に与える影響を評価することができる。 本結果は,ネットワーク構造とノード特徴の相互作用に対するモデル性能の依存性を強調し,様々なシナリオにおけるモデル選択の洞察を提供する。 本研究は,GNNの評価を行う汎用ツールを提供することにより,特定のデータ特性に基づいて適切なモデルの開発と選択を支援することで,この分野に寄与する。

Graph Neural Networks (GNNs) have excelled in predicting graph properties in various applications ranging from identifying trends in social networks to drug discovery and malware detection. With the abundance of new architectures and increased complexity, GNNs are becoming highly specialized when tested on a few well-known datasets. However, how the performance of GNNs depends on the topological and features properties of graphs is still an open question. In this work, we introduce a comprehensive benchmarking framework for graph machine learning, focusing on the performance of GNNs across varied network structures. Utilizing the geometric soft configuration model in hyperbolic space, we generate synthetic networks with realistic topological properties and node feature vectors. This approach enables us to assess the impact of network properties, such as topology-feature correlation, degree distributions, local density of triangles (or clustering), and homophily, on the effectiveness of different GNN architectures. Our results highlight the dependency of model performance on the interplay between network structure and node features, providing insights for model selection in various scenarios. This study contributes to the field by offering a versatile tool for evaluating GNNs, thereby assisting in developing and selecting suitable models based on specific data characteristics.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# サイクルスパーストレーニング:十分か?

Cyclic Sparse Training: Is it Enough? ( http://arxiv.org/abs/2406.02773v1 )

ライセンス: Link先を確認
Advait Gadhikar, Sree Harsha Nelaturu, Rebekka Burkholz, (参考訳) 最先端のスパースネットワークの実現における反復的プルーニング手法の成功は、マスク識別の改善とプルーニングによる暗黙の正則化によるところが大きい。 我々はこの仮説に挑戦し、その代わりに周期的なトレーニングスケジュールが改良された最適化を可能にしていると仮定する。 これを検証するために, 繰り返し繰り返し訓練により初期化時のプルーニングが著しく向上し, 標準的なイテレーティブプルーニング法よりも優れていることを示す。 私たちが予想しているように、これを達成するための支配的なメカニズムは、ロスランドスケープのより良い探索が、トレーニング損失の減少につながっているためである。 しかし、疎度が高い場合、繰り返し循環訓練だけでは競争性能には不十分である。 学習パラメータの初期化とマスクの強い結合が必要と思われる。 標準的な手法は、高密度ネットワークから始まる高価なプルーニングトレーニングの繰り返しを通じて、この結合を得る。 そこで本研究では,任意のスパースマスクの繰り返しサイクルトレーニングと,パラメータとマスクをペアリングする単一プルーニングステップを併用して行うSCULPT-ingを提案する。

The success of iterative pruning methods in achieving state-of-the-art sparse networks has largely been attributed to improved mask identification and an implicit regularization induced by pruning. We challenge this hypothesis and instead posit that their repeated cyclic training schedules enable improved optimization. To verify this, we show that pruning at initialization is significantly boosted by repeated cyclic training, even outperforming standard iterative pruning methods. The dominant mechanism how this is achieved, as we conjecture, can be attributed to a better exploration of the loss landscape leading to a lower training loss. However, at high sparsity, repeated cyclic training alone is not enough for competitive performance. A strong coupling between learnt parameter initialization and mask seems to be required. Standard methods obtain this coupling via expensive pruning-training iterations, starting from a dense network. To achieve this with sparse training instead, we propose SCULPT-ing, i.e., repeated cyclic training of any sparse mask followed by a single pruning step to couple the parameters and the mask, which is able to match the performance of state-of-the-art iterative pruning methods in the high sparsity regime at reduced computational cost.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# 半教師付き迷路追従に対する拡散精製VQAアノテーション

Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following ( http://arxiv.org/abs/2406.02774v1 )

ライセンス: Link先を確認
Qiaomu Miao, Alexandros Graikos, Jingwei Zhang, Sounak Mondal, Minh Hoai, Dimitris Samaras, (参考訳) 視線を訓練するモデルには、人間のアノテーションによって注釈付けされた視線目標座標を持つ多数の画像が必要であり、これは退屈で本質的に曖昧なプロセスである。 タスクに2つの新しい前処理を導入することで、視線追跡のための最初の半教師付き手法を提案する。 本稿では,VQAモデルを用いて事前学習を行い,次の質問に目を向けて,VQAモデルを用いてGrad-CAMヒートマップを'prompting'することで計算する。 これらのヒートマップはノイズがあり、訓練に適さない。 これらのノイズの多いアノテーションを洗練する必要があるため、私たちは2番目の前もって組み込むことができます。 我々は,限定された人間のアノテーションに基づいて訓練された拡散モデルを利用し,逆サンプリングプロセスを変更してGrad-CAMヒートマップを改良する。 拡散過程を調整することにより、人間のアノテーションとVQAのヒートマップとのトレードオフを実現し、トレーニングデータ分布に類似した特性を示しながら、有用なVQAの事前情報を保持する。 提案手法は,GazeFollow画像データセットに基づく単純な擬似アノテーション生成ベースラインよりも優れている。 さらに、VATモデル(VAT)に広く用いられている擬似アノテーション戦略により、アノテーションの必要性を50%低減する。 提案手法は,VideoAttentionTargetデータセット上でも最良である。

Training gaze following models requires a large number of images with gaze target coordinates annotated by human annotators, which is a laborious and inherently ambiguous process. We propose the first semi-supervised method for gaze following by introducing two novel priors to the task. We obtain the first prior using a large pretrained Visual Question Answering (VQA) model, where we compute Grad-CAM heatmaps by `prompting' the VQA model with a gaze following question. These heatmaps can be noisy and not suited for use in training. The need to refine these noisy annotations leads us to incorporate a second prior. We utilize a diffusion model trained on limited human annotations and modify the reverse sampling process to refine the Grad-CAM heatmaps. By tuning the diffusion process we achieve a trade-off between the human annotation prior and the VQA heatmap prior, which retains the useful VQA prior information while exhibiting similar properties to the training data distribution. Our method outperforms simple pseudo-annotation generation baselines on the GazeFollow image dataset. More importantly, our pseudo-annotation strategy, applied to a widely used supervised gaze following model (VAT), reduces the annotation need by 50%. Our method also performs the best on the VideoAttentionTarget dataset.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# フローティングオフショア風力における異常検出のための診断用ディジタルツイン

Diagnostic Digital Twin for Anomaly Detection in Floating Offshore Wind Energy ( http://arxiv.org/abs/2406.02775v1 )

ライセンス: Link先を確認
Florian Stadtmann, Adil Rasheed, (参考訳) 条件ベースと予測的メンテナンスの需要は、特にリモート、高価値、高リスク資産など業界全体で増加している。 本稿では,水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水上水 診断デジタルツイン(英: diagnosis digital twin)とは、リアルタイムデータとモデルを組み合わせた仮想的な資産表現であり、損傷を監視し、異常を検出し、故障を診断し、条件ベースの予測保守を可能にする。 診断用デジタルツインをオフショア資産に適用することにより、予期せぬ失敗を軽減できるが、実装は困難である。 ここでは、洋上風力タービンの運用のために、診断用デジタルツインが実装されている。 資産は測定によって監視される。 教師なし学習手法は、正常な動作モデルを構築し、異常を検出し、故障診断を提供するために用いられる。 警告と診断はテキストメッセージを通じて送信され、より詳細な診断は仮想現実インターフェースでアクセスすることができる。 診断用デジタル双生児は、故障が起こる数時間前に高い信頼性で異常を検出できた。 論文は、オフショアエンジニアリングのより広い文脈で診断デジタル双生児について議論することで締めくくっている。 提案手法は他のオフショア資産に一般化することができ、メンテナンスを改善し、オフショア資産の寿命、効率、持続可能性を高めることができる。

The demand for condition-based and predictive maintenance is rising across industries, especially for remote, high-value, and high-risk assets. In this article, the diagnostic digital twin concept is introduced, discussed, and implemented for a floating offshore turbine. A diagnostic digital twin is a virtual representation of an asset that combines real-time data and models to monitor damage, detect anomalies, and diagnose failures, thereby enabling condition-based and predictive maintenance. By applying diagnostic digital twins to offshore assets, unexpected failures can be alleviated, but the implementation can prove challenging. Here, a diagnostic digital twin is implemented for an operational floating offshore wind turbine. The asset is monitored through measurements. Unsupervised learning methods are employed to build a normal operation model, detect anomalies, and provide a fault diagnosis. Warnings and diagnoses are sent through text messages, and a more detailed diagnosis can be accessed in a virtual reality interface. The diagnostic digital twin successfully detected an anomaly with high confidence hours before a failure occurred. The paper concludes by discussing diagnostic digital twins in the broader context of offshore engineering. The presented approach can be generalized to other offshore assets to improve maintenance and increase the lifetime, efficiency, and sustainability of offshore assets.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# MeshVPR: 3Dメッシュを用いた都市全体の視覚的位置認識

MeshVPR: Citywide Visual Place Recognition Using 3D Meshes ( http://arxiv.org/abs/2406.02776v1 )

ライセンス: Link先を確認
Gabriele Berton, Lorenz Junglas, Riccardo Zaccone, Thomas Pollok, Barbara Caputo, Carlo Masone, (参考訳) メッシュベースのシーン表現は、グローバル機能(検索)に基づく視覚的位置認識ステップと、ローカル機能に基づく視覚的位置認識ステップを組み合わせた、大規模な階層的な視覚的位置認識パイプラインを簡素化するための有望な方向を提供する。 既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。 本研究では,大規模な視覚的位置認識(VPR)に高密度な3次元テクスチャメッシュを用い,実世界の画像と比較して,合成メッシュベースのデータベースを使用する場合の顕著な性能低下について検討する。 そこで本研究では,現実世界と合成ドメイン間のギャップを埋めるために,軽量な機能アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。 MeshVPRはトレーニング済みのVPRモデルを活用する。 フリーで利用可能な3Dメッシュを備えた新しいデータセットを導入し、ベルリン、パリ、メルボルンから手動でクエリを収集します。 大規模な評価は、MeshVPRが標準のVPRパイプラインと競合する性能を達成し、メッシュベースのローカライゼーションシステムへの道を開いたことを示している。 私たちのコントリビューションには、都市全体のメッシュベースのVPRの新たなタスク、新しいベンチマークデータセット、MeshVPR、オープン課題の詳細な分析などが含まれています。 データ、コード、インタラクティブな視覚化はhttps://mesh-vpr.github.ioで公開されている。

Mesh-based scene representation offers a promising direction for simplifying large-scale hierarchical visual localization pipelines, combining a visual place recognition step based on global features (retrieval) and a visual localization step based on local features. While existing work demonstrates the viability of meshes for visual localization, the impact of using synthetic databases rendered from them in visual place recognition remains largely unexplored. In this work we investigate using dense 3D textured meshes for large-scale Visual Place Recognition (VPR) and identify a significant performance drop when using synthetic mesh-based databases compared to real-world images for retrieval. To address this, we propose MeshVPR, a novel VPR pipeline that utilizes a lightweight features alignment framework to bridge the gap between real-world and synthetic domains. MeshVPR leverages pre-trained VPR models and it is efficient and scalable for city-wide deployments. We introduce novel datasets with freely available 3D meshes and manually collected queries from Berlin, Paris, and Melbourne. Extensive evaluations demonstrate that MeshVPR achieves competitive performance with standard VPR pipelines, paving the way for mesh-based localization systems. Our contributions include the new task of citywide mesh-based VPR, the new benchmark datasets, MeshVPR, and a thorough analysis of open challenges. Data, code, and interactive visualizations are available at https://mesh-vpr.github.io
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# MS-IMAP - 解釈可能なマニフォールド学習のためのマルチスケールグラフ埋め込みアプローチ

MS-IMAP -- A Multi-Scale Graph Embedding Approach for Interpretable Manifold Learning ( http://arxiv.org/abs/2406.02778v1 )

ライセンス: Link先を確認
Shay Deutsch, Lionel Yelibi, Alex Tong Lin, Arjun Ravi Kannan, (参考訳) 教師なし設定における複雑な高次元データから有意義な表現を導出することは、多様な機械学習アプリケーションにおいて不可欠である。 本稿では,コントラスト学習手法を用いたスペクトルグラフウェーブレットに基づくマルチスケールグラフネットワークの組込みフレームワークを提案する。 提案した埋め込みの重要な特徴は,埋め込み空間と入力特徴空間との対応性を確立する能力である。 理論的に我々のアプローチを正当化し、組合せグラフ上のパリー・ウィーナー空間において、スペクトルグラフウェーブレット作用素はラプラシア作用素と比較してより柔軟性があり、滑らか性特性の制御がより優れていることを証明した。 クラスタリングや教師なし機能の重要性など,さまざまな下流タスクを通じて,さまざまな公開データセットへのグラフ埋め込みの有効性を検証する。

Deriving meaningful representations from complex, high-dimensional data in unsupervised settings is crucial across diverse machine learning applications. This paper introduces a framework for multi-scale graph network embedding based on spectral graph wavelets that employs a contrastive learning approach. A significant feature of the proposed embedding is its capacity to establish a correspondence between the embedding space and the input feature space which aids in deriving feature importance of the original features. We theoretically justify our approach and demonstrate that, in Paley-Wiener spaces on combinatorial graphs, the spectral graph wavelets operator offers greater flexibility and better control over smoothness properties compared to the Laplacian operator. We validate the effectiveness of our proposed graph embedding on a variety of public datasets through a range of downstream tasks, including clustering and unsupervised feature importance.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# LADI v2:低高度災害画像のための多ラベルデータセットと分類器

LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery ( http://arxiv.org/abs/2406.02780v1 )

ライセンス: Link先を確認
Samuel Scheele, Katherine Picchione, Jeffrey Liu, (参考訳) MLベースのコンピュータビジョンモデルは、自然災害後の緊急管理業務をサポートするための有望なツールである。 小さな有人航空機や無人航空機から撮影したアリル写真は、災害後すぐに入手でき、状況認識や損傷評価の応用のために複数の視点から貴重な情報を提供することができる。 しかし、緊急管理職は、事件後に撮影される可能性のある数万枚の写真の中で、最も関連性の高い写真を見つけることの難しさに直面することが多い。 MLベースのソリューションは、より効果的な航空写真の利用を可能にする可能性があるが、複数の視点と複数のハザードタイプからこのタイプの画像のトレーニングデータが不足している。 これを解決するために、LADI v2 (Low Altitude Disaster Imagery Version 2)データセットを提示する。このデータセットは、連邦が宣言した緊急事態(2015-2023)への対応として、米国内においてシビル・パトロール(CAP)によって撮影された約10,000の災害画像のキュレートされたセットであり、訓練されたCAPボランティアによるマルチラベル分類のために注釈付けされている。 また、2つの事前訓練されたベースライン分類器を提供し、その性能を多ラベル分類における最先端の視覚言語モデルと比較する。 データとコードは、緊急管理研究およびアプリケーションのためのコンピュータビジョンモデルの開発をサポートするために、一般公開されている。

ML-based computer vision models are promising tools for supporting emergency management operations following natural disasters. Arial photographs taken from small manned and unmanned aircraft can be available soon after a disaster and provide valuable information from multiple perspectives for situational awareness and damage assessment applications. However, emergency managers often face challenges finding the most relevant photos among the tens of thousands that may be taken after an incident. While ML-based solutions could enable more effective use of aerial photographs, there is still a lack of training data for imagery of this type from multiple perspectives and for multiple hazard types. To address this, we present the LADI v2 (Low Altitude Disaster Imagery version 2) dataset, a curated set of about 10,000 disaster images captured in the United States by the Civil Air Patrol (CAP) in response to federally-declared emergencies (2015-2023) and annotated for multi-label classification by trained CAP volunteers. We also provide two pretrained baseline classifiers and compare their performance to state-of-the-art vision-language models in multi-label classification. The data and code are released publicly to support the development of computer vision models for emergency management research and applications.
翻訳日:2024-06-06 22:47:37 公開日:2024-06-04
# クリロフ空間からのKPZスケーリング

KPZ scaling from the Krylov space ( http://arxiv.org/abs/2406.02782v1 )

ライセンス: Link先を確認
Alexander Gorsky, Sergei Nechaev, Alexander Valov, (参考訳) 近年,KPZ(Kardar-Parisi-Zhang)スケーリングを呈する超拡散現象が報告されている。 これらの結果から着想を得て,Krylov演算子に基づく相関関数のKPZスケーリングについて検討する。 我々はハイゼンベルクの時間スケールに注目し、これは大きなが有限な自由度を持つ系におけるクリロフ複雑性のランプ-プレート遷移とほぼ一致する。 2つの枠組みが検討されている。 一 ランツォス係数の増大及び人工的な切り離しを有するシステム i) 有限ヒルベルト空間を持つ系。 どちらの場合も数値解析により、有限長さ$K$および$c_{cr}=O(1)$のクリロフ鎖に対して、臨界ユークリッド時間$t_{E}^*=c_{cr}K$におけるガウスからKPZ様のスケーリングへの移行を観察する。 特に、一点相関関数のゆらぎに対するスケーリング $\sim K^{1/3}$ と、物理空間における自己相関子に対応する戻り確率(ロシュミットエコー)に付随する動的スケーリング $\sim K^{-2/3}$ が見つかる。 第1のケースでは、遷移は第3次であり、動的量子相転移(DQPT)の例と見なすことができるが、第2のケースでは交叉である。 例 二) スペクトルエッジにおける三対角行列のスペクトルと確率的エアリー作用素のスペクトルの関係を利用して, 確率論の結果を用いて, 特定のクリロフ鎖に対するKPZスケーリングの起源を解析的に実証する。 行列モデルの二重スケーリング限界について,本研究の結果について論じる。 トポロジカル重力の場合、ホワイトノイズ$O(\frac{1}{N})$項が同定され、2D/1Dホログラフィーにおけるアンサンブル平均化の問題を考慮する必要がある。

Recently, a superdiffusion exhibiting the Kardar-Parisi-Zhang (KPZ) scaling in late-time correlators and autocorrelators of certain interacting many-body systems has been reported. Inspired by these results, we explore the KPZ scaling in correlation functions using their realization in the Krylov operator basis. We focus on the Heisenberg time scale, which approximately corresponds to the ramp--plateau transition for the Krylov complexity in systems with a large but finite number degrees of freedom. Two frameworks are under consideration: i) the system with growing Lanczos coefficients and an artificial cut-off, and ii) the system with the finite Hilbert space. In both cases via numerical analysis, we observe the transition from Gaussian to KPZ-like scaling at the critical Euclidean time $t_{E}^*=c_{cr}K$, for the Krylov chain of finite length $K$, and $c_{cr}=O(1)$. In particular, we find a scaling $\sim K^{1/3}$ for fluctuations in the one-point correlation function and a dynamical scaling $\sim K^{-2/3}$ associated with the return probability (Loschmidt echo) corresponding to autocorrelators in physical space. In the first case, the transition is of the 3rd order and can be considered as an example of dynamical quantum phase transition (DQPT), while in the second, it is a crossover. For case ii), utilizing the relationship between the spectrum of tridiagonal matrices at the spectral edge and the spectrum of the stochastic Airy operator, we demonstrate analytically the origin of the KPZ scaling for the particular Krylov chain using the results of the probability theory. We argue that there is some outcome of our study for the double scaling limit of matrix models. For the case of topological gravity, the white noise $O(\frac{1}{N})$ term is identified, which should be taken into account in the controversial issue of ensemble averaging in 2D/1D holography.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 深部生成画像を用いたM87*のイベントホライゾンスケールイメージング

Event-horizon-scale Imaging of M87* under Different Assumptions via Deep Generative Image Priors ( http://arxiv.org/abs/2406.02785v1 )

ライセンス: Link先を確認
Berthy T. Feng, Katherine L. Bouman, William T. Freeman, (参考訳) 銀河M87の中心にある超大質量ブラックホールM87*のイベント・ホライゾン望遠鏡(EHT)観測による画像の再構成は、望まれる画像統計に先立って行われる。 しかし、直接ブラックホールを観測できないことを考えると、事前に明確な選択肢はない。 本稿では,画像再構成に様々なバイアスを与える,フレキシブルな事前設計の枠組みを提案する。 これらの先行は弱い(例えば、基本的な自然像統計のみを課す)か強い(例えば、ブラックホールの構造の仮定を課す)。 我々のフレームワークは、複雑な画像分布を学習できる深層生成モデルから生じるデータ駆動の先行データであるスコアに基づくベイズ推定を用いる。 より高度なデータ駆動型先行画像を用いたベイジアンイメージング手法により, 画像の視覚的特徴や不確実性が, 先行画像によってどのように変化するかを評価することができる。 シミュレーションデータに加えて、実際のEHT M87*データを画像化し、以前の選択によってどのように復元された特徴が影響されるかについて議論する。

Reconstructing images from the Event Horizon Telescope (EHT) observations of M87*, the supermassive black hole at the center of the galaxy M87, depends on a prior to impose desired image statistics. However, given the impossibility of directly observing black holes, there is no clear choice for a prior. We present a framework for flexibly designing a range of priors, each bringing different biases to the image reconstruction. These priors can be weak (e.g., impose only basic natural-image statistics) or strong (e.g., impose assumptions of black-hole structure). Our framework uses Bayesian inference with score-based priors, which are data-driven priors arising from a deep generative model that can learn complicated image distributions. Using our Bayesian imaging approach with sophisticated data-driven priors, we can assess how visual features and uncertainty of reconstructed images change depending on the prior. In addition to simulated data, we image the real EHT M87* data and discuss how recovered features are influenced by the choice of prior.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 分散論理:大言語モデル推論能力におけるコンテキストの役割

Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities ( http://arxiv.org/abs/2406.02787v1 )

ライセンス: Link先を確認
Wenyue Hua, Kaijie Zhu, Lingyao Li, Lizhou Fan, Shuhang Lin, Mingyu Jin, Haochen Xue, Zelong Li, JinDong Wang, Yongfeng Zhang, (参考訳) 本研究は,抽象的・文脈的論理的問題と包括的ドメイン集合との対比を調査することにより,純粋論理的推論とテキスト理解を体系的に解き放つことを目的とする。 基礎となる論理構造が一定である場合, LLM が様々な領域にまたがる真の推論能力を示すかどうかを考察する。 実世界のシナリオにおいて、LLMの推論能力を正確にベンチマークできるのは論理的問題だけで、実践的な環境での文脈的サポートとは無関係か? 2) 抽象論理問題に対する微調整 LLM は文脈論理問題に一般化するか,その逆か? これらの疑問を解明するために、我々は標準的な命題論理、特に命題帰納論理と帰納論理の推論に焦点を当てる。 具体的には,ウィキペディアの分類に基づいて,12のカテゴリやドメインを含む4レベルの難易度を有する帰納的推論と帰納的推論のためのインスタンス化されたデータセットを構築した。 本実験は,LLMの論理的推論と真の推論能力とその一般化可能性に関する知見を提供することを目的としている。 コードとデータセットは、https://github.com/agiresearch/ContextHub.orgで公開されている。

This study intends to systematically disentangle pure logic reasoning and text understanding by investigating the contrast across abstract and contextualized logical problems from a comprehensive set of domains. We explore whether LLMs demonstrate genuine reasoning capabilities across various domains when the underlying logical structure remains constant. We focus on two main questions (1) Can abstract logical problems alone accurately benchmark an LLM's reasoning ability in real-world scenarios, disentangled from contextual support in practical settings? (2) Does fine-tuning LLMs on abstract logic problem generalize to contextualized logic problems and vice versa? To investigate these questions, we focus on standard propositional logic, specifically propositional deductive and abductive logic reasoning. In particular, we construct instantiated datasets for deductive and abductive reasoning with 4 levels of difficulty, encompassing 12 distinct categories or domains based on the categorization of Wikipedia. Our experiments aim to provide insights into disentangling context in logical reasoning and the true reasoning capabilities of LLMs and their generalization potential. The code and dataset are available at: https://github.com/agiresearch/ContextHub.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 重機を用いた私的確率凸最適化 : 簡易化による準最適性

Private Stochastic Convex Optimization with Heavy Tails: Near-Optimality from Simple Reductions ( http://arxiv.org/abs/2406.02789v1 )

ライセンス: Link先を確認
Hilal Asi, Daogao Liu, Kevin Tian, (参考訳) 重み付き勾配を持つ微分プライベート確率凸最適化(DP-SCO)の問題を考察し、一様境界ではなくサンプル関数のリプシッツ定数上の$k^{\text{th}}$-momentを仮定する。 誤差$G_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\epsilon})^{1 - \frac 1 k}$ under $(\epsilon, \delta)$-approximate differential privacy, up to a mild $\textup{polylog}(\frac{1}{\delta})$ factor, where $G_2^2$ and $G_k^k$ is the $2^{\text{nd}}$ and $k^{\text{th}}$ if bounds on sample lipschitzs constant of a low-bound of (Lyynya, 2023)$-approximate differential privacy, up a mild $\textup{polylog}(\frac{1}{\delta})$ factor。 さらに、既知のLipschitz定数仮定の下での最適アルゴリズム、滑らかな関数のニア線形時間アルゴリズム、滑らかな一般化線形モデルのための最適線形時間アルゴリズムなどを含む、追加の仮定の下で、我々の基本的な結果を改善するような重み付き設定のプライベートアルゴリズム一式について述べる。

We study the problem of differentially private stochastic convex optimization (DP-SCO) with heavy-tailed gradients, where we assume a $k^{\text{th}}$-moment bound on the Lipschitz constants of sample functions rather than a uniform bound. We propose a new reduction-based approach that enables us to obtain the first optimal rates (up to logarithmic factors) in the heavy-tailed setting, achieving error $G_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\epsilon})^{1 - \frac 1 k}$ under $(\epsilon, \delta)$-approximate differential privacy, up to a mild $\textup{polylog}(\frac{1}{\delta})$ factor, where $G_2^2$ and $G_k^k$ are the $2^{\text{nd}}$ and $k^{\text{th}}$ moment bounds on sample Lipschitz constants, nearly-matching a lower bound of [Lowy and Razaviyayn 2023]. We further give a suite of private algorithms in the heavy-tailed setting which improve upon our basic result under additional assumptions, including an optimal algorithm under a known-Lipschitz constant assumption, a near-linear time algorithm for smooth functions, and an optimal linear time algorithm for smooth generalized linear models.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 社会的に妥当な公共モデルの構築

Building Socially-Equitable Public Models ( http://arxiv.org/abs/2406.02790v1 )

ライセンス: Link先を確認
Yejia Liu, Jianyi Yang, Pengfei Li, Tongxin Li, Shaolei Ren, (参考訳) パブリックモデルは、さまざまなダウンストリームタスクに予測を提供し、さまざまなAIアプリケーションにおいて重要な役割を担い、正確な予測の習熟度を示している。 しかし、予測精度を排他的に重視することは、下流エージェントの多様な目的と一致しないかもしれない。 公共モデルの予測をサービスとして認識し、下流エージェントの目的を最適化プロセスに統合することを提唱する。 具体的には,訓練における異種エージェントのパフォーマンス格差に対処し,公平性を育むために,新しいエクイタブル・オブジェクトを提案する。 この目的は、ポリシー勾配アルゴリズムと組み合わさって、下流エージェントにまたがるより公平で均一なパフォーマンス分布を生成するために、公開モデルをトレーニングするために作られています。 理論的解析と実証ケーススタディの両方において,提案手法の有効性が実証されている。 コードとデータセットはhttps://github.com/Ren-Research/Socially-Equitable-Public-Modelsで公開されている。

Public models offer predictions to a variety of downstream tasks and have played a crucial role in various AI applications, showcasing their proficiency in accurate predictions. However, the exclusive emphasis on prediction accuracy may not align with the diverse end objectives of downstream agents. Recognizing the public model's predictions as a service, we advocate for integrating the objectives of downstream agents into the optimization process. Concretely, to address performance disparities and foster fairness among heterogeneous agents in training, we propose a novel Equitable Objective. This objective, coupled with a policy gradient algorithm, is crafted to train the public model to produce a more equitable/uniform performance distribution across downstream agents, each with their unique concerns. Both theoretical analysis and empirical case studies have proven the effectiveness of our method in advancing performance equity across diverse downstream agents utilizing the public model for their decision-making. Codes and datasets are released at https://github.com/Ren-Research/Socially-Equitable-Public-Models.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 環境フィードバックから古典的プランナのアクションセマンティクスを推論できる言語モデル

Language Models can Infer Action Semantics for Classical Planners from Environment Feedback ( http://arxiv.org/abs/2406.02791v1 )

ライセンス: Link先を確認
Wang Zhu, Ishika Singh, Robin Jia, Jesse Thomason, (参考訳) 古典的な計画手法は、与えられた目標状態を達成するための一連のアクションを見つけることを保証するが、専門家は環境のダイナミクスを管理する論理的なアクションセマンティクスを特定する必要がある。 研究者は、Large Language Models (LLMs) が、常識知識と最小限のドメイン情報に基づいて計画手順を直接推論するために使用できることを示したが、そのような計画は実行時に失敗することが多い。 我々は,従来の計画手法とLLMコモンセンス推論の強みを組み合わせて,環境自体とのクローズドループ相互作用に基づくドメイン誘導,学習,行動前条件と後条件の検証を行う。 提案するPSALMは,古典的プランナーが部分的ドメイン知識を与えられたときのヒューリスティックな完全部分計画にLLM推論を活用するとともに,実行後の環境フィードバックに基づいて論理言語でドメインの意味的ルールを推論する。 7つの環境を解析したところ, LLMをヒューリスティックプランナーとして, ルール予測器として使用することにより, ランダム探索よりも環境実行ステップや環境リセットを低減し, 基礎となる領域の真理行動セマンティクスを復元する。

Classical planning approaches guarantee finding a set of actions that can achieve a given goal state when possible, but require an expert to specify logical action semantics that govern the dynamics of the environment. Researchers have shown that Large Language Models (LLMs) can be used to directly infer planning steps based on commonsense knowledge and minimal domain information alone, but such plans often fail on execution. We bring together the strengths of classical planning and LLM commonsense inference to perform domain induction, learning and validating action pre- and post-conditions based on closed-loop interactions with the environment itself. We propose PSALM, which leverages LLM inference to heuristically complete partial plans emitted by a classical planner given partial domain knowledge, as well as to infer the semantic rules of the domain in a logical language based on environment feedback after execution. Our analysis on 7 environments shows that with just one expert-curated example plans, using LLMs as heuristic planners and rule predictors achieves lower environment execution steps and environment resets than random exploration while simultaneously recovering the underlying ground truth action semantics of the domain.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# ArguMentor: カウンターパースペクティブによるユーザエクスペリエンスの拡大

ArguMentor: Augmenting User Experiences with Counter-Perspectives ( http://arxiv.org/abs/2406.02795v1 )

ライセンス: Link先を確認
Priya Pitre, Kurt Luther, (参考訳) オピニオンピースは、どのストーリーの片側だけを表しており、ユーザに影響を与える可能性があり、社会のバイアスやエコーチャンバーの確認に敏感である。 さらに、人間は長い記事を読むのが苦手です。 この問題を解決するために、意見書のクレームをハイライトするエンドツーエンドシステムArguMentorを設計し、LCMを用いてそれに対する反論を生成し、現在の出来事に基づいた文節の文脈に基づく要約を生成する。 さらに、Q&Aボット、DebateMe、ハイライトトリガーウィンドウなどの追加機能を通じて、ユーザのインタラクションと理解をさらに強化する。 調査と結果から,利用者はより多くの対策を作成でき,システムに関わった後,平均的により中立的な視点を得られることがわかった。

Opinion pieces often represent only one side of any story, which can influence users and make them susceptible to confirmation bias and echo chambers in society. Moreover, humans are also bad at reading long articles -- often indulging in idle reading and re-reading. To solve this, we design ArguMentor, an end-to-end system that highlights claims in opinion pieces, generates counter-arguments for them using an LLM, and generates a context-based summary of the passage based on current events. It further enhances user interaction and understanding through additional features like Q&A bot, DebateMe and highlighting trigger windows. Our survey and results show that users can generate more counterarguments and on an average have more neutralized views after engaging with the system.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# ラベル推論攻撃によるプライバシメカニズムの監査

Auditing Privacy Mechanisms via Label Inference Attacks ( http://arxiv.org/abs/2406.02797v1 )

ライセンス: Link先を確認
Róbert István Busa-Fekete, Travis Dick, Claudio Gentile, Andrés Muñoz Medina, Adam Smith, Marika Swanberg, (参考訳) 本稿では,ラベルの民営化メカニズムを監査するための再建的優位性策を提案する。 再構成優位度尺度は、データセット内のラベルのプライベートバージョン(例えば、異なるユーザからのラベルの集合またはランダムな応答によって出力されるノイズのあるラベルの集合)が提供されると、攻撃者が未ラベルの真のラベルを推測する能力の増大を、特徴ベクトルのみを観察する攻撃者と比較して定量化するが、特徴とラベルの相関について事前の知識を持つ可能性がある。 このような監査方法として, 1 つの加法と 1 つの乗法を考える。 これらは、経験的監査と差分プライバシーに関する文献で取られた以前のアプローチを取り入れている。 この措置により、我々は様々な民営化スキーム(一部は個人的、一部はそうでない)を同じ足場に置くことができる。 理論的には, 合理的な対角的設定をカプセル化した分布モデルを用いて, これらの測度を解析する。 また,実際の予測タスクとシミュレーション予測タスクにおいて,その振る舞いを実証的に定量化する。 さまざまな実験的な設定において、よりヒューリスティックなアプローチによるプライバシーとユーティリティのトレードオフは、差分にプライベートなスキームが支配的または一致していることがわかった。

We propose reconstruction advantage measures to audit label privatization mechanisms. A reconstruction advantage measure quantifies the increase in an attacker's ability to infer the true label of an unlabeled example when provided with a private version of the labels in a dataset (e.g., aggregate of labels from different users or noisy labels output by randomized response), compared to an attacker that only observes the feature vectors, but may have prior knowledge of the correlation between features and labels. We consider two such auditing measures: one additive, and one multiplicative. These incorporate previous approaches taken in the literature on empirical auditing and differential privacy. The measures allow us to place a variety of proposed privatization schemes -- some differentially private, some not -- on the same footing. We analyze these measures theoretically under a distributional model which encapsulates reasonable adversarial settings. We also quantify their behavior empirically on real and simulated prediction tasks. Across a range of experimental settings, we find that differentially private schemes dominate or match the privacy-utility tradeoff of more heuristic approaches.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 科学におけるイノベーティブ・アイデアの活用と促進言語

Promotional Language and the Adoption of Innovative Ideas in Science ( http://arxiv.org/abs/2406.02798v1 )

ライセンス: Link先を確認
Hao Peng, Huilian Sophie Qiu, Henrik Barslund Fosse, Brian Uzzi, (参考訳) 科学におけるイノベーティブなアイデアのメリットはどのようなものか? ここでは、多くの文脈で頻繁に成長しており、革新的なアイデアの独創性と重要性を伝達している科学振興言語に焦点を当てて、承認申請の成功のセマンティック分析を行う。 我々の分析は、NIH、NSF、世界最大級の民間科学財団であるNovo Nordisk Foundation(ノヴォ・ノルディスク財団)という3つの主要な公的および民間資金機関から、資金提供と資金提供の両方の助成金の全文を調べることで、先行研究の限界を克服しようと試みている。 我々は、プロモーション言語と、資金提供者と他の科学者による革新的なアイデアの支持と採用との間に、堅牢な関連性を見出した。 まず、助成提案におけるプロモーション言語の割合は、助成金の確率の最大2倍に関連付けられている。 第二に、助成金の宣伝言葉はその固有の革新性のレベルを反映している。 第3に、宣伝語の割合は、資金援助によって支持される出版物の期待される引用と生産性への影響を予測する。 最後に,データ中の促進言語を操作するコンピュータ支援実験により,認知的アクティベーションを通じて,促進言語がアイデアのメリットを伝達することを示す。 科学における促進言語の発生が急激に増加し,将来性や願望のアイデアをソリューションに変換する上で,助成金が重要な役割を担っていることから,我々の分析は,促進言語が革新的科学的アイデアのメリットを効果的に伝達することに関連する実証的な証拠を提供する。

How are the merits of innovative ideas communicated in science? Here we conduct semantic analyses of grant application success with a focus on scientific promotional language, which has been growing in frequency in many contexts and purportedly may convey an innovative idea's originality and significance. Our analysis attempts to surmount limitations of prior studies by examining the full text of tens of thousands of both funded and unfunded grants from three leading public and private funding agencies: the NIH, the NSF, and the Novo Nordisk Foundation, one of the world's largest private science foundations. We find a robust association between promotional language and the support and adoption of innovative ideas by funders and other scientists. First, the percentage of promotional language in a grant proposal is associated with up to a doubling of the grant's probability of being funded. Second, a grant's promotional language reflects its intrinsic level of innovativeness. Third, the percentage of promotional language predicts the expected citation and productivity impact of publications that are supported by funded grants. Lastly, a computer-assisted experiment that manipulates the promotional language in our data demonstrates how promotional language can communicate the merit of ideas through cognitive activation. With the incidence of promotional language in science steeply rising, and the pivotal role of grants in converting promising and aspirational ideas into solutions, our analysis provides empirical evidence that promotional language is associated with effectively communicating the merits of innovative scientific ideas.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# $\texttt{ACCORD}$: Commonsense Measurability Gapのクローン

$\texttt{ACCORD}$: Closing the Commonsense Measurability Gap ( http://arxiv.org/abs/2406.02804v1 )

ライセンス: Link先を確認
François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz, (参考訳) 我々は,大規模言語モデル(LLM)の共通理解基盤と推論能力を,制御されたマルチホップ・カウンティファクトを通じて拡張するフレームワークとベンチマークスイートである$\texttt{ACCORD}$を提示する。 $\texttt{ACCORD}$ は、通常の 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化するために、コモンセンス推論に形式的要素を導入する。 ユニークなのは、$\texttt{ACCORD}$は任意の推論複雑性のベンチマークを自動的に生成できるため、将来のLCMの改善とスケールする。 GPT-4o (2024-05-13)、Llama-3-70B-Instruct、Mixtral-8x22B-Instruct-v0.1など、最先端のLLMのベンチマークでは、パフォーマンスが適度なスケーリングだけでランダムな確率に低下し、改善のための実質的なヘッドルームが残されている。 この作業でテストされたベンチマークスイートのリーダボードと,さらに複雑なベンチマークを自動的に生成するコードをリリースしています。

We present $\texttt{ACCORD}$, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large language models (LLMs) through controlled, multi-hop counterfactuals. $\texttt{ACCORD}$ introduces formal elements to commonsense reasoning to explicitly control and quantify reasoning complexity beyond the typical 1 or 2 hops. Uniquely, $\texttt{ACCORD}$ can automatically generate benchmarks of arbitrary reasoning complexity, and so it scales with future LLM improvements. Benchmarking state-of-the-art LLMs -- including GPT-4o (2024-05-13), Llama-3-70B-Instruct, and Mixtral-8x22B-Instruct-v0.1 -- shows performance degrading to random chance with only moderate scaling, leaving substantial headroom for improvement. We release a leaderboard of the benchmark suite tested in this work, as well as code for automatically generating more complex benchmarks.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 凸ニューラルネットワークのためのランダム化幾何代数法

Randomized Geometric Algebra Methods for Convex Neural Networks ( http://arxiv.org/abs/2406.02806v1 )

ライセンス: Link先を確認
Yifei Wang, Sungyoon Kim, Paul Chu, Indu Subramaniam, Mert Pilanci, (参考訳) 我々はクリフォードの幾何代数にランダム化アルゴリズムを導入し、超複素ベクトル空間にランダム化線形代数を一般化する。 この新しいアプローチは、凸最適化によるグローバル最適性へのニューラルネットワークのトレーニングを含む、機械学習に多くの意味を持つ。 さらに,幾何代数学と現代AI技術の交わりを探求するため,LLM埋め込みを重要な応用分野として検討する。 特に,従来の手法を用いたOpenAI GPTモデルやBERTなどの埋め込みによる移動学習の堅牢性の比較分析を行い,凸最適化に基づく新しい手法を提案する。 我々は,様々なケーススタディに対して,異なる埋め込み(GPT-4,BERT埋め込み)と異なるテキスト分類データセット(IMDb,Amazon Polarity Dataset,GLUE)を多種多様なハイパーパラメータ設定で適用し,凸最適化伝達学習手法をテストする。 その結果、凸最適化と幾何代数学はLLMの性能を高めるだけでなく、埋め込みによるより安定で信頼性の高い伝達学習法を提供することを示した。

We introduce randomized algorithms to Clifford's Geometric Algebra, generalizing randomized linear algebra to hypercomplex vector spaces. This novel approach has many implications in machine learning, including training neural networks to global optimality via convex optimization. Additionally, we consider fine-tuning large language model (LLM) embeddings as a key application area, exploring the intersection of geometric algebra and modern AI techniques. In particular, we conduct a comparative analysis of the robustness of transfer learning via embeddings, such as OpenAI GPT models and BERT, using traditional methods versus our novel approach based on convex optimization. We test our convex optimization transfer learning method across a variety of case studies, employing different embeddings (GPT-4 and BERT embeddings) and different text classification datasets (IMDb, Amazon Polarity Dataset, and GLUE) with a range of hyperparameter settings. Our results demonstrate that convex optimization and geometric algebra not only enhances the performance of LLMs but also offers a more stable and reliable method of transfer learning via embeddings.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# Siフォトニクス上のアナターゼTiO$_2$における個々のEr量子エミッタの分離

Isolation of individual Er quantum emitters in anatase TiO$_2$ on Si photonics ( http://arxiv.org/abs/2406.02810v1 )

ライセンス: Link先を確認
Cheng Ji, Robert M. Pettit, Shobhit Gupta, Gregory D. Grant, Ignas Masiulionis, Ananthesh Sundaresh, Skylar Deckoff--Jones, Max Olberding, Manish K. Singh, F. Joseph Heremans, Supratik Guha, Alan M. Dibos, Sean E. Sullivan, (参考訳) 固体材料中の欠陥とドーパント原子は、長距離量子ネットワークに必要な量子リピータの基本構成要素である単一光子源と量子メモリを実現するための有望なプラットフォームである。 特に、三価エルビウム(Er$^{3+}$)は、Cバンドの光通信遷移とスピンベースのメモリプラットフォームを結合するため、興味がある。 量子インターネットに必要なスケールで量子リピータを生成するためには、これらの必要なビルディングブロックと成熟したスケーラブルな半導体プロセスを統合することが不可欠である。 本研究では、シリコンオン絶縁体(SOI)フォトニクスプラットフォーム上にモノリシックに統合されたCMOS互換二酸化チタン(TiO$_2$)薄膜の単一Er$^{3+}=イオンの光学的分離を実証する。 本稿では,Er$^{3+}$ドープ薄膜をベースとしたモノリシック集積でスケーラブルな量子フォトニクスパッケージの実現に向けた第一歩を示す。

Defects and dopant atoms in solid state materials are a promising platform for realizing single photon sources and quantum memories, which are the basic building blocks of quantum repeaters needed for long distance quantum networks. In particular, trivalent erbium (Er$^{3+}$) is of interest because it couples C-band telecom optical transitions with a spin-based memory platform. In order to produce quantum repeaters at the scale required for a quantum internet, it is imperative to integrate these necessary building blocks with mature and scalable semiconductor processes. In this work, we demonstrate the optical isolation of single Er$^{3+}$ ions in CMOS-compatible titanium dioxide (TiO$_2$) thin films monolithically integrated on a silicon-on-insulator (SOI) photonics platform. Our results demonstrate a first step toward the realization of a monolithically integrated and scalable quantum photonics package based on Er$^{3+}$ doped thin films.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# エージェントの連鎖:長期的タスクで協調する大規模言語モデル

Chain of Agents: Large Language Models Collaborating on Long-Context Tasks ( http://arxiv.org/abs/2406.02818v1 )

ライセンス: Link先を確認
Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan Ö. Arik, (参考訳) 長いコンテキストを効果的に処理するという課題に対処することは、Large Language Models (LLMs) にとって重要な問題となっている。 2つの共通戦略が出現した。 1)検索型拡張世代(RAG)による関連チャンクの回収等の入力長の削減 2) LLM のコンテキストウィンドウ制限を拡大する。 しかし、どちらの戦略にも欠点がある:入力の削減は必要な情報で部分をカバーする保証がないのに対して、ウィンドウ拡張はタスクを解決するための関連する情報に焦点を合わせるのに苦労している。 このような制約を緩和するために,自然言語によるマルチエージェント協調を利用して,長期的コンテキストタスクにおける情報集約とコンテキスト推論を可能にする新しいフレームワークであるChain-of-Agents (CoA)を提案する。 CoAは、テキストの異なるセグメント化された部分を処理するために逐次通信を行う複数のワーカーエージェントで構成され、その後、これらのコントリビューションを一貫性のある最終出力に合成するマネージャエージェントが続く。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。 質問応答や要約,コード補完など,幅広い長文タスクに対するCoAの包括的評価を行い,RAG,Full-Context,マルチエージェントLCMの強いベースラインよりも最大10%向上したことを示す。

Addressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generation (RAG), and 2) expanding the context window limit of LLMs. However, both strategies have drawbacks: input reduction has no guarantee of covering the part with needed information, while window extension struggles with focusing on the pertinent information for solving the task. To mitigate these limitations, we propose Chain-of-Agents (CoA), a novel framework that harnesses multi-agent collaboration through natural language to enable information aggregation and context reasoning across various LLMs over long-context tasks. CoA consists of multiple worker agents who sequentially communicate to handle different segmented portions of the text, followed by a manager agent who synthesizes these contributions into a coherent final output. CoA processes the entire input by interleaving reading and reasoning, and it mitigates long context focus issues by assigning each agent a short context. We perform comprehensive evaluation of CoA on a wide range of long-context tasks in question answering, summarization, and code completion, demonstrating significant improvements by up to 10% over strong baselines of RAG, Full-Context, and multi-agent LLMs.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# ORACLE:拡散モデルにおける連続文字生成のための相互情報の活用

ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models ( http://arxiv.org/abs/2406.02820v1 )

ライセンス: Link先を確認
Kiymet Akdemir, Pinar Yanardag, (参考訳) テキスト・ツー・イメージの拡散モデルは最近、漫画作品、児童文学、ゲーム開発、ウェブデザインなど、様々な分野における視覚的創造性を促進する重要なツールとして、中心的な舞台に立った。 これらのモデルは人工知能の力を利用して、テキスト記述を鮮明なイメージに変換する。 しかし、持続する重要なハードルの1つは、さまざまなコンテキストにわたる文字生成における一貫性を維持することの難しさである。 テキストのプロンプトの変化は、たとえマイナーであっても、非常に異なる視覚出力をもたらすことができ、文字の均一な表現を必要とするプロジェクトにおいてかなりの問題を引き起こす。 本稿では,多様な設定にまたがる単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。 定量的および定性的な分析によって、我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れており、創造産業を変革する可能性を示している。 キャラクタ一貫性の重要な課題に対処することにより、これらのモデルの実用性を高めるだけでなく、芸術的・創造的な表現の地平を広げる。

Text-to-image diffusion models have recently taken center stage as pivotal tools in promoting visual creativity across an array of domains such as comic book artistry, children's literature, game development, and web design. These models harness the power of artificial intelligence to convert textual descriptions into vivid images, thereby enabling artists and creators to bring their imaginative concepts to life with unprecedented ease. However, one of the significant hurdles that persist is the challenge of maintaining consistency in character generation across diverse contexts. Variations in textual prompts, even if minor, can yield vastly different visual outputs, posing a considerable problem in projects that require a uniform representation of characters throughout. In this paper, we introduce a novel framework designed to produce consistent character representations from a single text prompt across diverse settings. Through both quantitative and qualitative analyses, we demonstrate that our framework outperforms existing methods in generating characters with consistent visual identities, underscoring its potential to transform creative industries. By addressing the critical challenge of character consistency, we not only enhance the practical utility of these models but also broaden the horizons for artistic and creative expression.
翻訳日:2024-06-06 22:37:23 公開日:2024-06-04
# 5G対応IoTのための自律型アダプティブセキュリティフレームワーク

Autonomous Adaptive Security Framework for 5G-Enabled IoT ( http://arxiv.org/abs/2406.03186v1 )

ライセンス: Link先を確認
Habtamu Abie, Sandeep Pirbhulal, (参考訳) IoTベースのクリティカルセクターでは、5Gはより高速な接続速度、レイテンシの低減、ダウンロードの高速化、ソフトウォーズや仮想化といった新しいダイナミクスの導入によるより多くのデバイス接続機能を提供する。 5G対応IoTネットワークは、これらのダイナミクスによるセキュリティ脅威に対するシステムの脆弱性を増大させる。 そのため、サイバー攻撃から保護するために、5G対応IoTアプリケーションのための適応型サイバーセキュリティソリューションを開発する必要がある。 このタスクは、セキュリティインテリジェンスの新たな適応戦略と関連するシナリオを定義し、5G-IoT特性の課題を満たす。 このタスクでは,5G対応IoTを動的かつ自律的に保護する,自律適応型セキュリティフレームワークも開発しました。 このフレームワークは、高度な分析のクローズドなフィードバックループに基づいて、5G対応IoTアプリケーションに対する進化的な脅威を監視し、分析し、適応する。

In IoT-based critical sectors, 5G can provide more rapid connection speeds, lower latency, faster downloads, and capability to connect more devices due to the introduction of new dynamics such as softwarization and virtualization. 5G-enabled IoT networks increase systems vulnerabilities to security threats due to these dynamics. Consequently, adaptive cybersecurity solutions need to be developed for 5G-enabled IoT applications to protect them against potential cyber-attacks. This task specifies new adaptive strategies of security intelligence with associated scenarios to meet the challenges of 5G-IoT characteristics. In this task we have also developed an autonomous adaptive security framework which can protect 5G-enabaled IoT dynamically and autonomously. The framework is based on a closed feedback loop of advanced analytics to monitor, analyse, and adapt to evolving threats to 5G-enanled IoT applications.
翻訳日:2024-06-06 18:30:28 公開日:2024-06-04
# 近似計算による混合精度オーバーザエアフェデレーション学習

Mixed-Precision Over-The-Air Federated Learning via Approximated Computing ( http://arxiv.org/abs/2406.03402v1 )

ライセンス: Link先を確認
Jinsheng Yuan, Zhuangkun Wei, Weisi Guo, (参考訳) OTA-FL(Over-the-Air Federated Learning)は,プライバシ保護型分散学習機構として広く研究されている。 現実的なシステムでは、FLクライアントのサイズ、重量、電力構成が多様になる。 既存のOTA-FL研究における重要な研究ギャップは、均質なクライアント計算ビット精度の仮定である。 実際、多くのクライアントは、ビット精度をエネルギーと計算効率に調整する近似計算(AxC)を利用することができる。 FLクライアント間のビット精度更新の動的分布は、無線変調重畳空間では互換性がないため、OTA-FLにとってオープンな課題となる。 本稿では,複数の精度のクライアントを対象としたAxCベースのOTA-FLフレームワークを提案する。 一 各種エッジコンピューティング能力及び学習精度要件の制約の中で、サーバとクライアントの量子化性能トレードオフを最適化し、 2) 物理層OTAアグリゲーションとの整合性を確保するため, 不均一勾配分解能OTA-FL変調法を開発した。 その結果,AxCをベースとしたOTA-FLを50倍高速かつスムーズなサーバコンバージェンスを実現し,一様精度のアプローチに比べて低精度クライアントの性能向上を図ることが可能であることが示唆された。 これは、異種エッジコンピューティング環境におけるAxCベースのOTA-FLアプローチの大きな可能性を示している。

Over-the-Air Federated Learning (OTA-FL) has been extensively investigated as a privacy-preserving distributed learning mechanism. Realistic systems will see FL clients with diverse size, weight, and power configurations. A critical research gap in existing OTA-FL research is the assumption of homogeneous client computational bit precision. Indeed, many clients may exploit approximate computing (AxC) where bit precisions are adjusted for energy and computational efficiency. The dynamic distribution of bit precision updates amongst FL clients poses an open challenge for OTA-FL, as is is incompatible in the wireless modulation superposition space. Here, we propose an AxC-based OTA-FL framework of clients with multiple precisions, demonstrating the following innovations: (i) optimize the quantization-performance trade-off for both server and clients within the constraints of varying edge computing capabilities and learning accuracy requirements, and (ii) develop heterogeneous gradient resolution OTA-FL modulation schemes to ensure compatibility with physical layer OTA aggregation. Our findings indicate that we can design modulation schemes that enable AxC based OTA-FL, which can achieve 50\% faster and smoother server convergence and a performance enhancement for the lowest precision clients compared to a homogeneous precision approach. This demonstrates the great potential of our AxC-based OTA-FL approach in heterogeneous edge computing environments.
翻訳日:2024-06-06 17:31:45 公開日:2024-06-04
# 構造に基づくドラッグデザインベンチマーク:3Dメソッドは本当に支配的か?

Structure-based Drug Design Benchmark: Do 3D Methods Really Dominate? ( http://arxiv.org/abs/2406.03403v1 )

ライセンス: Link先を確認
Kangyu Zheng, Yingzhou Lu, Zaixi Zhang, Zhongwei Wan, Yao Ma, Marinka Zitnik, Tianfan Fu, (参考訳) 現在、構造に基づく薬物設計の分野は、検索に基づくアルゴリズム、深層生成モデル、強化学習という3つの主要なアルゴリズムによって支配されている。 既存の研究は通常、1つのアルゴリズムカテゴリ内のモデルの比較に重点を置いているが、アルゴリズム間の比較は依然として少ない。 本稿では, このギャップを埋めるために, 生成分子とそのドッキング親和性の薬理特性を特定の標的タンパク質で評価することにより, これら異なるアルゴリズム基盤をまたいだ16種類のモデルの性能を評価するベンチマークを構築した。 各アルゴリズムアプローチの独特な利点を強調し、将来のSBDDモデルの設計を推奨します。 ドッキング機能をブラックボックスオラクルとして扱うことで,SBDDにおいて1D/2Dリガンド中心の薬物設計手法が利用可能であることを強調した。 実験の結果, 1D/2D法は標的タンパク質の3D構造を明示的に用いた3D法と比較して, 競合性能が向上した。 また、2D分子グラフに基づく遺伝的アルゴリズムであるAutoGrow4は最適化能力においてSBDDを支配している。 関連するコードはhttps://github.com/zkysfls/2024-sbdd-benchmarkで公開されている。

Currently, the field of structure-based drug design is dominated by three main types of algorithms: search-based algorithms, deep generative models, and reinforcement learning. While existing works have typically focused on comparing models within a single algorithmic category, cross-algorithm comparisons remain scarce. In this paper, to fill the gap, we establish a benchmark to evaluate the performance of sixteen models across these different algorithmic foundations by assessing the pharmaceutical properties of the generated molecules and their docking affinities with specified target proteins. We highlight the unique advantages of each algorithmic approach and offer recommendations for the design of future SBDD models. We emphasize that 1D/2D ligand-centric drug design methods can be used in SBDD by treating the docking function as a black-box oracle, which is typically neglected. The empirical results show that 1D/2D methods achieve competitive performance compared with 3D-based methods that use the 3D structure of the target protein explicitly. Also, AutoGrow4, a 2D molecular graph-based genetic algorithm, dominates SBDD in terms of optimization ability. The relevant code is available in https://github.com/zkysfls/2024-sbdd-benchmark.
翻訳日:2024-06-06 17:31:45 公開日:2024-06-04
# ST-DPGAN:時空間データ生成のためのプライバシー保護フレームワーク

ST-DPGAN: A Privacy-preserving Framework for Spatiotemporal Data Generation ( http://arxiv.org/abs/2406.03404v1 )

ライセンス: Link先を確認
Wei Shao, Rongyi Zhu, Cai Yang, Chandra Thapa, Muhammad Ejaz Ahmed, Seyit Camtepe, Rui Zhang, DuYong Kim, Hamid Menouar, Flora D. Salim, (参考訳) 時空間データは、個人通信や金融取引など、幅広いエッジデバイスで広く使われている。 近年の進歩により、時空間分析と大規模言語モデルの統合への関心が高まっている。 しかし、時空間データにはセンシティブな情報が含まれており、オープンなサードパーティアクセスには適さない。 この課題に対処するために、プライバシー保護された時空間データを生成するグラフGANモデルを提案する。 本手法は, 判別器における空間的, 時間的注意ブロックと, ジェネレータにおける時空間デコンボリューション構造を取り入れたものである。 これらの強化により、ガウスノイズ下での効率的なトレーニングにより、差分プライバシーを実現することができる。 3つの実世界の時空間データセットで実施した大規模な実験により,本モデルの有効性が検証された。 データユーティリティを維持しながらプライバシを保証します。 生成したデータに基づいてトレーニングされた予測モデルは、元のデータでトレーニングされたモデルと比較して、競争性能を保っている。

Spatiotemporal data is prevalent in a wide range of edge devices, such as those used in personal communication and financial transactions. Recent advancements have sparked a growing interest in integrating spatiotemporal analysis with large-scale language models. However, spatiotemporal data often contains sensitive information, making it unsuitable for open third-party access. To address this challenge, we propose a Graph-GAN-based model for generating privacy-protected spatiotemporal data. Our approach incorporates spatial and temporal attention blocks in the discriminator and a spatiotemporal deconvolution structure in the generator. These enhancements enable efficient training under Gaussian noise to achieve differential privacy. Extensive experiments conducted on three real-world spatiotemporal datasets validate the efficacy of our model. Our method provides a privacy guarantee while maintaining the data utility. The prediction model trained on our generated data maintains a competitive performance compared to the model trained on the original data.
翻訳日:2024-06-06 17:31:45 公開日:2024-06-04
# 視覚バイアス軽減のためのてんかん性不確かさ重み付き損失

Epistemic Uncertainty-Weighted Loss for Visual Bias Mitigation ( http://arxiv.org/abs/2204.09389v2 )

ライセンス: Link先を確認
Rebecca S Stone, Nishant Ravikumar, Andrew J Bulpitt, David C Hogg, (参考訳) ディープニューラルネットワークは、視覚データにおけるバイアスの学習に非常に影響を受けやすい。 このようなバイアスを軽減するために様々な方法が提案されているが、大多数はトレーニングデータに存在するバイアスの明確な知識を必要としている。 偏見の有無を全く知らないが、特定・緩和できる手法の探求の妥当性を論じる。 さらに,予測不確実性重み付き損失関数を持つベイズニューラルネットワークを用いて,個々のトレーニングサンプルの潜在的なバイアスを動的に同定し,トレーニング中に重み付けする手法を提案する。 以上の結果から, バイアスを受ける試料と, 高いてんかん不確実性との間には正の相関が認められた。 最後に、この手法は、バイアスベンチマークデータセットや実世界の顔検出問題において視覚バイアスを緩和する可能性を示し、我々のアプローチの利点と弱点について考察する。

Deep neural networks are highly susceptible to learning biases in visual data. While various methods have been proposed to mitigate such bias, the majority require explicit knowledge of the biases present in the training data in order to mitigate. We argue the relevance of exploring methods which are completely ignorant of the presence of any bias, but are capable of identifying and mitigating them. Furthermore, we propose using Bayesian neural networks with a predictive uncertainty-weighted loss function to dynamically identify potential bias in individual training samples and to weight them during training. We find a positive correlation between samples subject to bias and higher epistemic uncertainties. Finally, we show the method has potential to mitigate visual bias on a bias benchmark dataset and on a real-world face detection problem, and we consider the merits and weaknesses of our approach.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# TreePIR: 高速インデックス化とゼロストレージオーバヘッドを用いたツリーカラー化によるメルクルプロフの効率的なプライベート検索

TreePIR: Efficient Private Retrieval of Merkle Proofs via Tree Colorings with Fast Indexing and Zero Storage Overhead ( http://arxiv.org/abs/2205.05211v5 )

ライセンス: Link先を確認
Son Hoang Dau, Quang Cao, Rinaldo Gagiano, Duy Huynh, Xun Yi, Phuc Lu Le, Quang-Hung Luu, Emanuele Viterbo, Yu-Chih Huang, Jingge Zhu, Mohammad M. Jalalzai, Chen Feng, (参考訳) Batch Private Information Retrieval (batch-PIR)スキームにより、クライアントはデータベースから複数のデータアイテムを格納サーバに公開することなく取得することができる。 バッチPIRの既存のアプローチのほとんどはバッチコード、特に大きなストレージオーバーヘッドを引き起こす確率的バッチコード(PBC)(Angel et al S&P'18)に基づいている。 本研究では,木形データベースのストレージオーバーヘッドが達成可能であることを示す。 特に,記憶冗長性のないメルクルツリーにおいて,任意のルート・ツー・リーフ経路に沿ってノードの集合をプライベートに検索する手法であるTreePIRを開発した。 この種のツリーは、Amazon DynamoDB、GoogleのCertificate Transparency、ブロックチェーンなど、多くの現実世界のシステムで広く実装されている。 ルート・ツー・リーフ・パスに沿ったツリーノードは、よく知られたメルクル証明を形成する。 ツリーカラーを採用したTreePIRは、最先端のバッチ-PIRスキーム(Angel et al S&P'18, Mughees-Ren S&P'23, Liu et al S&P'24)の基本コンポーネントであるPBCを、すべてのメトリクスで上回り、総ストレージが3ドル、通信コストが1.5ドル=2ドルである。 もっとも注目すべきは、TreePIR のセットアップ時間は 8 ドルから 160 ドルで、そのポリログ-複雑度インデックスアルゴリズムは、$2^{10}$-2^{24}$の木の PBC よりも高速である。

A Batch Private Information Retrieval (batch-PIR) scheme allows a client to retrieve multiple data items from a database without revealing them to the storage server(s). Most existing approaches for batch-PIR are based on batch codes, in particular, probabilistic batch codes (PBC) (Angel et al. S&P'18), which incur large storage overheads. In this work, we show that \textit{zero} storage overhead is achievable for tree-shaped databases. In particular, we develop TreePIR, a novel approach tailored made for private retrieval of the set of nodes along an arbitrary root-to-leaf path in a Merkle tree with no storage redundancy. This type of trees has been widely implemented in many real-world systems such as Amazon DynamoDB, Google's Certificate Transparency, and blockchains. Tree nodes along a root-to-leaf path forms the well-known Merkle proof. TreePIR, which employs a novel tree coloring, outperforms PBC, a fundamental component in state-of-the-art batch-PIR schemes (Angel et al. S&P'18, Mughees-Ren S&P'23, Liu et al. S&P'24), in all metrics, achieving $3\times$ lower total storage and $1.5$-$2\times$ lower computation and communication costs. Most notably, TreePIR has $8$-$160\times$ lower setup time and its polylog-complexity indexing algorithm is $19$-$160\times$ faster than PBC for trees of $2^{10}$-$2^{24}$ leaves.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# セキュアな同型解析のための検証可能なエンコーディング

Verifiable Encodings for Secure Homomorphic Analytics ( http://arxiv.org/abs/2207.14071v4 )

ライセンス: Link先を確認
Sylvain Chatel, Christian Knabenhans, Apostolos Pyrgelis, Carmela Troncoso, Jean-Pierre Hubaux, (参考訳) 暗号文上での算術演算の直接実行を可能にする同型暗号化は、機密データ上でのクラウドデリゲート計算のプライバシを保護するための有望なソリューションである。 しかし、計算結果の正確性は保証されない。 本稿では,異なるトレードオフの下で,暗号化アルゴリズムの特徴を損なうことなく,クラウドベースの同型計算の実用的なクライアント検証を可能にする2つの誤り検出符号化とビルド認証手法を提案する。 我々の認証装置は、整数上の完全同型暗号スキームに基づいて、トレンドリング学習を演算する。 我々は,暗号化されたデータ上で実行されたアウトソース計算の検証システムであるVERITASにソリューションを実装した。 従来の作業とは対照的に、VERITASは任意のホモモルフィック動作の検証をサポートしており、ライドシェアリング、ゲノムデータ分析、暗号化検索、機械学習のトレーニングと推論など、様々な応用にその実用性を実証している。

Homomorphic encryption, which enables the execution of arithmetic operations directly on ciphertexts, is a promising solution for protecting privacy of cloud-delegated computations on sensitive data. However, the correctness of the computation result is not ensured. We propose two error detection encodings and build authenticators that enable practical client-verification of cloud-based homomorphic computations under different trade-offs and without compromising on the features of the encryption algorithm. Our authenticators operate on top of trending ring learning with errors based fully homomorphic encryption schemes over the integers. We implement our solution in VERITAS, a ready-to-use system for verification of outsourced computations executed over encrypted data. We show that contrary to prior work VERITAS supports verification of any homomorphic operation and we demonstrate its practicality for various applications, such as ride-hailing, genomic-data analysis, encrypted search, and machine-learning training and inference.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 固有値推定に応用した制御ゲートネットワーク

Controlled Gate Networks Applied to Eigenvalue Estimation ( http://arxiv.org/abs/2208.13557v3 )

ライセンス: Link先を確認
Max Bee-Lindgren, Zhengrong Qian, Matthew DeCross, Natalie C. Brown, Christopher N. Gilbreth, Jacob Watkins, Xilin Zhang, Dean Lee, (参考訳) 制御ゲートネットワークと呼ばれる量子回路設計の新しい手法を提案する。 新しい戦略は、個々のユニタリ操作の複雑さを減らすのではなく、最も少ない数のゲートで必要なユニタリ操作を切り替えることである。 このアプローチを2つの例を使って説明します。 最初の例は、2量子系の変分部分空間計算である。 内積とハミルトニアン行列要素の計算に必要な2量子ゲートの数を約5倍に削減することを示した。 第二の例は、制御反転ゲートと呼ばれる制御ゲートネットワークの特定のクラスを用いて、ロデオアルゴリズムを介して2量子ハミルトニアンの固有値を推定するものである。 また、2量子ゲート数の5倍の減少が示される。 我々は量子回路を実現するために、量子H1-2とIBM Perthデバイスを使用する。 我々の研究は、制御ゲートネットワークが量子多体問題に対する量子アルゴリズムのゲート複雑性を低減するのに有用なツールであることを実証している。

We introduce a new scheme for quantum circuit design called controlled gate networks. Rather than trying to reduce the complexity of individual unitary operations, the new strategy is to toggle between all of the unitary operations needed with the fewest number of gates. We illustrate our approach using two examples. The first example is a variational subspace calculation for a two-qubit system. We demonstrate an approximately five-fold reduction in the number of two-qubit gates required for computing inner products and Hamiltonian matrix elements. The second example is estimating the eigenvalues of a two-qubit Hamiltonian via the Rodeo Algorithm using a specific class of controlled gate networks called controlled reversal gates. Again, a fivefold reduction in the number of two-qubit gates is demonstrated. We use the Quantinuum H1-2 and IBM Perth devices to realize the quantum circuits. Our work demonstrates that controlled gate networks are a useful tool for reducing gate complexity in quantum algorithms for quantum many-body problems.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 分散差分符号選択のための多数投票

Majority Vote for Distributed Differentially Private Sign Selection ( http://arxiv.org/abs/2209.04419v2 )

ライセンス: Link先を確認
Weidong Liu, Jiyuan Tu, Xiaojun Mao, Xi Chen, (参考訳) 近年、プライバシー保護データ分析が普及している。 本研究では,分散環境での符号選択問題に対して,分散グループに差分プライベートな多数決投票機構を提案する。 これを実現するために,安定度関数に反復剥離を適用し,指数的機構を用いて標識を復元する。 適用性を向上させるために,分散システムにおける平均推定および線形回帰問題に対するプライベートサインの選択について検討する。 提案手法は,従来のプライベート変数選択法よりも優れた非プライベートシナリオのように,最適な信号対雑音比を持つサポートとサインを復元する。 さらに、符号選択整合性は理論的な保証によって正当化される。 提案手法の有効性を実証するためにシミュレーション研究を行った。

Privacy-preserving data analysis has become more prevalent in recent years. In this study, we propose a distributed group differentially private Majority Vote mechanism, for the sign selection problem in a distributed setup. To achieve this, we apply the iterative peeling to the stability function and use the exponential mechanism to recover the signs. For enhanced applicability, we study the private sign selection for mean estimation and linear regression problems, in distributed systems. Our method recovers the support and signs with the optimal signal-to-noise ratio as in the non-private scenario, which is better than contemporary works of private variable selections. Moreover, the sign selection consistency is justified by theoretical guarantees. Simulation studies are conducted to demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 双曲多様体上のGPLVMを介して連続領域に運動分類学をもたらす

Bringing motion taxonomies to continuous domains via GPLVM on hyperbolic manifolds ( http://arxiv.org/abs/2210.01672v4 )

ライセンス: Link先を確認
Noémie Jaquier, Leonel Rozo, Miguel González-Duque, Viacheslav Borovitskiy, Tamim Asfour, (参考訳) 人間の運動分類学は、人間がどのように動いたり環境と相互作用するかを分類する高レベルの階層的抽象化として機能する。 把握、操作のスキル、全身的支援のポーズを分析するのに有用であることが証明されている。 階層と下位のカテゴリの設計に多大な努力を払っているにも関わらず、その使用は限られている。 これは、分類学の離散的階層構造と、そのカテゴリに関連する高次元の不均一なデータの間のギャップを埋める計算モデルが欠如していることに起因する可能性がある。 この問題を克服するために,我々は,関連する階層構造を捉えるハイパーボリック埋め込みを用いて分類データをモデル化することを提案する。 我々は、グラフに基づく潜在空間と距離保存制約による分類構造を組み込んだ新しいガウス過程双曲潜在変数モデルを定式化し、これを達成した。 我々は3つの異なるヒトの運動分類学のモデルの有効性を検証し、元のグラフ構造を忠実に保存する双曲的埋め込みを学習する。 本モデルでは,既存の分類群や新分類群の未確認データを適切にエンコードし,EuclideanおよびVAEベースの分類群よりも優れていることを示す。 最後に,概念実証実験を通じて,本モデルを用いて学習した埋め込み間の現実的な軌跡を生成できることを示す。

Human motion taxonomies serve as high-level hierarchical abstractions that classify how humans move and interact with their environment. They have proven useful to analyse grasps, manipulation skills, and whole-body support poses. Despite substantial efforts devoted to design their hierarchy and underlying categories, their use remains limited. This may be attributed to the lack of computational models that fill the gap between the discrete hierarchical structure of the taxonomy and the high-dimensional heterogeneous data associated to its categories. To overcome this problem, we propose to model taxonomy data via hyperbolic embeddings that capture the associated hierarchical structure. We achieve this by formulating a novel Gaussian process hyperbolic latent variable model that incorporates the taxonomy structure through graph-based priors on the latent space and distance-preserving back constraints. We validate our model on three different human motion taxonomies to learn hyperbolic embeddings that faithfully preserve the original graph structure. We show that our model properly encodes unseen data from existing or new taxonomy categories, and outperforms its Euclidean and VAE-based counterparts. Finally, through proof-of-concept experiments, we show that our model may be used to generate realistic trajectories between the learned embeddings.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 誤りのない仮想Zゲートモデルを用いたゲートセットトモグラフィーを用いたキューディット論理ゲートの効率的なキャラクタリゼーション

Efficient characterization of qudit logical gates with gate set tomography using an error-free Virtual-Z-gate model ( http://arxiv.org/abs/2210.04857v3 )

ライセンス: Link先を確認
Shuxiang Cao, Deep Lall, Mustafa Bakr, Giulio Campanaro, Simone Fasciati, James Wills, Vivek Chidambaram, Boris Shteynas, Ivan Rungger, Peter Leek, (参考訳) ゲートセットトモグラフィ(GST)は、量子論理ゲートのプロセス行列と、量子プロセッサにおける測定および状態準備エラーを特徴付ける。 GSTは通常、モデル推定のために広範なデータ収集と重要な計算資源を必要とする。 仮想Zゲートが誤りのないと仮定しながら、ファデュアルを構築するためにqudit Hadamard と Virtual Z gate を用いたより効率的な GST アプローチを提案する。 提案手法は,評価結果の計算コストを削減し,GSTの大規模化を図る。 超伝導トランスモンクォートへのこのアプローチの適用性を実験的に実証した。

Gate-set tomography (GST) characterizes the process matrix of quantum logic gates, along with measurement and state preparation errors in quantum processors. GST typically requires extensive data collection and significant computational resources for model estimation. We propose a more efficient GST approach for qudits, utilizing the qudit Hadamard and virtual Z gates to construct fiducials while assuming virtual Z gates are error-free. Our method reduces the computational costs of estimating characterization results, making GST more practical at scale. We experimentally demonstrate the applicability of this approach on a superconducting transmon qutrit.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# シーンテキスト検出のための集約テキスト変換器

Aggregated Text Transformer for Scene Text Detection ( http://arxiv.org/abs/2211.13984v2 )

ライセンス: Link先を確認
Zhao Zhou, Xiangcheng Du, Yingbin Zheng, Cheng Jin, (参考訳) 本稿では,自然画像におけるシーンテキスト検出のためのマルチスケールアグリゲーション戦略について検討する。 本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。 画像ピラミッドから複数の解像度で始めると、特徴はまず共有重量で異なるスケールで抽出され、次にTransformerのエンコーダ・デコーダアーキテクチャに入力される。 マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。 テキストトランスフォーマーはこれらの機能を集約して、さまざまなスケールにわたるインタラクションを学び、テキスト表現を改善する。 提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。 公開シーンのテキスト検出データセットに対する大規模な実験により,提案手法の有効性が示された。

This paper explores the multi-scale aggregation strategy for scene text detection in natural images. We present the Aggregated Text TRansformer(ATTR), which is designed to represent texts in scene images with a multi-scale self-attention mechanism. Starting from the image pyramid with multiple resolutions, the features are first extracted at different scales with shared weight and then fed into an encoder-decoder architecture of Transformer. The multi-scale image representations are robust and contain rich information on text contents of various sizes. The text Transformer aggregates these features to learn the interaction across different scales and improve text representation. The proposed method detects scene texts by representing each text instance as an individual binary mask, which is tolerant of curve texts and regions with dense instances. Extensive experiments on public scene text detection datasets demonstrate the effectiveness of the proposed framework.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# ダイソン級数を用いた時間依存微分方程式の量子アルゴリズム

Quantum algorithm for time-dependent differential equations using Dyson series ( http://arxiv.org/abs/2212.03544v2 )

ライセンス: Link先を確認
Dominic W. Berry, Pedro C. S. Costa, (参考訳) 時間依存線形微分方程式は、古典物理学において解く必要がある一般的なタイプの問題である。 ここでは、誤差と微分に複雑性の対数依存を持つ時間依存線形微分方程式を解くための量子アルゴリズムを提案する。 通常のように、次元との複雑性のスケーリングにおける古典的アプローチよりも指数関数的な改善があり、その解が量子状態の振幅で符号化されていることに注意が必要である。 我々の方法は、線形方程式系のダイソン級数を符号化し、最適量子線型方程式解法によって解くことである。 また,時間非依存微分方程式の場合の簡便なアプローチも提案する。

Time-dependent linear differential equations are a common type of problem that needs to be solved in classical physics. Here we provide a quantum algorithm for solving time-dependent linear differential equations with logarithmic dependence of the complexity on the error and derivative. As usual, there is an exponential improvement over classical approaches in the scaling of the complexity with the dimension, with the caveat that the solution is encoded in the amplitudes of a quantum state. Our method is to encode the Dyson series in a system of linear equations, then solve via the optimal quantum linear equation solver. Our method also provides a simplified approach in the case of time-independent differential equations.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 正規化圧縮二重因子化による化学の量子計算の高速化

Accelerating Quantum Computations of Chemistry Through Regularized Compressed Double Factorization ( http://arxiv.org/abs/2212.07957v3 )

ライセンス: Link先を確認
Oumarou Oumarou, Maximilian Scheurer, Robert M. Parrish, Edward G. Hohenstein, Christian Gogolin, (参考訳) そこで本研究では,分子ハミルトニアンの圧縮表現を古典的に計算し,ノイズのある中間スケール(NISQ)と誤り訂正量子アルゴリズムによる効率的なシミュレーションを実現するために,RC-DF法を提案する。 すでに12から20キュービットの小型システムでは、NISQ測定方式により、測定ベースを約3倍に減らし、ショットカウントを3倍から6倍の精度で行うことができる。 我々は、58の軌道でシトクロムP450のCpdI種に対してRC-DFを実行することによって、我々のアプローチのスケーラビリティを実証し、得られた圧縮ハミルトンを用いて、量子化のランタイムを削減し、DFベースの誤り訂正アルゴリズムをほぼ半分にし、同時に、CCSD(T)エネルギーエラーを桁違いに減少させながら、テンソルハイパーコントラクション(THC)で達成可能なラムダパラメータを上回ります。

We propose the regularized compressed double factorization (RC-DF) method to classically compute compressed representations of molecular Hamiltonians that enable efficient simulation with noisy intermediate scale (NISQ) and error corrected quantum algorithms. We find that already for small systems with 12 to 20 qubits, the resulting NISQ measurement scheme reduces the number of measurement bases by roughly a factor of three and the shot count to reach chemical accuracy by a factor of three to six compared to truncated double factorization (DF) and we see order of magnitude improvements over Pauli grouping schemes. We demonstrate the scalability of our approach by performing RC-DF on the CpdI species of cytochrome P450 with 58 orbitals and find that using the resulting compressed Hamiltonian cuts the run time of qubitization and truncated DF based error corrected algorithms almost in half and even outperforms the lambda parameters achievable with tensor hypercontraction (THC) while at the same time reducing the CCSD(T) energy error heuristic by an order of magnitude.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 混合データ拡張に関する調査研究:分類学,方法,応用,説明可能性

A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability ( http://arxiv.org/abs/2212.10888v2 )

ライセンス: Link先を確認
Chengtai Cao, Fan Zhou, Yurou Dai, Jianping Wang, Kunpeng Zhang, (参考訳) データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。 DAの基本的な考え方は、既存のデータのわずかに乱れたバージョンを追加したり、新しいデータを合成することによって、モデルの一般化を改善するために、新しいトレーニングデータを構築することである。 この調査は、MixDA(Mix-based Data Augmentation)と呼ばれるDA技術の重要なサブセットを包括的にレビューし、複数のサンプルを組み合わせて新しいサンプルを生成する。 単一のサンプルやデータセット全体を運用する従来のDAアプローチとは対照的に、MixDAはその有効性、単純性、柔軟性、計算効率、理論的基礎、幅広い適用性のために際立っている。 まず、データ混合操作の階層的視点に基づいて、MixDAをMixupベース、Cutmixベース、および混合アプローチに分類する新しい分類法を導入する。 その後、さまざまなMixDAテクニックの詳細なレビューを行い、その基盤となるモチベーションに注目します。 汎用性のため、MixDAは幅広いアプリケーションに浸透しており、この調査でも徹底的に調査しています。 さらに,MixDAのモデル一般化とキャリブレーションへの影響を検証し,MixDA固有の特性を解析してモデル挙動の洞察を与えることにより,MixDAの有効性の基盤となるメカニズムを探求する。 最後に、今後の研究の方向性を概説しながら、現在のMixDA研究における批判的な発見と根本的な課題を再カプセル化する。 特定の分野(例えばCV,NLP)におけるDAアプローチに焦点をあてた以前の調査と異なり,MixDA研究の限られたサブセットのみをレビューし,その分類,方法論,応用,説明可能性について,MixDAの体系的な調査を行ったのは今回が初めてである。 さらに、このエキサイティングな領域に関心のある研究者に、有望な方向性を提供する。

Data augmentation (DA) is indispensable in modern machine learning and deep neural networks. The basic idea of DA is to construct new training data to improve the model's generalization by adding slightly disturbed versions of existing data or synthesizing new data. This survey comprehensively reviews a crucial subset of DA techniques, namely Mix-based Data Augmentation (MixDA), which generates novel samples by combining multiple examples. In contrast to traditional DA approaches that operate on single samples or entire datasets, MixDA stands out due to its effectiveness, simplicity, flexibility, computational efficiency, theoretical foundation, and broad applicability. We begin by introducing a novel taxonomy that categorizes MixDA into Mixup-based, Cutmix-based, and mixture approaches based on a hierarchical perspective of the data mixing operation. Subsequently, we provide an in-depth review of various MixDA techniques, focusing on their underlying motivations. Owing to its versatility, MixDA has penetrated a wide range of applications, which we also thoroughly investigate in this survey. Moreover, we delve into the underlying mechanisms of MixDA's effectiveness by examining its impact on model generalization and calibration while providing insights into the model's behavior by analyzing the inherent properties of MixDA. Finally, we recapitulate the critical findings and fundamental challenges of current MixDA studies while outlining the potential directions for future works. Different from previous related surveys that focus on DA approaches in specific domains (e.g., CV and NLP) or only review a limited subset of MixDA studies, we are the first to provide a systematical survey of MixDA, covering its taxonomy, methodology, application, and explainability. Furthermore, we provide promising directions for researchers interested in this exciting area.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-04
# 圧縮更新による時間差学習:Error-Feedbackによる強化学習

Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning ( http://arxiv.org/abs/2301.00944v3 )

ライセンス: Link先を確認
Aritra Mitra, George J. Pappas, Hamed Hassani, (参考訳) 大規模分散機械学習において、近年の研究は、通信ボトルネックを軽減するための確率的最適化における勾配の圧縮の効果について研究している。 これらの研究により、確率勾配降下(SGD)は量子化、スパーシフィケーション、遅延などの構造的摂動に対して頑健であることが判明した。 おそらく意外なことに、マルチエージェント強化学習への関心が高まっているにもかかわらず、類似した質問についてはほとんど何も知られていない。 本稿では,従来の時間差(TD)学習アルゴリズムの変種を摂動更新方向で解析し,一般的な圧縮演算子を用いて摂動をモデル化する手法を提案する。 私たちの仕事は3つの重要な技術貢献をする。 まず、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、SGDアルゴリズムと同じ非漸近的理論的保証を示すことを示す。 第2に、我々の分析フレームワークは、Q-ラーニングを仮定する非線形確率近似スキームにシームレスに拡張することを示す。 第三に、マルチエージェントのTD学習では、反復毎に$\tilde{O}(1)$ bitsと通信しながら、エージェント数に関して線形収束速度を達成できることが証明される。 特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。 我々の証明は、エラーフィードバックによって導入されたメモリ変数のダイナミクスを捉える新しいリアプノフ関数の構築に関するものである。

In large-scale distributed machine learning, recent works have studied the effects of compressing gradients in stochastic optimization to alleviate the communication bottleneck. These works have collectively revealed that stochastic gradient descent (SGD) is robust to structured perturbations such as quantization, sparsification, and delays. Perhaps surprisingly, despite the surge of interest in multi-agent reinforcement learning, almost nothing is known about the analogous question: Are common reinforcement learning (RL) algorithms also robust to similar perturbations? We investigate this question by studying a variant of the classical temporal difference (TD) learning algorithm with a perturbed update direction, where a general compression operator is used to model the perturbation. Our work makes three important technical contributions. First, we prove that compressed TD algorithms, coupled with an error-feedback mechanism used widely in optimization, exhibit the same non-asymptotic theoretical guarantees as their SGD counterparts. Second, we show that our analysis framework extends seamlessly to nonlinear stochastic approximation schemes that subsume Q-learning. Third, we prove that for multi-agent TD learning, one can achieve linear convergence speedups with respect to the number of agents while communicating just $\tilde{O}(1)$ bits per iteration. Notably, these are the first finite-time results in RL that account for general compression operators and error-feedback in tandem with linear function approximation and Markovian sampling. Our proofs hinge on the construction of novel Lyapunov functions that capture the dynamics of a memory variable introduced by error-feedback.
翻訳日:2024-06-06 14:46:08 公開日:2024-06-04
# リンク予測を補完したニューラルコモン近隣

Neural Common Neighbor with Completion for Link Prediction ( http://arxiv.org/abs/2302.00890v4 )

ライセンス: Link先を確認
Xiyuan Wang, Haotong Yang, Muhan Zhang, (参考訳) 本研究では,新しいリンク予測モデルを提案し,グラフの不完全性の研究によりさらに促進する。 まず、構造的特徴(SF)を活用する革新的なアーキテクチャであるMPNN-then-SFを紹介し、MPNNの表現プールを誘導する。 NCNは既存のモデルと比較して優れた表現性とスケーラビリティを示しており、SF-then-MPNN、SF-and-MPNN、SFとMPNNを分離するSF-and-MPNNの2つのカテゴリに分類される。 第二に、グラフの不完全性(いくつかのリンクが入力グラフで観測されていない現象)が、一般的な隣人のようにSFに与える影響について検討する。 データセットの可視化により、不完全性は一般的な隣り合いを減らし、分布シフトを誘導し、モデルの性能に著しく影響を及ぼす。 この問題に対処するために、リンク予測モデルを用いて、一般的な隣り合う構造を完成させる手法を提案する。 この手法とNCNを組み合わせることで、NCNC(Neural Common Neighbor with Completion)を提案する。 NCNとNCNCは最近の強力なベースラインを大きなマージンで上回り、NCNCは標準リンク予測ベンチマークの最先端モデルをさらに上回っている。 私たちのコードはhttps://github.com/GraphPKU/NeuralCommonNeighbor.orgから入手可能です。

In this work, we propose a novel link prediction model and further boost it by studying graph incompleteness. First, we introduce MPNN-then-SF, an innovative architecture leveraging structural feature (SF) to guide MPNN's representation pooling, with its implementation, namely Neural Common Neighbor (NCN). NCN exhibits superior expressiveness and scalability compared with existing models, which can be classified into two categories: SF-then-MPNN, augmenting MPNN's input with SF, and SF-and-MPNN, decoupling SF and MPNN. Second, we investigate the impact of graph incompleteness -- the phenomenon that some links are unobserved in the input graph -- on SF, like the common neighbor. Through dataset visualization, we observe that incompleteness reduces common neighbors and induces distribution shifts, significantly affecting model performance. To address this issue, we propose to use a link prediction model to complete the common neighbor structure. Combining this method with NCN, we propose Neural Common Neighbor with Completion (NCNC). NCN and NCNC outperform recent strong baselines by large margins, and NCNC further surpasses state-of-the-art models in standard link prediction benchmarks. Our code is available at https://github.com/GraphPKU/NeuralCommonNeighbor.
翻訳日:2024-06-06 14:46:08 公開日:2024-06-04
# 強化学習のための学習

Learning to Optimize for Reinforcement Learning ( http://arxiv.org/abs/2302.01470v3 )

ライセンス: Link先を確認
Qingfeng Lan, A. Rupam Mahmood, Shuicheng Yan, Zhongwen Xu, (参考訳) 近年、多くのデータ、計算、多様なタスクを活用することで、学習オプティマイザは教師付き学習において大きな成功を収め、古典的な手設計オプティマイザよりも優れています。 強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際には、これらの学習最適化は単純なRLタスクでもうまく機能しない。 この現象を調査し、2つの問題を同定する。 第一に、エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。 さらに,高い確率的エージェント環境相互作用により,エージェント・グラディエントは高いバイアスと分散を有し,RLの最適化学習の難しさを増大させる。 そこで我々は,これらの問題に対処するために,パイプライントレーニングと優れた帰納バイアスを持つ新しいオプティマイザ構造を提案し,そこから強化学習のためのオプティマイザを学習できるようにする。 私たちは、おもちゃのタスクでしか訓練されていないが、学習したオプティマイザがブラックスの複雑なタスクに一般化できることを示します。

In recent years, by leveraging more data, computation, and diverse tasks, learned optimizers have achieved remarkable success in supervised learning, outperforming classical hand-designed optimizers. Reinforcement learning (RL) is essentially different from supervised learning, and in practice, these learned optimizers do not work well even in simple RL tasks. We investigate this phenomenon and identify two issues. First, the agent-gradient distribution is non-independent and identically distributed, leading to inefficient meta-training. Moreover, due to highly stochastic agent-environment interactions, the agent-gradients have high bias and variance, which increases the difficulty of learning an optimizer for RL. We propose pipeline training and a novel optimizer structure with a good inductive bias to address these issues, making it possible to learn an optimizer for reinforcement learning from scratch. We show that, although only trained in toy tasks, our learned optimizer can generalize to unseen complex tasks in Brax.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# 等価トレーニングダイナミクスの同定

Identifying Equivalent Training Dynamics ( http://arxiv.org/abs/2302.09160v2 )

ライセンス: Link先を確認
William T. Redman, Juan M. Bello-Rivas, Maria Fonoberova, Ryan Mohr, Ioannis G. Kevrekidis, Igor Mezić, (参考訳) トレーニング中に行われる非線形進化深部ニューラルネットワーク(DNN)パラメータの研究により、異なる動的挙動の機構が明らかになった。 これらの現象の詳細な理解は、訓練効率とロバスト性の改善をもたらす可能性があるが、DNNモデルが等価な力学を持つときの識別方法の欠如は、事前の作業から得られる洞察を制限している。 トポロジカル共役(トポロジカル共役、トポロジカル共役、トポロジカル共役、トポロジカル共役、英: Topological conjugacy)は、力学系理論の概念であり、このニーズに対処するためのルートを提供する。 しかし、トポロジカル共役は歴史的に計算が困難であった。 クープマン作用素理論の進歩を活用することで、共役および非共役の訓練力学を同定する枠組みを開発する。 提案手法の有効性を検証するため,オンラインミラー降下とオンライン勾配降下の等価性を正確に同定できることを実証した。 次に、浅いニューラルネットワークと広く接続されたニューラルネットワーク間の非共役トレーニングダイナミクスを識別し、畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期フェーズを特徴付け、グラッキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスを明らかにする。 私たちの成果は、さまざまなDNNアーキテクチャにわたって、フレームワークの柔軟性を説明し、トレーニングダイナミクスに新たな光を放つ可能性を強調しています。

Study of the nonlinear evolution deep neural network (DNN) parameters undergo during training has uncovered regimes of distinct dynamical behavior. While a detailed understanding of these phenomena has the potential to advance improvements in training efficiency and robustness, the lack of methods for identifying when DNN models have equivalent dynamics limits the insight that can be gained from prior work. Topological conjugacy, a notion from dynamical systems theory, provides a precise definition of dynamical equivalence, offering a possible route to address this need. However, topological conjugacies have historically been challenging to compute. By leveraging advances in Koopman operator theory, we develop a framework for identifying conjugate and non-conjugate training dynamics. To validate our approach, we demonstrate that it can correctly identify a known equivalence between online mirror descent and online gradient descent. We then utilize it to: identify non-conjugate training dynamics between shallow and wide fully connected neural networks; characterize the early phase of training dynamics in convolutional neural networks; uncover non-conjugate training dynamics in Transformers that do and do not undergo grokking. Our results, across a range of DNN architectures, illustrate the flexibility of our framework and highlight its potential for shedding new light on training dynamics.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# タブラルデータに対する変換器による多層アテンションに基づく説明可能性

Multi-Layer Attention-Based Explainability via Transformers for Tabular Data ( http://arxiv.org/abs/2302.14278v2 )

ライセンス: Link先を確認
Andrea Treviño Gavito, Diego Klabjan, Jean Utke, (参考訳) グラフ指向の注意に基づく表データの説明可能性法を提案する。 表形式のデータを含むタスクは、主に、機能選択とエンジニアリングの課題を持つ伝統的なツリーベースの機械学習モデルを使用して解決されている。 そこで本稿では,表型データのためのトランスフォーマーアーキテクチャについて考察し,自己認識機構を活用して,すべての頭部・層全体の注意行列を考慮し,説明を提供する新しい手法を提案する。 行列はグラフ構造にマッピングされ、特徴の群はノードに対応し、注意値はアークに対応する。 グラフ内の最大確率パスを見つけることにより、モデルの予測を説明するために、より大きなコントリビューションを提供する特徴群を同定する。 多層アテンションに基づく説明の質を評価するために、一般的なアテンション、勾配、摂動に基づく説明可能性法と比較する。

We propose a graph-oriented attention-based explainability method for tabular data. Tasks involving tabular data have been solved mostly using traditional tree-based machine learning models which have the challenges of feature selection and engineering. With that in mind, we consider a transformer architecture for tabular data, which is amenable to explainability, and present a novel way to leverage self-attention mechanism to provide explanations by taking into account the attention matrices of all heads and layers as a whole. The matrices are mapped to a graph structure where groups of features correspond to nodes and attention values to arcs. By finding the maximum probability paths in the graph, we identify groups of features providing larger contributions to explain the model's predictions. To assess the quality of multi-layer attention-based explanations, we compare them with popular attention-, gradient-, and perturbation-based explanability methods.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# テレポーテーションと高密度符号化の二重性について

On the Duality of Teleportation and Dense Coding ( http://arxiv.org/abs/2302.14798v2 )

ライセンス: Link先を確認
Eric Chitambar, Felix Leditzky, (参考訳) 量子テレポーテーション(quantum teleportation)は、量子通信プリミティブである。 しかし、確立されたチャネルの質は、事前に隠された絡み合いの質に大きく依存する。 本研究は,遠隔搬送作業にノイズアンタングルを用いることの問題点を再考する。 まず、この問題を州差別問題として言い換える方法について述べる。 本稿では,各Alice-to-BobテレポーテーションプロトコルをBob-to-Alice高密度符号化プロトコルとして再利用し,各プロトコルの品質を同一状態判別問題における成功確率で測定できるような,テレポーテーションと高密度符号化の定量的双対性を示す。 我々の主な成果の1つは、古典的状態に対する一方的なテレポーテーションプロトコルの利点を全く与えない状態の完全な特徴づけを提供し、それによって、そのような状態を特定するという長年のオープンな問題に対する、新しく興味深い視点を提供する。 これはまた、有界な絡み合った状態が古典的なテレポーテーションしきい値を超えることができないという既知の事実の新たな証明をもたらす。 さらに, テレポーテーションと高密度符号化の双対性は, 全く同じ状態でも高密度符号化の非古典的優位性は得られないことを示すのに有用である。 また、通信容量の観点からの双対性についても論じ、関連するテレポーテーションプロトコルの完全性の観点から、高密度符号化プロトコルのアクセス可能な情報に対する上下境界を導出する。 この議論のまとめは、有界な絡み合った状態が高密度符号化においていかなる利点も与えないという以前に確立された事実の単純な証明である。

Quantum teleportation is a quantum communication primitive that allows a long-distance quantum channel to be built using pre-shared entanglement and one-way classical communication. However, the quality of the established channel crucially depends on the quality of the pre-shared entanglement. In this work, we revisit the problem of using noisy entanglement for the task of teleportation. We first show how this problem can be rephrased as a state discrimination problem. In this picture, a quantitative duality between teleportation and dense coding emerges in which every Alice-to-Bob teleportation protocol can be repurposed as a Bob-to-Alice dense coding protocol, and the quality of each protocol can be measured by the success probability in the same state discrimination problem. One of our main results provides a complete characterization of the states that offer no advantage in one-way teleportation protocols over classical states, thereby offering a new and intriguing perspective on the long-standing open problem of identifying such states. This also yields a new proof of the known fact that bound entangled states cannot exceed the classical teleportation threshold. Moreover, our established duality between teleportation and dense coding can be used to show that the exact same states are unable to provide a non-classical advantage for dense coding as well. We also discuss the duality from a communication capacity point of view, deriving upper and lower bounds on the accessible information of a dense coding protocol in terms of the fidelity of its associated teleportation protocol. A corollary of this discussion is a simple proof of the previously established fact that bound entangled states do not provide any advantage in dense coding.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# 大規模言語モデルを用いたニューロシンボリックロボット行動計画のためのフレームワーク

A Framework for Neurosymbolic Robot Action Planning using Large Language Models ( http://arxiv.org/abs/2303.00438v3 )

ライセンス: Link先を確認
Alessio Capitanelli, Fulvio Mastrogiovanni, (参考訳) シンボリック・タスク・プランニングは、ロボットアーキテクチャにおける理解と展開の容易さから、ロボットの自律性を強制するための広く使われているアプローチである。 しかし,複雑な計画領域では性能が低かったり,頻繁な再計画が必要であったりするなど,実世界の人間とロボットのコラボレーションシナリオでは,シンボリックなタスクプランニング手法のスケールアップが困難である。 本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワーク,照焼きについて述べる。 その根拠は、大規模言語モデル(LLM)、すなわちGPT-3を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練し、その生成能力を活用して、シンボリックタスクプランナーに固有の多くの制限を克服することである。 潜在的な利点は i) LLMの応答時間は入力と出力の組合せの長さで線形にスケールするため、計画領域の複雑さが増加する限り、スケーラビリティが向上する。 (ii) エンド・ツー・エンドではなくプラン・アクション・バイ・アクションを合成する機能により、計画全体が利用可能になるのを待つのではなく、実行時に各アクションを利用可能にすることで、同時に計画と実行を可能にする。 近年,LLMの認知能力を評価するために,研究コミュニティが多大な努力を払っている。 代わりに、Teriyakiでは、特定の計画領域における従来のプランナーに匹敵する全体的な計画パフォーマンスを提供し、LLMの機能を活用して、ルックアヘッドの予測計画モデルを構築することを目指しています。 選択されたドメインにおける予備的な結果は、我々のメソッドが可能であることを示す。 (i)1000サンプルの試験データセットにおいて95.5%の問題を解決する。 二 伝統的な象徴的プランナーより最大13.5%短い計画を作成すること。 三 計画の可利用性の平均待ち時間を61.4%まで短縮すること。

Symbolic task planning is a widely used approach to enforce robot autonomy due to its ease of understanding and deployment in robot architectures. However, techniques for symbolic task planning are difficult to scale in real-world, human-robot collaboration scenarios because of the poor performance in complex planning domains or when frequent re-planning is needed. We present a framework, Teriyaki, specifically aimed at bridging the gap between symbolic task planning and machine learning approaches. The rationale is training Large Language Models (LLMs), namely GPT-3, into a neurosymbolic task planner compatible with the Planning Domain Definition Language (PDDL), and then leveraging its generative capabilities to overcome a number of limitations inherent to symbolic task planners. Potential benefits include (i) a better scalability in so far as the planning domain complexity increases, since LLMs' response time linearly scales with the combined length of the input and the output, and (ii) the ability to synthesize a plan action-by-action instead of end-to-end, making each action available for execution as soon as it is generated instead of waiting for the whole plan to be available, which in turn enables concurrent planning and execution. Recently, significant efforts have been devoted by the research community to evaluate the cognitive capabilities of LLMs, with alternate successes. Instead, with Teriyaki we aim to provide an overall planning performance comparable to traditional planners in specific planning domains, while leveraging LLMs capabilities to build a look-ahead predictive planning model. Preliminary results in selected domains show that our method can: (i) solve 95.5% of problems in a test data set of 1,000 samples; (ii) produce plans up to 13.5% shorter than a traditional symbolic planner; (iii) reduce average overall waiting times for a plan availability by up to 61.4%
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# 高次量子断熱除去における還元力学の完全正の破れ

Complete positivity violation of the reduced dynamics in higher-order quantum adiabatic elimination ( http://arxiv.org/abs/2303.04495v2 )

ライセンス: Link先を確認
Masaaki Tokieda, Cyril Elouard, Alain Sarlette, Pierre Rouchon, (参考訳) 本稿では,より遅い時間スケールで他のサブシステムと結合した高速減衰サブシステムからなる複合リンドブラッドシステムのモデル還元手法である量子断熱除去について論じる。 そのような系は、遅い部分系に近い不変多様体を特徴とする。 この不変多様体は、高速自由度が崩壊した後に到達し、その後に緩やかな力学が続く。 不変多様体のパラメトリゼーションにより、スローダイナミクスは還元されたモデルを通してシミュレートできる。 縮小状態の進化を見出すため、時間スケールの分離に関して漸近的な拡張を行う。 これまでのところ、第2次拡張は概ね検討されている。 その後、還元力学の2階展開は一般的にリンドブラッド方程式によって与えられることが判明し、時間進化の完全な肯定性を保証する。 本稿では,還元力学の完全正の正の値が高次寄与に反する2つの例を示す。 第1の例では、この違反は、漸近的拡張の切り離すことなく、部分的トレースの進化のために検出される。 部分的トレースは、遅いダイナミクスをパラメータ化する唯一の方法ではない。 この非特異性については、(R. Azouit, F. Chittaro, A. Sarlette, P. Rouchon, Quantum Sci. Technol. 2, 044011 (2017)) において、完全正当性を保証するパラメータ選択が存在すると推測された。 しかし、第二の例では、この予想は、全正の積がパラメトリゼーションの任意の選択において復元できないことを示すことによって反論する。 これらの結果は、不変の遅い多様体の初期状態において、高速な自由度と遅い自由度の間の不可避な相関の観点から議論する。

This paper discusses quantum adiabatic elimination, which is a model reduction technique for a composite Lindblad system consisting of a fast decaying sub-system coupled to another sub-system with a much slower timescale. Such a system features an invariant manifold that is close to the slow sub-system. This invariant manifold is reached subsequent to the decay of the fast degrees of freedom, after which the slow dynamics follow on it. By parametrizing invariant manifold, the slow dynamics can be simulated via a reduced model. To find the evolution of the reduced state, we perform the asymptotic expansion with respect to the timescale separation. So far, the second-order expansion has mostly been considered. It has then been revealed that the second-order expansion of the reduced dynamics is generally given by a Lindblad equation, which ensures complete positivity of the time evolution. In this paper, we present two examples where complete positivity of the reduced dynamics is violated with higher-order contributions. In the first example, the violation is detected for the evolution of the partial trace without truncation of the asymptotic expansion. The partial trace is not the only way to parametrize the slow dynamics. Concerning this non-uniqueness, it was conjectured in [R. Azouit, F. Chittaro, A. Sarlette, and P. Rouchon, Quantum Sci. Technol. 2, 044011 (2017)] that there exists a parameter choice ensuring complete positivity. With the second example, however, we refute this conjecture by showing that complete positivity cannot be restored in any choice of parametrization. We discuss these results in terms of unavoidable correlations, in the initial states on the invariant slow manifold, between the fast and the slow degrees of freedom.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# カメラキャリブレーションとそれ以上の深層学習:サーベイ

Deep Learning for Camera Calibration and Beyond: A Survey ( http://arxiv.org/abs/2303.10559v2 )

ライセンス: Link先を確認
Kang Liao, Lang Nie, Shujuan Huang, Chunyu Lin, Jing Zhang, Yao Zhao, Moncef Gabbouj, Dacheng Tao, (参考訳) カメラキャリブレーションでは、キャプチャーシーケンスから幾何学的特徴を推測するためにカメラパラメータを推定する。 しかし、従来の校正は厳格であり、専用の収集を必要とする。 近年の取り組みでは,手動キャリブレーションの繰り返し作業に代えて,学習ベースのソリューションが活用される可能性が示唆されている。 これらのソリューションの中で、様々な学習戦略、ネットワーク、幾何学的事前、データセットが研究されている。 本稿では,学習に基づくカメラキャリブレーション技術に関する総合的な調査を行い,その強度と限界を分析した。 我々の主なキャリブレーションカテゴリは、標準的なピンホールカメラモデル、歪みカメラモデル、クロスビューモデル、およびクロスセンサーモデルである。 このコミュニティにはベンチマークがないため、既存のメソッドの一般化を評価するために、パブリックプラットフォームとして機能する包括的なキャリブレーションデータセットを収集する。 合成データと実世界のデータの両方からなり、さまざまな場面でさまざまなカメラが撮影した画像とビデオがある。 本稿の終了に向けて,課題を議論し,さらなる研究の方向性を提供する。 われわれの知る限り、これは学習に基づくカメラキャリブレーション(8年)の初めての調査だ。 要約されたメソッド、データセット、ベンチマークはhttps://github.com/KangLiao929/Awesome-Deep-Camera-Calibrationで定期的に更新される。

Camera calibration involves estimating camera parameters to infer geometric features from captured sequences, which is crucial for computer vision and robotics. However, conventional calibration is laborious and requires dedicated collection. Recent efforts show that learning-based solutions have the potential to be used in place of the repeatability works of manual calibrations. Among these solutions, various learning strategies, networks, geometric priors, and datasets have been investigated. In this paper, we provide a comprehensive survey of learning-based camera calibration techniques, by analyzing their strengths and limitations. Our main calibration categories include the standard pinhole camera model, distortion camera model, cross-view model, and cross-sensor model, following the research trend and extended applications. As there is no benchmark in this community, we collect a holistic calibration dataset that can serve as a public platform to evaluate the generalization of existing methods. It comprises both synthetic and real-world data, with images and videos captured by different cameras in diverse scenes. Toward the end of this paper, we discuss the challenges and provide further research directions. To our knowledge, this is the first survey for the learning-based camera calibration (spanned 8 years). The summarized methods, datasets, and benchmarks are available and will be regularly updated at https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# KPEval: 微粒化セマンティックなキーワード評価を目指して

KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation ( http://arxiv.org/abs/2303.15422v4 )

ライセンス: Link先を確認
Di Wu, Da Yin, Kai-Wei Chang, (参考訳) キーフレーズ抽出法やキーフレーズ生成法が著しく進歩しているにもかかわらず、評価のための主要なアプローチは主に人間の参照との正確なマッチングに依存している。 このスキームは、実用性を持つ参照や多様なキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。 KPEvalは,キーフレーズシステムの性能をよりよく評価するために,参照合意,忠実性,多様性,有用性という4つの重要な側面からなる総合的な評価フレームワークである。 それぞれの側面に対して,評価対象を反映した意味に基づくメトリクスを設計する。 メタ評価研究により, 評価戦略は, 従来提案されていた指標と比較すると, 人間の嗜好と相関することが明らかとなった。 KPEvalを用いて、23のキーフレーズシステムを再評価し、(1)参照なし評価を考慮した場合、確立されたモデル比較結果が盲点であること、(2)大規模言語モデルが事前評価作業によって過小評価されていること、(3)全ての面において優れた最良のモデルが存在しないことを明らかにする。

Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation mainly relies on exact matching with human references. This scheme fails to recognize systems that generate keyphrases semantically equivalent to the references or diverse keyphrases that carry practical utility. To better assess the capability of keyphrase systems, we propose KPEval, a comprehensive evaluation framework consisting of four critical aspects: reference agreement, faithfulness, diversity, and utility. For each aspect, we design semantic-based metrics to reflect the evaluation objectives. Meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously proposed metrics. Using KPEval, we re-evaluate 23 keyphrase systems and discover that (1) established model comparison results have blind-spots especially when considering reference-free evaluation; (2) large language models are underestimated by prior evaluation works; and (3) there is no single best model that can excel in all the aspects.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# Dsfer-Net:近代ホップフィールドネットワークを用いたバイテンポラル変化検出のための深層スーパービジョンと特徴検索ネットワーク

Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks ( http://arxiv.org/abs/2304.01101v2 )

ライセンス: Link先を確認
Shizhen Chang, Michael Kopp, Pedram Ghamisi, Bo Du, (参考訳) 高解像度のリモートセンシング画像に欠かせない変化検出は、地表面の変化を時間とともに監視し、分析することを目的としている。 高解像度リモートセンシングデータの量の増加とテクスチャの特徴の複雑さのため、いくつかの定量的深層学習法が提案されている。 これらの手法は、深い特徴を抽出し、時空間情報を組み合わせることによって、従来の変化検出方法より優れている。 しかし、深い機能がどのように検出性能を改善するかについての合理的な説明はいまだに欠けている。 調査の結果,現代のホップフィールドネットワーク層はセマンティック理解を著しく向上させることがわかった。 本稿では,バイテンポラル変化検出のためのDeep Supervision and feature Retrieval Network (Dsfer-Net)を提案する。 具体的には、バイテンポラル画像の高度に代表的な深い特徴を、完全に畳み込みされたシームズネットワークを通じて、共同で抽出する。 両時間画像の逐次的地理情報に基づいて,特徴抽出モジュールを設計し,特徴を抽出し,識別情報を深く教師された方法で活用する。 さらに,提案するネットワークの深い層における意味的理解に関する説明可能な証拠を,深く教師された特徴検索モジュールで提供することも確認した。 最後に、エンド・ツー・エンドのネットワークは、異なるレイヤから抽出した特徴と特徴ペアを集約することで、新しいフレームワークを確立する。 3つの公開データセット(LEVIR-CD、WHU-CD、CDD)で実施された実験は、提案したDsfer-Netが他の最先端手法よりも優れていることを確認した。

Change detection, an essential application for high-resolution remote sensing images, aims to monitor and analyze changes in the land surface over time. Due to the rapid increase in the quantity of high-resolution remote sensing data and the complexity of texture features, several quantitative deep learning-based methods have been proposed. These methods outperform traditional change detection methods by extracting deep features and combining spatial-temporal information. However, reasonable explanations for how deep features improve detection performance are still lacking. In our investigations, we found that modern Hopfield network layers significantly enhance semantic understanding. In this paper, we propose a Deep Supervision and FEature Retrieval network (Dsfer-Net) for bitemporal change detection. Specifically, the highly representative deep features of bitemporal images are jointly extracted through a fully convolutional Siamese network. Based on the sequential geographical information of the bitemporal images, we designed a feature retrieval module to extract difference features and leverage discriminative information in a deeply supervised manner. Additionally, we observed that the deeply supervised feature retrieval module provides explainable evidence of the semantic understanding of the proposed network in its deep layers. Finally, our end-to-end network establishes a novel framework by aggregating retrieved features and feature pairs from different layers. Experiments conducted on three public datasets (LEVIR-CD, WHU-CD, and CDD) confirm the superiority of the proposed Dsfer-Net over other state-of-the-art methods.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-04
# トランスファーラーニングによるプライバシー保護型CNNトレーニング:マルチクラスロジスティック回帰

Privacy-Preserving CNN Training with Transfer Learning: Multiclass Logistic Regression ( http://arxiv.org/abs/2304.03807v3 )

ライセンス: Link先を確認
John Chiang, (参考訳) 本稿では,ただのホモモルフィック暗号化(HE)技術に基づくプライバシー保護型CNNトレーニングを実現するための実践的ソリューションを提案する。 私たちの知る限りでは、これはこのナットを突破する最初の試みであり、これまでこの目標を達成した作業はありませんでした。 1) 転送学習,プライバシー保護 CNN トレーニングを同型ニューラルネットワークトレーニング,あるいはマルチクラスロジスティック回帰 (MLR) トレーニングに還元する,(2) $\texttt{Quadratic Gradient}$ と呼ばれる高速勾配変種を通じて,収束速度の最先端性能を持つ MLR の高次勾配法を適用して高い性能を実現する,(3) 暗号領域におけるソフトマックス関数の近似をSigmoid 関数の近似に変換する数学の変換を考える。 この変更に合わせて$\texttt{ Squared Likelihood Error}$と呼ばれる新しいタイプの損失関数が開発された。 ; and (4) we use a simple but flexible matrix-encoding method named $\texttt{Volley Revolver}$ to management the data flow in the ciphertexts, which is the key factor to complete the whole homomorphic CNN training。 私たちの作業を実装するための完全な実行可能なC++コードは、以下のとおりである。 転送学習のための事前学習モデルとして$\texttt{REGNET\_X\_400MF}$を選択する。 最初の128のMNISTトレーニングイメージをトレーニングデータとして、MNISTテストデータセット全体をテストデータとして使用します。 クライアントは6つの暗号文をクラウドにアップロードするだけでよく、64のvCPUを持つクラウド上で2つのイテレーションを実行するのに$\sim 21$ minsの費用がかかる。

In this paper, we present a practical solution to implement privacy-preserving CNN training based on mere Homomorphic Encryption (HE) technique. To our best knowledge, this is the first attempt successfully to crack this nut and no work ever before has achieved this goal. Several techniques combine to accomplish the task:: (1) with transfer learning, privacy-preserving CNN training can be reduced to homomorphic neural network training, or even multiclass logistic regression (MLR) training; (2) via a faster gradient variant called $\texttt{Quadratic Gradient}$, an enhanced gradient method for MLR with a state-of-the-art performance in convergence speed is applied in this work to achieve high performance; (3) we employ the thought of transformation in mathematics to transform approximating Softmax function in the encryption domain to the approximation of the Sigmoid function. A new type of loss function termed $\texttt{Squared Likelihood Error}$ has been developed alongside to align with this change.; and (4) we use a simple but flexible matrix-encoding method named $\texttt{Volley Revolver}$ to manage the data flow in the ciphertexts, which is the key factor to complete the whole homomorphic CNN training. The complete, runnable C++ code to implement our work can be found at: \href{https://github.com/petitioner/HE.CNNtraining}{$\texttt{https://github.com/petitioner/HE.CNNtraining}$}. We select $\texttt{REGNET\_X\_400MF}$ as our pre-trained model for transfer learning. We use the first 128 MNIST training images as training data and the whole MNIST testing dataset as the testing data. The client only needs to upload 6 ciphertexts to the cloud and it takes $\sim 21$ mins to perform 2 iterations on a cloud with 64 vCPUs, resulting in a precision of $21.49\%$.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# l2,0濃度ペナルティによる不均一グラフトレンドフィルタリング

Inhomogeneous graph trend filtering via a l2,0 cardinality penalty ( http://arxiv.org/abs/2304.05223v3 )

ライセンス: Link先を確認
Xiaoqing Huang, Andersen Ang, Kun Huang, Jie Zhang, Yijie Wang, (参考訳) グラフ上の断片的滑らかな信号の推定について検討する。 ノード間の不均一な滑らかさを示すグラフ信号の断片的スムーズさを推定するために,$\ell_{2,0}$-norm Penalized Graph Trend Filtering (GTF) モデルを提案する。 提案したGTFモデルは,ノード上の信号にK平均クラスタリングし,グラフのエッジに最小限のグラフをカットすると同時に,クラスタリングとカットが同一の割り当て行列を共有することを証明した。 提案手法は, シミュレーションアニーリングに基づくスペクトル分解法と手法である。 合成および実世界のデータセット実験において、提案したGTFモデルは、復調、回復支援、半教師付き分類といったタスクにおける既存のアプローチと比較して、優れた性能を示した。 また,提案したGTFモデルは,エッジセットが大きいデータセットに対して,既存のモデルよりも効率的に解けることを示す。

We study estimation of piecewise smooth signals over a graph. We propose a $\ell_{2,0}$-norm penalized Graph Trend Filtering (GTF) model to estimate piecewise smooth graph signals that exhibit inhomogeneous levels of smoothness across the nodes. We prove that the proposed GTF model is simultaneously a k-means clustering on the signal over the nodes and a minimum graph cut on the edges of the graph, where the clustering and the cut share the same assignment matrix. We propose two methods to solve the proposed GTF model: a spectral decomposition method and a method based on simulated annealing. In the experiment on synthetic and real-world datasets, we show that the proposed GTF model has a better performances compared with existing approaches on the tasks of denoising, support recovery and semi-supervised classification. We also show that the proposed GTF model can be solved more efficiently than existing models for the dataset with a large edge set.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# ディラック自由体の量子論の作用素

Operators of quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v8 )

ライセンス: Link先を確認
Ion I. Cotaescu, (参考訳) 自由ディラックの質量フェルミオンの量子論は、新しい保存されたスピン作用素とその対応する位置を中心に、長い間プリースによって提案され、最近は新しいスピン対称性と適切なスペクトル表現の助けを借りて再定義された。 と。 I. Cot\u{a}escu, Eur. Phys J.C (2022) 82:1073。 このアプローチは、受動モードにおける作用素の作用を定義し、モードスピノルの代わりに運動量表現において粒子と反粒子波スピノルに直接作用する一対の積分作用素の構成表現における任意の積分作用素に関連付けることで一般化される。 この枠組みは、等距離発生器、パウリ・ルバンスキーおよびこれまで提案された位置演算子または他のスピン型作用素のスピンおよび軌道部分として、物理的な意味を持つ大きな一粒子作用素の集合を与える効果的な量子化手順を可能にする。 粒子と反粒子セクターを混合する作用素には特に注意が払われる。 通常の座標演算子を含むこのタイプの主演算子は、ここで初めて導出される。 適用例として、これらの新しい観測装置を測定する装置は、ジッタベグングやスピンダイナミクスを使わずに一粒子の波束を均一に移動させ、通常の時間で他の相対論的でも相対論的でない波束として拡散させることができる。

The quantum theory of free Dirac's massive fermions is reconstructed around the new conserved spin operator and its corresponding position one proposed initially by Pryce long time ago and re-defined recently with the help of a new spin symmetry and suitable spectral representations. [I. I. Cot\u{a}escu, Eur. Phys. J. C (2022) 82:1073]. This approach is generalized here defining the operator action in passive mode, associating to any integral operator in configuration representation a pair of integral operators acting directly on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. This framework allows an effective quantization procedure giving a large set of one-particle operators with physical meaning as the spin and orbital parts of the isometry generators, the Pauli-Lubanski and position operators or other spin-type operators proposed so far. A special attention is paid to the operators which mix the particle and antiparticle sectors whose off-diagonal associated operators have oscillating terms producing zitterbevegung. The principal operators of this type including the usual coordinate operator are derived here for the first time. As an application, it is shown that an apparatus measuring these new observables may prepare and detect one-particle wave-packets moving uniformly without zitterbewegung or spin dynamics, spreading in time normally as any other relativistic even non-relativistic wave-packet.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# 人工知能研究のためのゲーム : レビューと展望

Games for Artificial Intelligence Research: A Review and Perspectives ( http://arxiv.org/abs/2304.13269v4 )

ライセンス: Link先を確認
Chengpeng Hu, Yunlong Zhao, Ziqi Wang, Haocheng Du, Jialin Liu, (参考訳) ゲームは、現実世界のシナリオに広く存在する特徴に対して、人工知能研究のための完璧なテストベッドでした。 学習と最適化、動的で不確実な環境における意思決定、ゲーム理論、計画とスケジューリング、設計と教育は、ゲームと現実世界の問題の間で共有される共通の研究分野である。 多くのオープンソースゲームやゲームベースの環境が人工知能の研究のために実装されている。 シングルまたはマルチプレイヤー、コラボレーティブまたは対戦型ゲームに加えて、近年はクリエイティブデザインのためのプラットフォームの実装にも関心が高まっている。 これらのプラットフォームは、人工知能のアイデアとテクニックを探索し比較するための理想的なベンチマークを提供する。 本稿では、人工知能研究のためのゲームとゲームベースのプラットフォームをレビューし、特定のタイプの人工知能と、適切な人工知能技術を用いて、ゲームにおける特定のニーズをテストし、マッチングするための適切なゲームとのマッチングに関するガイダンスを提供し、それらのゲームとプラットフォームの進化によって引き起こされる研究動向を考察し、展望を与える。

Games have been the perfect test-beds for artificial intelligence research for the characteristics that widely exist in real-world scenarios. Learning and optimisation, decision making in dynamic and uncertain environments, game theory, planning and scheduling, design and education are common research areas shared between games and real-world problems. Numerous open-source games or game-based environments have been implemented for studying artificial intelligence. In addition to single- or multi-player, collaborative or adversarial games, there has also been growing interest in implementing platforms for creative design in recent years. Those platforms provide ideal benchmarks for exploring and comparing artificial intelligence ideas and techniques. This paper reviews the games and game-based platforms for artificial intelligence research, provides guidance on matching particular types of artificial intelligence with suitable games for testing and matching particular needs in games with suitable artificial intelligence techniques, discusses the research trend induced by the evolution of those games and platforms, and gives an outlook.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# シンボリック・シンボリック・ラーニング:シンボリック・推論と帰納学習を併用した効率的なCHC解法

Chronosymbolic Learning: Efficient CHC Solving with Symbolic Reasoning and Inductive Learning ( http://arxiv.org/abs/2305.01206v4 )

ライセンス: Link先を確認
Ziyan Luo, Xujie Si, (参考訳) Solving Constrained Horn Clauses (CHCs) は、幅広い検証と分析タスクの背後にある根本的な課題である。 データ駆動型アプローチは、さまざまなヒューリスティックを作成、チューニングする手作業で苦労することなく、CHC解決を改善する上で非常に有望である。 しかし、データ駆動型CHCソルバとシンボリック推論ベースのソルバの間には大きなパフォーマンスギャップが存在する。 本研究では,記号情報と数値データポイントを統一し,CHCシステムを効率的に解くための,シンプルで効果的なフレームワークであるChronosymbolic Learningを開発する。 また、データ駆動学習とBMCスタイルの推論を併用したクロノシンボリック学習の簡単な例を示す。 比較的単純であるにもかかわらず、実験結果は、ツールの有効性と堅牢性を示している。 これは288のベンチマークからなるデータセット上で、非線型整数演算を持つ多くのインスタンスを含む最先端のCHCソルバより優れている。

Solving Constrained Horn Clauses (CHCs) is a fundamental challenge behind a wide range of verification and analysis tasks. Data-driven approaches show great promise in improving CHC solving without the painstaking manual effort of creating and tuning various heuristics. However, a large performance gap exists between data-driven CHC solvers and symbolic reasoning-based solvers. In this work, we develop a simple but effective framework, "Chronosymbolic Learning", which unifies symbolic information and numerical data points to solve a CHC system efficiently. We also present a simple instance of Chronosymbolic Learning with a data-driven learner and a BMC-styled reasoner. Despite its relative simplicity, experimental results show the efficacy and robustness of our tool. It outperforms state-of-the-art CHC solvers on a dataset consisting of 288 benchmarks, including many instances with non-linear integer arithmetics.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# Taxi1500:1500言語におけるテキスト分類のための多言語データセット

Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages ( http://arxiv.org/abs/2305.08487v2 )

ライセンス: Link先を確認
Chunlan Ma, Ayyoob ImaniGooghari, Haotian Ye, Renhao Pei, Ehsaneddin Asgari, Hinrich Schütze, (参考訳) 自然言語処理ツールは世界の一部の言語で広く開発されているが、世界の7000以上の言語の大部分はいまだに無視されている。 この理由の1つは、評価データセットが低リソースや絶滅危惧言語を含む幅広い言語をまだカバーしていないことである。 我々は、多数の言語を含むテキスト分類データセットを作成し、この問題に対処することを目指している。 我々は聖書の並列翻訳を利用して、まず適用可能なトピックを開発し、クラウドソーシングツールを使って注釈付きデータを収集することで、そのようなデータセットを構築する。 データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。 データセットを用いて、既存の多言語言語モデルを広範囲にベンチマークする。 この分野での研究の進展を促進するため、私たちはデータセットとコードを公開します。

While natural language processing tools have been developed extensively for some of the world's languages, a significant portion of the world's over 7000 languages are still neglected. One reason for this is that evaluation datasets do not yet cover a wide range of languages, including low-resource and endangered ones. We aim to address this issue by creating a text classification dataset encompassing a large number of languages, many of which currently have little to no annotated data available. We leverage parallel translations of the Bible to construct such a dataset by first developing applicable topics and employing a crowdsourcing tool to collect annotated data. By annotating the English side of the data and projecting the labels onto other languages through aligned verses, we generate text classification datasets for more than 1500 languages. We extensively benchmark several existing multilingual language models using our dataset. To facilitate the advancement of research in this area, we will release our dataset and code.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# マグノンの非エルミートカシミール効果

Non-Hermitian Casimir effect of magnons ( http://arxiv.org/abs/2305.09231v2 )

ライセンス: Link先を確認
Kouki Nakata, Kei Suzuki, (参考訳) 非エルミート量子力学への関心が高まっている。 量子力学の鍵となる概念は量子ゆらぎである。 有限サイズの系に閉じ込められた量子場の量子揺らぎはゼロ点エネルギーシフトを誘導する。 この量子現象、カシミール効果は古典的なアナログが存在しないという意味では最も顕著な量子力学の現象の1つであり、素粒子物理学から凝縮物質物理学、フォトニクスまで、エネルギースケールの階層を超えて多くの注目を集めている。 しかし、カシミール効果の非エルミート的拡張とスピントロニクスへの応用はまだ十分に研究されていないが、エネルギー源を探索し、エネルギー効率の良いナノデバイスを開発することが中心的な課題である。 ここではこのギャップを埋めます。 カシミール効果のマグノニックアナログを非エルミート系に発展させることにより、この非エルミートカシミール効果がギルバート減衰定数(すなわちエネルギー散逸速度)が増加するにつれて強化されることが示される。 減衰定数が臨界値を超えると、マグノンの非エルミチアンカシミール効果は、膜厚の関数として、当接するものを含む振動挙動を示し、例外点を特徴とする。 以上の結果から,エネルギー散逸がカシミール工学の重要な要素であることが示唆された。

There has been a growing interest in non-Hermitian quantum mechanics. The key concepts of quantum mechanics are quantum fluctuations. Quantum fluctuations of quantum fields confined in a finite-size system induce the zero-point energy shift. This quantum phenomenon, the Casimir effect, is one of the most striking phenomena of quantum mechanics in the sense that there are no classical analogs and has been attracting much attention beyond the hierarchy of energy scales, ranging from elementary particle physics to condensed matter physics, together with photonics. However, the non-Hermitian extension of the Casimir effect and the application to spintronics have not yet been investigated enough, although exploring energy sources and developing energy-efficient nanodevices are its central issues. Here we fill this gap. By developing a magnonic analog of the Casimir effect into non-Hermitian systems, we show that this non-Hermitian Casimir effect of magnons is enhanced as the Gilbert damping constant (i.e., the energy dissipation rate) increases. When the damping constant exceeds a critical value, the non-Hermitian Casimir effect of magnons exhibits an oscillating behavior, including a beating one, as a function of the film thickness and is characterized by the exceptional point. Our result suggests that energy dissipation serves as a key ingredient of Casimir engineering.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# 教師なし低照度画像の強化:騒音推定、照明補間、自己規制

Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation ( http://arxiv.org/abs/2305.10223v4 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Xin Fan, Risheng Liu, (参考訳) LLIE(Contemporary Low-Light Image Enhancement)技術は、画像の詳細の保存とコントラストの強化において顕著な進歩を遂げ、特定のデータセットに対する賞賛可能な結果を実現している。 それでもこれらのアプローチは、ダイナミックノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。 複雑な画素マッピング学習における十分でない制約は、低照度条件に関連する特定の種類のノイズやアーティファクトに過度に適合し、可変照明シナリオの有効性を低下させる。 そこで本研究では,低照度画像の雑音レベルを迅速かつ高精度に推定する手法を提案する。 これにより、正確に騒音を識別し、過度なスムーシングを防ぎ、ダイナミックノイズパターンに適応する。 その後、入力と単位ベクトル間の学習可能な補間演算を用いて、照明と入力の一般的な制約を満たすLearnerable Illumination Interpolator (LII) を考案する。 最後に、本研究は、本質的な画像特性と本質的な視覚特性を取り入れた自己正規化損失を導入し、人間の視覚的期待を満たすためのアウトプットを導出する。 定性評価と定量的評価の両方において,提案アルゴリズムの競争性を総合的に検証した。 特に, 騒音推定法は, 線形時間複雑であり, 各種騒音対策に適しており, 騒音低減性能と騒音改善性能を著しく向上させる。 そこで本手法は,LLIEタスク上のMITデータセット上で0.675dBPSNR,LLIEタスク上で0.818dBの改善を実現している。 ソースコードは \href{https://doi.org/10.5281/zenodo.11463142}{this DOI repository} で入手でき、ノイズ推定の具体的なコードは \href{https://github.com/GoogolplexGoodenough/noise_estimate}{this separate GitHub link} で見ることができる。

Contemporary Low-Light Image Enhancement (LLIE) techniques have made notable advancements in preserving image details and enhancing contrast, achieving commendable results on specific datasets. Nevertheless, these approaches encounter persistent challenges in efficiently mitigating dynamic noise and accommodating diverse low-light scenarios. Insufficient constraints on complex pixel-wise mapping learning lead to overfitting to specific types of noise and artifacts associated with low-light conditions, reducing effectiveness in variable lighting scenarios. To this end, we first propose a method for estimating the noise level in low light images in a quick and accurate way. This facilitates precise denoising, prevents over-smoothing, and adapts to dynamic noise patterns. Subsequently, we devise a Learnable Illumination Interpolator (LII), which employs learnlable interpolation operations between the input and unit vector to satisfy general constraints between illumination and input. Finally, we introduce a self-regularization loss that incorporates intrinsic image properties and essential visual attributes to guide the output towards meeting human visual expectations. Comprehensive experiments validate the competitiveness of our proposed algorithm in both qualitative and quantitative assessments. Notably, our noise estimation method, with linear time complexity and suitable for various denoisers, significantly improves both denoising and enhancement performance. Benefiting from this, our approach achieves a 0.675dB PSNR improvement on the LOL dataset and 0.818dB on the MIT dataset on LLIE task, even compared to supervised methods. The source code is available at \href{https://doi.org/10.5281/zenodo.11463142}{this DOI repository} and the specific code for noise estimation can be found at \href{https://github.com/GoogolplexGoodenough/noise_estimate}{this separate GitHub link}.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# エンドツーエンド手話翻訳のためのモーダリティデータ拡張

Cross-modality Data Augmentation for End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.11096v4 )

ライセンス: Link先を確認
Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong, (参考訳) エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。 署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。 これらの課題により、エンドツーエンドの手話翻訳(すなわち、ビデオからテキストへの変換)の入力と出力の分布は、グロスからテキストへのアプローチ(すなわち、テキストからテキストへの変換)に比べて効果が低い。 これらの課題に対処するために,手話翻訳モデルから擬似手話文ペアを利用することによって,強力な手話翻訳能力をエンドツーエンド手話翻訳(ビデオ・テキスト)に変換する,新しいモダリティデータ拡張(XmDA)フレームワークを提案する。 具体的には、XmDAは2つの重要な構成要素、すなわち、相互モダリティ混合と相互モダリティ知識蒸留から構成される。 前者は、モダリティギャップを埋めるために、手話ビデオの特徴と光沢埋め込みのアライメントを明示的に奨励する。 後者は、グロス・トゥ・テキストの教師モデルから生成知識を利用して、音声言語テキスト生成をガイドする。 PHOENIX-2014TとCSL-Dailyという2つの広く使われているSLTデータセットの実験結果は、提案したXmDAフレームワークがベースラインモデルを大幅に上回っていることを実証している。 XmDAはビデオとテキスト間の表現距離を減らし、低頻度語と長文の処理を改善することで、音声テキスト生成を向上させるという我々の主張を確認した。

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. Due to these challenges, the input and output distributions of end-to-end sign language translation (i.e., video-to-text) are less effective compared to the gloss-to-text approach (i.e., text-to-text). To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# Iterative Forward Tuningが言語モデルにおけるインコンテキスト学習を強化

Iterative Forward Tuning Boosts In-Context Learning in Language Models ( http://arxiv.org/abs/2305.13016v3 )

ライセンス: Link先を確認
Jiaxi Yang, Binyuan Hui, Min Yang, Bailin Wang, Bowen Li, Binhua Li, Fei Huang, Yongbin Li, (参考訳) 大規模言語モデル(LLM)における文脈内学習(ICL)の進歩にもかかわらず、現在の研究センターは、デモ選択のような特定のプロンプトエンジニアリングに重点を置いており、デモ処理の1つのイテレーションが、与えられたテストサンプルに効果的に一般化できることを期待している。 しかしながら、この視点は、デモを含む複数のイテレーションに由来する潜在的な利点を見落としている。これは、しばしば類推を通して学ぶ人間によって提示される反復的な意思決定プロセスとより密接に一致するプラクティスである。 本研究では,LSMにおけるICL向上のための新しい2段階フレームワークを提案する。 具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。 ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報蓄積が可能である。 このメカニズムは、キーバリュー行列をトレーニングなしで操作することで機能し、実演を複数回考えることでLLMの理解能力を向上する。 我々は、様々なベンチマークやLCMのディープシンキングを評価し、バニラICL法よりも優れた性能を示し、実演選択が不可能な課題においてその有効性を示した。

Despite the advancements in in-context learning (ICL) for large language models (LLMs), current research centers on specific prompt engineering, such as demonstration selection, with the expectation that a single iteration of demonstrations processing can generalize effectively to a given test sample. However, this perspective overlooks the potential benefits derived from multiple iterations involving demonstrations, a practice aligning more closely with the iterative decision-making process exhibited by humans, who often learn through analogy. In this study, we introduce a novel two-stage framework to boost ICL in LLMs. Specifically, our framework delineates the ICL process into two distinct stages: Deep-Thinking and test stages. The Deep-Thinking stage incorporates a unique attention mechanism, i.e., iterative enhanced attention, which enables multiple rounds of information accumulation. This mechanism operates by manipulating the Key-Value matrices without training, fostering enhanced understanding capabilities in LLMs by thinking demonstrations multiple times. We evaluated Deep-Thinking across a range of benchmarks and LLMs, showing its superior performance over vanilla ICL methods and its effectiveness in challenging tasks where demonstration selection is infeasible.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# RE$^2$:ビジュアルリッチドキュメントからの領域認識関係抽出

RE$^2$: Region-Aware Relation Extraction from Visually Rich Documents ( http://arxiv.org/abs/2305.14590v2 )

ライセンス: Link先を確認
Pritika Ramu, Sijia Wang, Lalla Mouatadid, Joy Rimchala, Lifu Huang, (参考訳) フォーム理解における現在の研究は、主に事前学習のための広範なデータを必要とする大規模な事前学習言語モデルに依存している。 しかし、レイアウト構造(つまり、視覚的にリッチな文書におけるエンティティブロック間の空間的関係)と関係抽出の重要性は見過ごされている。 本稿では,各ブロック間の領域レベルの空間構造を利用したRegion-Aware Relation extract (RE$^2$)を提案する。 エッジ対応グラフアテンションネットワークを設計し、その領域レベルの表現によって定義される空間的関係を考慮しながら、エンティティ間の相互作用を学習する。 また、関係抽出タスクの固有の制約との整合性に向けてモデルを規則化するための制約目標も導入する。 様々なデータセット、言語、ドメインにわたる大規模な実験は、提案手法の優位性を実証している。

Current research in form understanding predominantly relies on large pre-trained language models, necessitating extensive data for pre-training. However, the importance of layout structure (i.e., the spatial relationship between the entity blocks in the visually rich document) to relation extraction has been overlooked. In this paper, we propose REgion-Aware Relation Extraction (RE$^2$) that leverages region-level spatial structure among the entity blocks to improve their relation prediction. We design an edge-aware graph attention network to learn the interaction between entities while considering their spatial relationship defined by their region-level representations. We also introduce a constraint objective to regularize the model towards consistency with the inherent constraints of the relation extraction task. Extensive experiments across various datasets, languages and domains demonstrate the superiority of our proposed approach.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# スイッチング力学系の同定可能性について

On the Identifiability of Switching Dynamical Systems ( http://arxiv.org/abs/2305.15925v4 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Yixin Wang, Yingzhen Li, (参考訳) 潜在変数モデルの識別可能性は、解釈可能性と分布外一般化の関係から注目されている。 本研究では,スイッチング力学系の識別可能性について検討し,逐次潜在変数モデルへの識別可能性解析の展開に向けて第一歩を踏み出した。 まず,スイッチング力学系における連続潜伏変数の事前分布として機能するマルコフスイッチングモデルの同定可能性を証明する。 遷移分布は非線形ガウスによってパラメトリされる一階マルコフ依存構造に対する同定条件を提案する。 次に、同定可能な深層潜伏変数モデルから識別可能性解析技術を活用することにより、アフィン変換へのスイッチング力学系における潜伏変数と非線形写像の識別可能性を確立する。 最終的に,スイッチング力学系を同定するための推定アルゴリズムを開発した。 実験的な研究を通じて,ビデオなどの高次元時系列をセグメント化するための特定可能なスイッチング・ダイナミクス・システムの実用性を実証し,気候データにおける状態依存因果発見のための識別可能なマルコフ・スイッチング・モデルの使用例を示した。

The identifiability of latent variable models has received increasing attention due to its relevance in interpretability and out-of-distribution generalisation. In this work, we study the identifiability of Switching Dynamical Systems, taking an initial step toward extending identifiability analysis to sequential latent variable models. We first prove the identifiability of Markov Switching Models, which commonly serve as the prior distribution for the continuous latent variables in Switching Dynamical Systems. We present identification conditions for first-order Markov dependency structures, whose transition distribution is parametrised via non-linear Gaussians. We then establish the identifiability of the latent variables and non-linear mappings in Switching Dynamical Systems up to affine transformations, by leveraging identifiability analysis techniques from identifiable deep latent variable models. We finally develop estimation algorithms for identifiable Switching Dynamical Systems. Throughout empirical studies, we demonstrate the practicality of identifiable Switching Dynamical Systems for segmenting high-dimensional time series such as videos, and showcase the use of identifiable Markov Switching Models for regime-dependent causal discovery in climate data.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# 注意に基づくグラフニューラルネットワークにおけるデマイチグオーバースムーシング

Demystifying Oversmoothing in Attention-Based Graph Neural Networks ( http://arxiv.org/abs/2305.16102v4 )

ライセンス: Link先を確認
Xinyi Wu, Amir Ajorlou, Zihui Wu, Ali Jadbabaie, (参考訳) グラフニューラルネットワーク(GNN)におけるオーバースムーシング(Oversmoothing in Graph Neural Networks)とは、ネットワーク深度の増加がノードの均質表現につながる現象である。 前回の研究では、グラフ畳み込みネットワーク(GCN)は指数関数的に表現力を失うことが確認されているが、グラフの注意機構が過度なスムースを緩和できるかどうかについては議論の余地がある。 本研究では,非線形時間変化力学系として注意に基づくGNNを考察し,不均質行列の積の理論と合同放射半径から得られるツールや技法を取り入れることで,厳密な数学的解析を通じてこの問題に対する決定的な回答を提供する。 一般的な信念とは対照的に、グラフの注意機構は過度なスムース化を防げず、指数関数的に表現力を失うことを証明している。 提案フレームワークは, ランダムウォークGCN, Graph Attention Networks (GAT) および (グラフ) トランスフォーマーを含む, 対称GCNのオーバースムース化に関する既存の結果を, GNNモデルのかなり広いクラスに拡張する。 特に、解析は非対称、状態依存、時間変化の集約演算子と、ReLU、LeakyReLU、GELU、SiLUなどの幅広い非線形活性化関数を考慮に入れている。

Oversmoothing in Graph Neural Networks (GNNs) refers to the phenomenon where increasing network depth leads to homogeneous node representations. While previous work has established that Graph Convolutional Networks (GCNs) exponentially lose expressive power, it remains controversial whether the graph attention mechanism can mitigate oversmoothing. In this work, we provide a definitive answer to this question through a rigorous mathematical analysis, by viewing attention-based GNNs as nonlinear time-varying dynamical systems and incorporating tools and techniques from the theory of products of inhomogeneous matrices and the joint spectral radius. We establish that, contrary to popular belief, the graph attention mechanism cannot prevent oversmoothing and loses expressive power exponentially. The proposed framework extends the existing results on oversmoothing for symmetric GCNs to a significantly broader class of GNN models, including random walk GCNs, Graph Attention Networks (GATs) and (graph) transformers. In particular, our analysis accounts for asymmetric, state-dependent and time-varying aggregation operators and a wide range of common nonlinear activation functions, such as ReLU, LeakyReLU, GELU and SiLU.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-04
# ベイジアンサロゲートモデルによるLCM生成テキストの効率的な検出

Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model ( http://arxiv.org/abs/2305.16617v3 )

ライセンス: Link先を確認
Yibo Miao, Hongcheng Gao, Hao Zhang, Zhijie Deng, (参考訳) 特に大規模言語モデル(LLM)から機械生成テキストを検出することは、その誤用による深刻な社会問題を防止するために重要である。 特定のデータセットに専用の検出器を訓練する手法もあるが、見えないテストデータに一般化するには不十分である。 最近のTectGPTは、期待できる検出性能を示しているが、単一の候補を検出するには、数百の摂動でソースLLMをクエリする必要があるため、重大な非効率な問題に悩まされている。 この論文は、このギャップを埋めることを目的としている。 具体的には,ベイジアンサロゲートモデルを導入し,ベイジアン不確実性に基づいた典型的なサンプルを選択し,典型的なサンプルから他のサンプルへのスコアを補間し,クエリ効率を向上させることを提案する。 実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。 特に,LLaMAファミリモデルで生成されたテキストを検出する場合,200クエリで検出GPTを2~3クエリで上回る。

The detection of machine-generated text, especially from large language models (LLMs), is crucial in preventing serious social problems resulting from their misuse. Some methods train dedicated detectors on specific datasets but fall short in generalizing to unseen test data, while other zero-shot ones often yield suboptimal performance. Although the recent DetectGPT has shown promising detection performance, it suffers from significant inefficiency issues, as detecting a single candidate requires querying the source LLM with hundreds of its perturbations. This paper aims to bridge this gap. Concretely, we propose to incorporate a Bayesian surrogate model, which allows us to select typical samples based on Bayesian uncertainty and interpolate scores from typical samples to other samples, to improve query efficiency. Empirical results demonstrate that our method significantly outperforms existing approaches under a low query budget. Notably, when detecting the text generated by LLaMA family models, our method with just 2 or 3 queries can outperform DetectGPT with 200 queries.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# EPIC:学習コストによる編集パス補間によるグラフ拡張

EPIC: Graph Augmentation with Edit Path Interpolation via Learnable Cost ( http://arxiv.org/abs/2306.01310v2 )

ライセンス: Link先を確認
Jaeseung Heo, Seungbeom Lee, Sungsoo Ahn, Dongwoo Kim, (参考訳) データ拡張は、様々な領域にわたるモデルパフォーマンスを改善する上で重要な役割を果たすが、その複雑で不規則な構造のため、グラフデータでは困難になる。 この問題に対処するため,我々はEPIC (Edit Path Interpolation via learnable Cost) を提案する。 不規則な領域にある2つのグラフの間を補間するために、EPICはグラフ編集距離という概念を活用し、編集操作を通じて2つのグラフ間の変換プロセスを表す編集パスを構築する。 さらに,学習フレームワークによって構成された特定の編集操作の重要性を考慮し,文脈に敏感なコストモデルを導入する。 これにより、編集距離は単にカウントベースではなく、意味のあるグラフ属性を反映する、よりニュアンスな変換プロセスが可能になる。 編集パスからランダムにサンプリングされたグラフを用いて、分類モデルの一般化能力を高めるためにトレーニングセットを充実させる。 いくつかのベンチマークデータセットに対する実験的評価により、我々のアプローチは多くのタスクにおいて既存の拡張テクニックよりも優れていることが示された。

Data augmentation plays a critical role in improving model performance across various domains, but it becomes challenging with graph data due to their complex and irregular structure. To address this issue, we propose EPIC (Edit Path Interpolation via learnable Cost), a novel interpolation-based method for augmenting graph datasets. To interpolate between two graphs lying in an irregular domain, EPIC leverages the concept of graph edit distance, constructing an edit path that represents the transformation process between two graphs via edit operations. Moreover, our method introduces a context-sensitive cost model that accounts for the importance of specific edit operations formulated through a learning framework. This allows for a more nuanced transformation process, where the edit distance is not merely count-based but reflects meaningful graph attributes. With randomly sampled graphs from the edit path, we enrich the training set to enhance the generalization capability of classification models. Experimental evaluations across several benchmark datasets demonstrate that our approach outperforms existing augmentation techniques in many tasks.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# ニューラルネットワークのフィードバックアライメント学習機構における暗黙の規則化

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks ( http://arxiv.org/abs/2306.01870v2 )

ライセンス: Link先を確認
Zachary Robertson, Oluwasanmi Koyejo, (参考訳) フィードバックアライメント(FA)法は、階層間の通信を減らしたニューラルネットワークをトレーニングするための生物学的にインスパイアされた局所学習規則である。 FAは、分散およびプライバシを意識したMLに潜在的な応用があるが、多クラス分類の制限とアライメントメカニズムの理論的理解の欠如がその影響を制約している。 本研究では、FAにおけるアライメントの背後にある運用原則を解明する統一的なフレームワークを紹介する。 本研究の主な貢献は,(1) 漸進的重みの変化と, 勾配との整合性を維持する暗黙的正則化を結び付ける新しい保存法, (2) 整合性支配の概念に基づく収束の十分な条件,(3) 複雑な多クラスタスクにおけるFA性能の向上を示す経験的分析である。 全体として、これらの理論的および実践的な進歩は、生物工学的な学習規則の解釈可能性を改善し、強化されたFAアルゴリズムを開発するための基盤を提供する。

Feedback Alignment (FA) methods are biologically inspired local learning rules for training neural networks with reduced communication between layers. While FA has potential applications in distributed and privacy-aware ML, limitations in multi-class classification and lack of theoretical understanding of the alignment mechanism have constrained its impact. This study introduces a unified framework elucidating the operational principles behind alignment in FA. Our key contributions include: (1) a novel conservation law linking changes in synaptic weights to implicit regularization that maintains alignment with the gradient, with support from experiments, (2) sufficient conditions for convergence based on the concept of alignment dominance, and (3) empirical analysis showing better alignment can enhance FA performance on complex multi-class tasks. Overall, these theoretical and practical advancements improve interpretability of bio-plausible learning rules and provide groundwork for developing enhanced FA algorithms.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# 説明としての決定木の有効性の向上

Improving the Validity of Decision Trees as Explanations ( http://arxiv.org/abs/2306.06777v5 )

ライセンス: Link先を確認
Jiri Nemecek, Tomas Pevny, Jakub Marecek, (参考訳) 表データによる分類と予測では、しばしば木に基づくモデルを利用する。 これらは、表データ上のディープニューラルネットワークと競合し、ある条件下では説明可能である。 説明性は木の深さと木の葉の精度に依存する。 葉を不均衡に含む決定木は誤解を招く可能性があると指摘する。 低精度の葉は妥当性の低い説明を与えるが、これはこれらの説明を利用する部分群の間で不公平であると解釈できる。 ここでは、すべての葉ノードにおける最大誤分類誤差を最小限に抑えるために、浅い木を訓練する。 浅い木は世界的説明を提供するが、浅い木の全体的な統計性能は、葉をさらなるモデルで拡張することで最先端の方法(例えば、よく調整されたXGBoost)に匹敵する。

In classification and forecasting with tabular data, one often utilizes tree-based models. Those can be competitive with deep neural networks on tabular data and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. We point out that decision trees containing leaves with unbalanced accuracy can provide misleading explanations. Low-accuracy leaves give less valid explanations, which could be interpreted as unfairness among subgroups utilizing these explanations. Here, we train a shallow tree with the objective of minimizing the maximum misclassification error across all leaf nodes. The shallow tree provides a global explanation, while the overall statistical performance of the shallow tree can become comparable to state-of-the-art methods (e.g., well-tuned XGBoost) by extending the leaves with further models.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# ドメインシフト下でのセマンティックセグメンテーションのための双曲型アクティブラーニング

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift ( http://arxiv.org/abs/2306.11180v5 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Konstantinos Kallidromitis, Devin Guillory, Yu-Teng Li, Trevor Darrell, Fabio Galasso, (参考訳) セマンティックセグメンテーションのための画素レベルのアクティブラーニングに双曲型ニューラルネットワークを導入する。 データ統計の分析は、データ不足の指標として、双曲半径の新たな解釈につながる。 HALO(Hyperbolic Active Learning Optimization)では,最も知られていないデータポイントの選択の直感に倣って,先天的な不確実性をデータ取得戦略として活用することを提案する。 広く吸収された予測エントロピーによって補完される双曲半径は、疫学的な不確実性を効果的に近似する。 我々は,GTAV$\rightarrow$CityscapesとSynTHIA$\rightarrow$Cityscapesという2つの確立された総合現実的ベンチマークに基づいて,広範な実験分析を行う。 また,Cityscape $\rightarrow$ ACDCで悪天候条件下でのドメイン適応のHALOテストを行い,コンボリューションとアテンションベースのバックボーンのベンチマークを行った。 HALOはドメインシフトの下でセマンティックセグメンテーションを活発に学習するための新しい最先端の学習方法であり、少数のラベル(つまり1%)を使用しながら、教師付きドメイン適応の性能を上回る最初のアクティブな学習手法である。

We introduce a hyperbolic neural network approach to pixel-level active learning for semantic segmentation. Analysis of the data statistics leads to a novel interpretation of the hyperbolic radius as an indicator of data scarcity. In HALO (Hyperbolic Active Learning Optimization), for the first time, we propose the use of epistemic uncertainty as a data acquisition strategy, following the intuition of selecting data points that are the least known. The hyperbolic radius, complemented by the widely-adopted prediction entropy, effectively approximates epistemic uncertainty. We perform extensive experimental analysis based on two established synthetic-to-real benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes. Additionally, we test HALO on Cityscape $\rightarrow$ ACDC for domain adaptation under adverse weather conditions, and we benchmark both convolutional and attention-based backbones. HALO sets a new state-of-the-art in active learning for semantic segmentation under domain shift and it is the first active learning approach that surpasses the performance of supervised domain adaptation while using only a small portion of labels (i.e., 1%).
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# さらなるPAC-Bayes境界: 有界損失、一般的な尾動作による損失、任意の有効性

More PAC-Bayes bounds: From bounded losses, to losses with general tail behaviors, to anytime validity ( http://arxiv.org/abs/2306.12214v4 )

ライセンス: Link先を確認
Borja Rodríguez-Gálvez, Ragnar Thobaben, Mikael Skoglund, (参考訳) 本稿では,異なる種類の損失に対して,新しい高確率PAC-Bayes境界を提案する。 まず、有界範囲の損失に対して、すべてのパラメータ値に対して一様に保持されるカトーニ境界の強化版を復元する。 これにより、文学における以前の境界よりも解釈可能で厳密な新しい高速・混合レート境界が導かれる。 特に、高速レート境界はシーガー-ラングフォード境界と同値である。 次に,損失の累積生成関数が有界なときのPAC-Bayes Chernoffアナログと,損失の第2モーメントが有界なときの有界という2つの新しいパラメータフリー境界を導入する。 これらの2つの境界は `in probability'' パラメータ最適化問題に対する事象の空間の離散化に基づく新しい手法を用いて得られる。 この手法は、パラメータの空間上の格子を最適化する従来の手法よりもシンプルでより一般的なものである。 最後に、既存の任意の境界に適用可能な単純な手法を用いて、すべての前の結果を任意の時値境界まで拡張する。

In this paper, we present new high-probability PAC-Bayes bounds for different types of losses. Firstly, for losses with a bounded range, we recover a strengthened version of Catoni's bound that holds uniformly for all parameter values. This leads to new fast-rate and mixed-rate bounds that are interpretable and tighter than previous bounds in the literature. In particular, the fast-rate bound is equivalent to the Seeger--Langford bound. Secondly, for losses with more general tail behaviors, we introduce two new parameter-free bounds: a PAC-Bayes Chernoff analogue when the loss' cumulative generating function is bounded, and a bound when the loss' second moment is bounded. These two bounds are obtained using a new technique based on a discretization of the space of possible events for the ``in probability'' parameter optimization problem. This technique is both simpler and more general than previous approaches optimizing over a grid on the parameters' space. Finally, using a simple technique that is applicable to any existing bound, we extend all previous results to anytime-valid bounds.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# 非局所量子計算と情報理論暗号

Relating non-local quantum computation to information theoretic cryptography ( http://arxiv.org/abs/2306.16462v5 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Alex May, Florian Speelman, Philip Verduyn Lunel, (参考訳) 非局所量子計算(NLQC)は位置検証スキームの不正な方法であり、AdS/CFT対応の文脈に現れている。 ここでは、NLQCを情報理論暗号のより広い文脈に接続し、他の多くのプリミティブに関連付ける。 我々は、NLQCの特別なケースである$f$-routingは、秘密の条件開示(CDS)プリミティブの量子アナログと等価であることを示す。 さらに,コヒーレント関数評価(CFE)と呼ばれる位置検証の特殊な事例についても検討し,CFEプロトコルがプライベート同時メッセージパッシング(PSM)シナリオに対して同様の効率的なプロトコルを誘導することを示す。 これらの暗号プリミティブに位置検証を関連付けることで、暗号文学における多くの結果はNLQCに新しい意味を与え、その逆も与える。 これには、最悪の場合のコストが$f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement(英語版)の最初の部分指数上界、外部にあると思われる問題に対する効率的な$f$-routing(英語版)戦略の最初の例、量子設定におけるCDSの絡み合いの線形下界、CFEの通信コストの線形下界、低T$の量子回路で計算できる関数の量子設定におけるCDSの効率的なプロトコルが含まれる。

Non-local quantum computation (NLQC) is a cheating strategy for position-verification schemes, and has appeared in the context of the AdS/CFT correspondence. Here, we connect NLQC to the wider context of information theoretic cryptography by relating it to a number of other cryptographic primitives. We show one special case of NLQC, known as $f$-routing, is equivalent to the quantum analogue of the conditional disclosure of secrets (CDS) primitive, where by equivalent we mean that a protocol for one task gives a protocol for the other with only small overhead in resource costs. We further consider another special case of position verification, which we call coherent function evaluation (CFE), and show CFE protocols induce similarly efficient protocols for the private simultaneous message passing (PSM) scenario. By relating position-verification to these cryptographic primitives, a number of results in the cryptography literature give new implications for NLQC, and vice versa. These include the first sub-exponential upper bounds on the worst case cost of $f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement, the first example of an efficient $f$-routing strategy for a problem believed to be outside $P/poly$, linear lower bounds on entanglement for CDS in the quantum setting, linear lower bounds on communication cost of CFE, and efficient protocols for CDS in the quantum setting for functions that can be computed with quantum circuits of low $T$ depth.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# インディペンデント・サブネット・トレーニングの理論的理解に向けて

Towards a Better Theoretical Understanding of Independent Subnetwork Training ( http://arxiv.org/abs/2306.16484v2 )

ライセンス: Link先を確認
Egor Shulgin, Peter Richtárik, (参考訳) 大規模機械学習の最近の進歩は、データ並列分散コンピューティングのパラダイムなしでは不可能である。 大規模モデルを用いた分散コンピューティングは通信チャネルに過度な圧力を与えるため、通信コスト削減を目的とした通信圧縮戦略と訓練アルゴリズムの協調設計に向けた重要な研究が進められている。 純粋なデータ並列処理はデータスケーリングを向上しますが、モデルスケーリング特性の貧弱さに悩まされます。 実際、計算ノードはメモリ制約によって著しく制限されており、モデルサイズがさらに増加するのを防いでいる。 このため、巨大ニューラルネットワークモデルのトレーニングにおける最新の成果は、ある種のモデル並列性にも依存している。 本研究は,最近提案された高効率技術である独立サブネットワークトレーニング(IST)について,より理論的に考察する。 圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを特定し,その最適化性能を2次モデル上で正確に解析する。

Modern advancements in large-scale machine learning would be impossible without the paradigm of data-parallel distributed computing. Since distributed computing with large-scale models imparts excessive pressure on communication channels, significant recent research has been directed toward co-designing communication compression strategies and training algorithms with the goal of reducing communication costs. While pure data parallelism allows better data scaling, it suffers from poor model scaling properties. Indeed, compute nodes are severely limited by memory constraints, preventing further increases in model size. For this reason, the latest achievements in training giant neural network models also rely on some form of model parallelism. In this work, we take a closer theoretical look at Independent Subnetwork Training (IST), which is a recently proposed and highly effective technique for solving the aforementioned problems. We identify fundamental differences between IST and alternative approaches, such as distributed methods with compressed communication, and provide a precise analysis of its optimization performance on a quadratic model.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# MALIBO: 自由ベイズ最適化のためのメタラーニング

MALIBO: Meta-learning for Likelihood-free Bayesian Optimization ( http://arxiv.org/abs/2307.03565v2 )

ライセンス: Link先を確認
Jiarong Pan, Stefan Falkner, Felix Berkenkamp, Joaquin Vanschoren, (参考訳) ベイズ最適化(BO)はコストのかかるブラックボックス関数を最適化する一般的な方法である。 従来のBOは、新しいタスクをスクラッチから最適化するが、メタラーニングは、関連するタスクからの知識を活用して、新しいタスクを高速に最適化する方法として登場した。 しかし、既存のメタラーニングBO法は、スケーラビリティの問題に悩まされ、タスクのスケールやノイズタイプが異なる観察に敏感なサロゲートモデルに依存している。 さらに、彼らはしばしばタスクの類似性に関連する不確実性を見落とします。 これは、限られた観察しか得られなかったり、新しいタスクが関連するタスクと大きく異なる場合、信頼性の低いタスク適応につながる。 これらの制約に対処するため,サロゲートモデルをバイパスし,タスク間のクエリの有用性を直接学習するメタラーニングBO手法を提案する。 本手法は,タスクの不確実性を明示的にモデル化し,新しいタスクへのロバスト適応を可能にする補助モデルを含む。 実験結果から,本手法はリアルタイムに高い性能を示し,様々なベンチマークで最先端のメタラーニングBO法より優れていることが示された。

Bayesian optimization (BO) is a popular method to optimize costly black-box functions. While traditional BO optimizes each new target task from scratch, meta-learning has emerged as a way to leverage knowledge from related tasks to optimize new tasks faster. However, existing meta-learning BO methods rely on surrogate models that suffer from scalability issues and are sensitive to observations with different scales and noise types across tasks. Moreover, they often overlook the uncertainty associated with task similarity. This leads to unreliable task adaptation when only limited observations are obtained or when the new tasks differ significantly from the related tasks. To address these limitations, we propose a novel meta-learning BO approach that bypasses the surrogate model and directly learns the utility of queries across tasks. Our method explicitly models task uncertainty and includes an auxiliary model to enable robust adaptation to new tasks. Extensive experiments show that our method demonstrates strong anytime performance and outperforms state-of-the-art meta-learning BO methods in various benchmarks.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# 永続的ホモロジーによる多部的絡み合いの探索

Probing multipartite entanglement through persistent homology ( http://arxiv.org/abs/2307.07492v2 )

ライセンス: Link先を確認
Gregory A. Hamilton, Felix Leditzky, (参考訳) 本稿では、トポロジ的データ解析に使用されるツールである永続的ホモロジーによるマルチパーティの絡み合いの研究を提案する。 永続ホモロジーにおいて、永続複体と呼ばれる単体錯体の1パラメータの濾過は、基礎となるデータセットの持続的位相的特徴を明らかにするために用いられる。 これは、すべての関連する位相情報を符号化した永続バーコードとして視覚化できるホモロジー不変量の計算によって達成される。 本研究では, この手法を, 個々の系を単体錯体の頂点として解釈することにより, 多部量子系の研究に応用する。 与えられた多部量子状態から永続体を構築するために、変形総相関と呼ばれる二部共役情報の一般化を用いる。 この複素体の永続バーコードを計算すると、量子状態における多粒子の絡み合いの可視化や「トポロジカル指紋」が得られる。 バーコードはまた、永続複体のユーラー特性と呼ばれる位相的要約を計算するためにも用いられる。 我々の場合、この統合されたオイラー特性は、相互情報の別の多部版である変形された相互作用情報と等しいことを示す。 線形エントロピーを基礎となるエントロピーとして選ぶとき、この変形した相互作用情報は、よく知られた絡み合い測度である$n$-tangleと一致する。 したがって、永続バーコードは、そのトポロジ的要約である$n$-tangle単独よりも、絡み合い構造に関するよりきめ細かい情報を提供し、これは同一の$n$-tangleであるが異なるバーコードを持つ状態のペアの例を示す。 さらに、固定部分集合に対して計算された永続ホモロジーの変種は、強い部分加法性とエントロピーの不等式に興味深い関係をもたらす。 また、任意の資源理論へのアプローチの一般化の可能性についてもコメントする。

We propose a study of multipartite entanglement through persistent homology, a tool used in topological data analysis. In persistent homology, a 1-parameter filtration of simplicial complexes called persistence complex is used to reveal persistent topological features of the underlying data set. This is achieved via the computation of homological invariants that can be visualized as a persistence barcode encoding all relevant topological information. In this work, we apply this technique to study multipartite quantum systems by interpreting the individual systems as vertices of a simplicial complex. To construct a persistence complex from a given multipartite quantum state, we use a generalization of the bipartite mutual information called the deformed total correlation. Computing the persistence barcodes of this complex yields a visualization or `topological fingerprint' of the multipartite entanglement in the quantum state. The barcodes can also be used to compute a topological summary called the integrated Euler characteristic of a persistence complex. We show that in our case this integrated Euler characteristic is equal to the deformed interaction information, another multipartite version of mutual information. When choosing the linear entropy as the underlying entropy, this deformed interaction information coincides with the $n$-tangle, a well-known entanglement measure. The persistence barcodes thus provide more fine-grained information about the entanglement structure than its topological summary, the $n$-tangle, alone, which we illustrate with examples of pairs of states with identical $n$-tangle but different barcodes. Furthermore, a variant of persistent homology computed relative to a fixed subset yields an interesting connection to strong subadditivity and entropy inequalities. We also comment on a possible generalization of our approach to arbitrary resource theories.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# 拡散確率モデルを用いた雑音認識音声強調

Noise-aware Speech Enhancement using Diffusion Probabilistic Model ( http://arxiv.org/abs/2307.08029v2 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng, (参考訳) 近年の拡散モデルの発展に伴い, 生成音声強調(SE)が注目されている。 しかし,既存の研究は主にクリーン音声の性質に焦点が当てられており,実世界の様々な騒音情報を過小評価している。 本稿では,拡散モデルにおける逆過程を導くために,雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。 具体的には、ノイズコンディショナーとして音響埋め込みを生成するためのノイズ分類(NC)モデルを設計し、逆復調過程を導出する。 一方,マルチタスク学習方式はSEタスクとNCタスクを協調的に最適化し,コンディショナーの雑音特異性を高める。 NASEは任意の拡散SEモデルに一般化できるプラグイン・アンド・プレイモジュールであることが示されている。 VB-DEMANDデータセットの実験により、NASEは、特に目に見えない雑音において、複数の主流拡散SEモデルを効果的に改善することが示された。

With recent advances of diffusion model, generative speech enhancement (SE) has attracted a surge of research interest due to its great potential for unseen testing noises. However, existing efforts mainly focus on inherent properties of clean speech, underexploiting the varying noise information in real world. In this paper, we propose a noise-aware speech enhancement (NASE) approach that extracts noise-specific information to guide the reverse process in diffusion model. Specifically, we design a noise classification (NC) model to produce acoustic embedding as a noise conditioner to guide the reverse denoising process. Meanwhile, a multi-task learning scheme is devised to jointly optimize SE and NC tasks to enhance the noise specificity of conditioner. NASE is shown to be a plug-and-play module that can be generalized to any diffusion SE models. Experiments on VB-DEMAND dataset show that NASE effectively improves multiple mainstream diffusion SE models, especially on unseen noises.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-04
# VITS : 文脈的バンディットのための変分推論トムソンサンプリング

VITS : Variational Inference Thomson Sampling for contextual bandits ( http://arxiv.org/abs/2307.10167v2 )

ライセンス: Link先を確認
Pierre Clavier, Tom Huix, Alain Durmus, (参考訳) 本稿では,文脈的バンディットに対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。 各ラウンドでは、従来のTSは現在の後部分布からのサンプルを必要とするが、通常は引き離し可能である。 この問題を回避するため、近似推論技術を用い、後部に近い分布のサンプルを提供する。 しかし、現在の近似手法は低い推定(ラプラス近似)または計算に高価である(MCMC法、アンサンブルサンプリング...)。 本稿では,ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。 このスキームは、サンプリングが容易で、計算効率が良い強力な後続近似を提供し、TSにとって理想的な選択である。 さらに,VITS は線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成できることを示す。 最後に、人工と実世界の両方のデータセットに対するVITSの有効性を実験的に実証した。

In this paper, we introduce and analyze a variant of the Thompson sampling (TS) algorithm for contextual bandits. At each round, traditional TS requires samples from the current posterior distribution, which is usually intractable. To circumvent this issue, approximate inference techniques can be used and provide samples with distribution close to the posteriors. However, current approximate techniques yield to either poor estimation (Laplace approximation) or can be computationally expensive (MCMC methods, Ensemble sampling...). In this paper, we propose a new algorithm, Varational Inference Thompson sampling VITS, based on Gaussian Variational Inference. This scheme provides powerful posterior approximations which are easy to sample from, and is computationally efficient, making it an ideal choice for TS. In addition, we show that VITS achieves a sub-linear regret bound of the same order in the dimension and number of round as traditional TS for linear contextual bandit. Finally, we demonstrate experimentally the effectiveness of VITS on both synthetic and real world datasets.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 高速かつ効率的なスパイクニューラルネットワークの学習のためのゲーテッドアテンション符号化

Gated Attention Coding for Training High-performance and Efficient Spiking Neural Networks ( http://arxiv.org/abs/2308.06582v2 )

ライセンス: Link先を確認
Xuerui Qiu, Rui-Jie Zhu, Yuhong Chou, Zhaorui Wang, Liang-jian Deng, Guoqi Li, (参考訳) スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動性のため、従来の人工知能ニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として登場している。 SNNでは、外部入力刺激を時空間の特徴系列に変換するため、符号化が不可欠である。 しかし、既存のディープSNNの多くは、パワーレススパイク表現を生成するダイレクトコーディングに依存しており、人間の視覚に固有の時間的ダイナミクスを欠いている。 そこで我々は,多次元のゲートアテンションユニットを利用したGAC(Gated Attention Coding)というプラグイン・アンド・プレイモジュールを導入し,入力をSNNアーキテクチャに入力する前に効率よく強力な表現に符号化する。 GACは、SNNのスパイク駆動性を破壊しない前処理層として機能し、最小限の変更で効率的なニューロモルフィックハードウェアの実装を可能にする。 観測者モデル理論解析により,GACの注意機構が時間的ダイナミクスと符号化効率を向上させることを示す。 CIFAR10/100とImageNetデータセットの実験では、GACが最先端の精度を目覚ましい効率で達成していることが示されている。 特に、CIFAR100でトップ1の精度を3.10\%改善し、ImageNetで1.07\%、エネルギー使用量を66.9\%に削減した。 我々の知る限りでは、大規模データセットにおける例外的な効率性と効率性を備えたディープSNNにおいて、注目に基づく動的コーディングスキームを探求するのは、これが初めてである。

Spiking neural networks (SNNs) are emerging as an energy-efficient alternative to traditional artificial neural networks (ANNs) due to their unique spike-based event-driven nature. Coding is crucial in SNNs as it converts external input stimuli into spatio-temporal feature sequences. However, most existing deep SNNs rely on direct coding that generates powerless spike representation and lacks the temporal dynamics inherent in human vision. Hence, we introduce Gated Attention Coding (GAC), a plug-and-play module that leverages the multi-dimensional gated attention unit to efficiently encode inputs into powerful representations before feeding them into the SNN architecture. GAC functions as a preprocessing layer that does not disrupt the spike-driven nature of the SNN, making it amenable to efficient neuromorphic hardware implementation with minimal modifications. Through an observer model theoretical analysis, we demonstrate GAC's attention mechanism improves temporal dynamics and coding efficiency. Experiments on CIFAR10/100 and ImageNet datasets demonstrate that GAC achieves state-of-the-art accuracy with remarkable efficiency. Notably, we improve top-1 accuracy by 3.10\% on CIFAR100 with only 6-time steps and 1.07\% on ImageNet while reducing energy usage to 66.9\% of the previous works. To our best knowledge, it is the first time to explore the attention-based dynamic coding scheme in deep SNNs, with exceptional effectiveness and efficiency on large-scale datasets.The Code is available at https://github.com/bollossom/GAC.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# アクティベーションの追加:最適化なしで言語モデルをステアリングする

Activation Addition: Steering Language Models Without Optimization ( http://arxiv.org/abs/2308.10248v4 )

ライセンス: Link先を確認
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid, (参考訳) 大きな言語モデルの振る舞いを確実に制御することは、非常にオープンな問題である。 既存の手法には、教師付き微調整、人間のフィードバックからの強化学習、迅速なエンジニアリング、ガイド付き復号化などがある。 代わりに、アクティベーションエンジニアリングを調査し、モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。 我々は、自然言語で暗黙的に指定された'ステアリングベクトル'でフォワードパスをバイアスする。 私たちの Activation Addition (ActAdd) メソッドは、プロンプトのペアによるアクティベーションの違いを計算します。 我々は, LLM (LLaMA-3, OPT, GPT-2, GPT-J) に ActAdd を付加し, 解毒および負対正の感情制御において SOTA を得る。 提案手法は,オフターゲットタスクの性能を維持しつつ,トピックや感情といった高レベルな出力特性を推論時間で制御する。 ActAddは微調整やRLHFよりもはるかに少ない計算と実装の労力を要し、自然言語によるユーザコントロールを可能にします。

Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering and guided decoding. We instead investigate activation engineering: modifying activations at inference-time to predictably alter model behavior. We bias the forward pass with a 'steering vector' implicitly specified through natural language. Past work learned these steering vectors; our Activation Addition (ActAdd) method instead computes them by taking activation differences resulting from pairs of prompts. We demonstrate ActAdd on a range of LLMs (LLaMA-3, OPT, GPT-2, and GPT-J), obtaining SOTA on detoxification and negative-to-positive sentiment control. Our approach yields inference-time control over high-level properties of output like topic and sentiment while preserving performance on off-target tasks. ActAdd takes far less compute and implementation effort than finetuning or RLHF, allows users control through natural language, and its computational overhead (as a fraction of inference time) appears stable or improving over increasing model size.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# A/Bテストのための普遍的最適アルゴリズムについて

On Universally Optimal Algorithms for A/B Testing ( http://arxiv.org/abs/2308.12000v4 )

ライセンス: Link先を確認
Po-An Wang, Kaito Ariu, Alexandre Proutiere, (参考訳) ベルヌーイ報奨を伴う確率的マルチアームバンディットにおける固定予算によるベストアーム識別の問題について検討する。 A/Bテスト問題としても知られる2つのアームの問題に対して、アルゴリズムが存在しないことが証明される。 i)全ての事例において、各アームを等しくサンプリングするアルゴリズム(「一様サンプリングアルゴリズム」と呼ぶ)と同様に、そのアルゴリズムを実行する。 (ii)少なくとも1つのインスタンスで一様サンプリングを厳格に上回る。 要するに、一様サンプリングアルゴリズムに勝るアルゴリズムはない。 この結果を確立するために、まず自然クラス {\it consistent} と {\it stable} アルゴリズムを導入し、全てのインスタンスにおける一様サンプリングアルゴリズムと同様に動作する任意のアルゴリズムがこのクラスに属することを示す。 証明は、任意の一貫した安定なアルゴリズムで満たされた誤差率の低い境界を導出し、一様サンプリングアルゴリズムがこの下限と一致することを示す。 この結果から,2つの開問題に対する解が得られる。 2つ以上の腕を持つ一般的な問題に対して、最初の一連の結果を提供する。 本稿では,SR アルゴリズムの漸近誤差率を特徴付けるとともに,一様サンプリングアルゴリズムが SR アルゴリズムより優れていることを示す。

We study the problem of best-arm identification with fixed budget in stochastic multi-armed bandits with Bernoulli rewards. For the problem with two arms, also known as the A/B testing problem, we prove that there is no algorithm that (i) performs as well as the algorithm sampling each arm equally (referred to as the {\it uniform sampling} algorithm) in all instances, and that (ii) strictly outperforms uniform sampling on at least one instance. In short, there is no algorithm better than the uniform sampling algorithm. To establish this result, we first introduce the natural class of {\it consistent} and {\it stable} algorithms, and show that any algorithm that performs as well as the uniform sampling algorithm in all instances belongs to this class. The proof then proceeds by deriving a lower bound on the error rate satisfied by any consistent and stable algorithm, and by showing that the uniform sampling algorithm matches this lower bound. Our results provide a solution to the two open problems presented in \citep{qin2022open}. For the general problem with more than two arms, we provide a first set of results. We characterize the asymptotic error rate of the celebrated Successive Rejects (SR) algorithm \citep{audibert2010best} and show that, surprisingly, the uniform sampling algorithm outperforms the SR algorithm in some instances.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# コンセプト・ボトルネックへの介入を学ぶ

Learning to Intervene on Concept Bottlenecks ( http://arxiv.org/abs/2308.13453v3 )

ライセンス: Link先を確認
David Steinmann, Wolfgang Stammer, Felix Friedrich, Kristian Kersting, (参考訳) ディープラーニングモデルは解釈可能性に欠けることが多いが、概念ボトルネックモデル(CBM)は概念表現を通じて固有の説明を提供する。 さらに、ユーザーは概念値を更新し、モデルの予測出力を補正することで、これらの概念に対する介入的相互作用を行うことができる。 この時点まで、これらの介入は通常、モデルに一度だけ適用され、その後破棄されました。 これを修正するために、過去の介入の記憶を保持する概念的ボトルネックメモリモデル(CB2Ms)を提案する。 具体的には、CB2Mは2倍のメモリを利用して、介入を適切な新しい状況に一般化し、モデルがエラーを特定し、以前の介入を再適用できるようにする。 このようにして、CB2Mは、最初に得られたいくつかの介入からモデルパフォーマンスを自動的に改善することを学ぶ。 事前の人間の介入が得られない場合、CB2MはCBMボトルネックの潜在的な誤りを検出し、標的とする介入を要求する。 分散シフト処理や整合データといった難解なシナリオに対する実験的な評価は、CB2Msが未確認データへの介入をうまく一般化することができ、正しく推論された概念を識別できることを実証している。 したがって、CB2Mは、ユーザのインタラクションを誘導し、介入を少なくすることで、ユーザがCBMに対してインタラクティブなフィードバックを提供するための貴重なツールである。

While deep learning models often lack interpretability, concept bottleneck models (CBMs) provide inherent explanations via their concept representations. Moreover, they allow users to perform interventional interactions on these concepts by updating the concept values and thus correcting the predictive output of the model. Up to this point, these interventions were typically applied to the model just once and then discarded. To rectify this, we present concept bottleneck memory models (CB2Ms), which keep a memory of past interventions. Specifically, CB2Ms leverage a two-fold memory to generalize interventions to appropriate novel situations, enabling the model to identify errors and reapply previous interventions. This way, a CB2M learns to automatically improve model performance from a few initially obtained interventions. If no prior human interventions are available, a CB2M can detect potential mistakes of the CBM bottleneck and request targeted interventions. Our experimental evaluations on challenging scenarios like handling distribution shifts and confounded data demonstrate that CB2Ms are able to successfully generalize interventions to unseen data and can indeed identify wrongly inferred concepts. Hence, CB2Ms are a valuable tool for users to provide interactive feedback on CBMs, by guiding a user's interaction and requiring fewer interventions.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 不均衡研究提案トピック推論における学際的公正性:選択補間を用いた階層型変圧器に基づく方法

Interdisciplinary Fairness in Imbalanced Research Proposal Topic Inference: A Hierarchical Transformer-based Method with Selective Interpolation ( http://arxiv.org/abs/2309.01717v3 )

ライセンス: Link先を確認
Meng Xiao, Min Wu, Ziyue Qiao, Yanjie Fu, Zhiyuan Ning, Yi Du, Yuanchun Zhou, (参考訳) 研究提案におけるトピック推論の目的は、資金提供機関が定める規律体系から最も適した学際的区分を得ることである。 機関はその後、この部門に基づいて、データベースから適切な査読専門家を見つける。 自動トピック推論は、手動のトピックフィリングによるヒューマンエラーを低減し、資金調達機関とプロジェクト申請者の間の知識ギャップを埋め、システム効率を向上させる。 既存の手法では、これを階層的な多ラベル分類問題としてモデル化することに重点を置いており、生成モデルを用いて最も適切なトピック情報を反復的に推測する。 しかし、これらの手法は、学際的な研究提案と学際的でない提案とのスケールの差を見落とし、自動推論システムが学間的提案を学際的提案と非学際的提案と分類する不当な現象を招き、専門家の課題の間に不公平を引き起こす。 複雑な規律の下でこのデータ不均衡の問題にどう対処すればいいのか。 本稿では,Transformerエンコーダ・デコーダアーキテクチャに基づくトピックラベル推論システムを提案する。 さらに,クロストピック確率やトピック発生確率などの非パラメトリック指標に基づいて,補間手法を用いて,非学際的提案から擬似学際的提案を作成する。 このアプローチは、モデルトレーニング中のシステムのバイアスを低減することを目的としています。 最後に,提案手法の有効性を検証するために,実世界のデータセットについて広範な実験を行った。 実験の結果,本研究のトレーニング戦略は,トピック推論タスクで生じる不公平さを著しく軽減できることが示された。

The objective of topic inference in research proposals aims to obtain the most suitable disciplinary division from the discipline system defined by a funding agency. The agency will subsequently find appropriate peer review experts from their database based on this division. Automated topic inference can reduce human errors caused by manual topic filling, bridge the knowledge gap between funding agencies and project applicants, and improve system efficiency. Existing methods focus on modeling this as a hierarchical multi-label classification problem, using generative models to iteratively infer the most appropriate topic information. However, these methods overlook the gap in scale between interdisciplinary research proposals and non-interdisciplinary ones, leading to an unjust phenomenon where the automated inference system categorizes interdisciplinary proposals as non-interdisciplinary, causing unfairness during the expert assignment. How can we address this data imbalance issue under a complex discipline system and hence resolve this unfairness? In this paper, we implement a topic label inference system based on a Transformer encoder-decoder architecture. Furthermore, we utilize interpolation techniques to create a series of pseudo-interdisciplinary proposals from non-interdisciplinary ones during training based on non-parametric indicators such as cross-topic probabilities and topic occurrence probabilities. This approach aims to reduce the bias of the system during model training. Finally, we conduct extensive experiments on a real-world dataset to verify the effectiveness of the proposed method. The experimental results demonstrate that our training strategy can significantly mitigate the unfairness generated in the topic inference task.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 推薦システムとしてのChatGPTの評価:厳密なアプローチ

Evaluating ChatGPT as a Recommender System: A Rigorous Approach ( http://arxiv.org/abs/2309.03613v2 )

ライセンス: Link先を確認
Dario Di Palma, Giovanni Maria Biancofiore, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia, Eugenio Di Sciascio, (参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語関連のタスクを扱う際、印象的な能力を示した。 様々なLLMの中で、最近の研究はChatGPTの多様体タスク、特にゼロ/フェーショットプロンプト条件下での優れた性能を評価している。 このような成功を受けて、Recommender Systems (RSs) の研究コミュニティは、レコメンデーションシナリオ内でその潜在的な応用を調査し始めた。 しかしながら、ChatGPTの能力をRSに組み込む様々な方法が提案されているが、現在の研究では、生成モデルの特異性を考慮して、そのようなモデルを包括的に評価することに苦労している。 しばしば、評価は幻覚、重複、そして非閉鎖的なドメインレコメンデーションを考慮せず、正確さの指標にのみ焦点をあてる。 このギャップを埋めるために、我々はChatGPTのRSとしての能力を評価する頑健な評価パイプラインを提案し、これらの側面を考慮に入れた後処理のChatGPTレコメンデーションを提案する。 このパイプラインを通じて、ロールプレイングプロンプトを用いたゼロショット条件下でのレコメンデーションタスクにおけるChatGPT-3.5とChatGPT-4の性能について検討する。 モデルの特徴を,トップN勧告,コールドスタート勧告,レコメンデーションリストの再ランク付け,映画,音楽,書籍の3つの領域で分析する。 実験の結果,ChatGPTは書籍ドメインのベースラインよりも精度が高いことがわかった。 また、リグレードとコールドスタートのシナリオに優れ、適切な超精度のメトリクスを維持している。 さらに、ChatGPTレコメンデーションと他のレコメンデーションとの類似性を計測し、ChatGPTがレコメンデーションシステムの範囲内でどのように分類できるかについての洞察を提供する。 評価パイプラインは、将来の研究のために公開されている。

Large Language Models (LLMs) have recently shown impressive abilities in handling various natural language-related tasks. Among different LLMs, current studies have assessed ChatGPT's superior performance across manifold tasks, especially under the zero/few-shot prompting conditions. Given such successes, the Recommender Systems (RSs) research community have started investigating its potential applications within the recommendation scenario. However, although various methods have been proposed to integrate ChatGPT's capabilities into RSs, current research struggles to comprehensively evaluate such models while considering the peculiarities of generative models. Often, evaluations do not consider hallucinations, duplications, and out-of-the-closed domain recommendations and solely focus on accuracy metrics, neglecting the impact on beyond-accuracy facets. To bridge this gap, we propose a robust evaluation pipeline to assess ChatGPT's ability as an RS and post-process ChatGPT recommendations to account for these aspects. Through this pipeline, we investigate ChatGPT-3.5 and ChatGPT-4 performance in the recommendation task under the zero-shot condition employing the role-playing prompt. We analyze the model's functionality in three settings: the Top-N Recommendation, the cold-start recommendation, and the re-ranking of a list of recommendations, and in three domains: movies, music, and books. The experiments reveal that ChatGPT exhibits higher accuracy than the baselines on books domain. It also excels in re-ranking and cold-start scenarios while maintaining reasonable beyond-accuracy metrics. Furthermore, we measure the similarity between the ChatGPT recommendations and the other recommenders, providing insights about how ChatGPT could be categorized in the realm of recommender systems. The evaluation pipeline is publicly released for future research.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 単純集合による代数トポロジーのための新しい量子計算セット

A new quantum computational set-up for algebraic topology via simplicial sets ( http://arxiv.org/abs/2309.11304v3 )

ライセンス: Link先を確認
Roberto Zucchini, (参考訳) 本稿では,Simplicial set theoryに基づく代数トポロジーの量子計算フレームワークについて述べる。 これは、主にトポロジカルデータ解析を目的とし、単純な複素数に制限された以前の研究を拡張した。 提案された集合は任意のパラ有限単純集合に適用され、有限次元の単純ヒルベルト空間(英語版)(simplicial Hilbert space)に関連付けて進行し、その単純作用素構造はある程度の深さで研究される。 特に、simplicial set のホモロジーを決定する問題は、simplicial Hilbert frameworkの中でどのように解決できるかを示す。 さらに、有限資源の量子計算環境において、単純集合論アルゴリズムを実装可能な条件について検討する。 最後に、いくつかの基本量子アルゴリズムを組み合わせた単純集合の単純ホモロジー空間とベッチ数を計算することができる量子アルゴリズムスキームを概説する。

In this paper, a quantum computational framework for algebraic topology based on simplicial set theory is presented. This extends previous work, which was limited to simplicial complexes and aimed mostly to topological data analysis. The proposed set--up applies to any parafinite simplicial set and proceeds by associating with it a finite dimensional simplicial Hilbert space, whose simplicial operator structure is studied in some depth. It is shown in particular how the problem of determining the simplicial set's homology can be solved within the simplicial Hilbert framework. Further, the conditions under which simplicial set theoretic algorithms can be implemented in a quantum computational setting with finite resources are examined. Finally a quantum algorithmic scheme capable to compute the simplicial homology spaces and Betti numbers of a simplicial set combining a number of basic quantum algorithms is outlined.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# モバイルアプリ開発におけるロバストエネルギー消費予測

Robust Energy Consumption Prediction with a Missing Value-Resilient Metaheuristic-based Neural Network in Mobile App Development ( http://arxiv.org/abs/2309.12484v2 )

ライセンス: Link先を確認
Seyed Jalaleddin Mousavirad, Luís A. Alexandre, (参考訳) エネルギー消費はモバイルアプリケーション開発における基本的な関心事であり、開発者とエンドユーザーの両方にとって大きな意味を持つ。 本研究の目的は、メタヒューリスティックアプローチによって強化された新しいニューラルネットワークベースのフレームワークを提案し、モバイルアプリ開発における堅牢なエネルギー予測を実現することである。 ここでのメタヒューリスティックなアプローチは、2つの目標を達成することを目的としています。 1)適切な学習アルゴリズムとその対応するハイパーパラメータの同定 2) 各層内の最適な層数とニューロン数を決定する。 さらに、携帯電話の特定の側面にアクセスするのに制限があるため、データセットに欠落したデータがあり、提案したフレームワークがこれを扱うことができる。 さらに,13の基数と高度なメタヒューリスティックアルゴリズムを用いた最適アルゴリズム選択手法を考案し,欠落した値に対する精度と耐性に基づいて最適なアルゴリズムを同定した。 提案したメタヒューリスティックアルゴリズムの表現は変数サイズであり,候補解の長さは時間とともに変化する。 我々は,各アルゴリズムが発見するアーキテクチャに基づくアルゴリズムを,欠落値,精度,F尺度,安定性解析の異なるレベルで比較した。 さらに,結果の統計的比較のためのウィルコクソン符号ランク試験を行った。 大規模な実験により,提案手法はエネルギー消費予測を著しく改善することが示された。 特に、微分進化(DE)、DE(DE)、共分散行列適応進化戦略(Covariance Matrix Adaptation Evolution Strategy)の亜種であるJADEアルゴリズムは、様々な条件下でより優れた結果をもたらす。

Energy consumption is a fundamental concern in mobile application development, bearing substantial significance for both developers and end-users. Main objective of this research is to propose a novel neural network-based framework, enhanced by a metaheuristic approach, to achieve robust energy prediction in the context of mobile app development. The metaheuristic approach here aims to achieve two goals: 1) identifying suitable learning algorithms and their corresponding hyperparameters, and 2) determining the optimal number of layers and neurons within each layer. Moreover, due to limitations in accessing certain aspects of a mobile phone, there might be missing data in the data set, and the proposed framework can handle this. In addition, we conducted an optimal algorithm selection strategy, employing 13 base and advanced metaheuristic algorithms, to identify the best algorithm based on accuracy and resistance to missing values. The representation in our proposed metaheuristic algorithm is variable-size, meaning that the length of the candidate solutions changes over time. We compared the algorithms based on the architecture found by each algorithm at different levels of missing values, accuracy, F-measure, and stability analysis. Additionally, we conducted a Wilcoxon signed-rank test for statistical comparison of the results. The extensive experiments show that our proposed approach significantly improves energy consumption prediction. Particularly, the JADE algorithm, a variant of Differential Evolution (DE), DE, and the Covariance Matrix Adaptation Evolution Strategy deliver superior results under various conditions and across different missing value levels.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# PACIT: より良いインテクストインストラクションチューニングのための例の力を解き放つ

PACIT: Unlocking the Power of Examples for Better In-Context Instruction Tuning ( http://arxiv.org/abs/2310.00901v3 )

ライセンス: Link先を確認
Tianci Xue, Ziqi Wang, Yixia Li, Yun Chen, Guanhua Chen, (参考訳) インストラクションチューニングは、教師付き命令データで微調整することで、大規模言語モデルの命令追従能力を向上する。 従来の研究では、より優れたパフォーマンスを実現するために、特定の正または負の例をプロンプトに組み込んだインコンテキスト・インストラクション・チューニング(ICIT)が提案されている。 そこで本研究では,目的とする難易度という教育的概念にインスパイアされた,シンプルで効果的なインコンテキスト・インストラクション・チューニング手法であるPACITを提案する。 PACIT法は、単に読むのではなく、肯定的な例と否定的な例の区別を積極的に理解するようモデルに促すことによって、例の力を解き放つ。 モデルでは、まずタスク記述に従って提案された例の正当性を検証し、タスクインスタンスに対するより良い応答を生成する条件として設定する。 PACITの有効性を実証し、ICITベースラインをドメイン内およびドメイン外の両方で最大9.16と3.14のROUGE-Lスコアで上回った。 さらに, PACITは, 自己指示法で正負の例がすべて生成される場合でも, 命令チューニングの性能を顕著に向上させることができる。

Instruction tuning enhances the instruction following ability of large language models by finetuning with supervised instruction data. Previous work proposes in-context instruction tuning (ICIT) where specific positive or negative examples are incorporated into the prompt for better performance. In this work, we propose PACIT, a simple and effective in-context instruction tuning method, inspired by the pedagogical concept of desirable difficulty. The PACIT method unlocks the power of examples by encouraging the model to actively learn to grasp the distinctions between the positive and negative examples instead of merely reading. The model is expected to first verify the correctness of the provided example according to the task description, which is then set as the condition for generating a better response to the task instance. Our extensive experiments prove the effectiveness of PACIT, outperforming ICIT baseline on both in-domain and out-domain tasks up to 9.16 and 3.14 average ROUGE-L scores, respectively. Moreover, PACIT can notably enhance the performance of instruction tuning even when all positive and negative examples are generated with a self-instruct method.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 連続したコントラスト音声言語理解

Continual Contrastive Spoken Language Understanding ( http://arxiv.org/abs/2310.02699v3 )

ライセンス: Link先を確認
Umberto Cappellazzo, Enrico Fini, Muqiao Yang, Daniele Falavigna, Alessio Brutti, Bhiksha Raj, (参考訳) 近年、ニューラルネットワークは様々な分野において顕著な進歩を見せており、音声処理は例外ではない。 しかし、この分野における最近のブレークスルーは、大規模なデータセットと膨大なコンピューティングリソースを使用した広範なオフライントレーニングを必要とする。 残念なことに、これらのモデルは、新しいタスクを継続的に学習する際に、以前取得した知識を維持するのに苦労している。 本稿では,クラスインクリメンタルラーニング(CIL)設定における音声言語理解のためのシーケンス・ツー・シーケンス学習モデルの問題点を考察し,経験的リプレイとコントラスト学習の組み合わせに依存するCIL手法であるCOCONUTを提案する。 COCONUTは、リハーサルサンプルのみに適用された標準的な教師付きコントラスト損失の修正版を通じて、同じクラスからより近いサンプルを引き出し、他のクラスをプッシュすることで、学習された表現を保存する。 さらに,音声とテキストの特徴を整列させることにより,モデルが新たなデータの識別的表現をより学習するのに役立つマルチモーダル・コントラッシブ・ロスを利用する。 また, 比較的損失の強さと, 蒸留に使用する教師・学生アーキテクチャを組み合わせるために, 異なるコントラスト的設計について検討した。 確立された2つのSLUデータセットに対する実験により,提案手法の有効性とベースラインに対する大幅な改善が示された。 また,COCONUTをデコーダ側で動作させるメソッドと組み合わせることで,さらなるメトリクス改善が期待できることを示す。

Recently, neural networks have shown impressive progress across diverse fields, with speech processing being no exception. However, recent breakthroughs in this area require extensive offline training using large datasets and tremendous computing resources. Unfortunately, these models struggle to retain their previously acquired knowledge when learning new tasks continually, and retraining from scratch is almost always impractical. In this paper, we investigate the problem of learning sequence-to-sequence models for spoken language understanding in a class-incremental learning (CIL) setting and we propose COCONUT, a CIL method that relies on the combination of experience replay and contrastive learning. Through a modified version of the standard supervised contrastive loss applied only to the rehearsal samples, COCONUT preserves the learned representations by pulling closer samples from the same class and pushing away the others. Moreover, we leverage a multimodal contrastive loss that helps the model learn more discriminative representations of the new data by aligning audio and text features. We also investigate different contrastive designs to combine the strengths of the contrastive loss with teacher-student architectures used for distillation. Experiments on two established SLU datasets reveal the effectiveness of our proposed approach and significant improvements over the baselines. We also show that COCONUT can be combined with methods that operate on the decoder side of the model, resulting in further metrics improvements.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# コンビニアル・マルチアーマード・バンドに対する敵対的攻撃

Adversarial Attacks on Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2310.05308v2 )

ライセンス: Link先を確認
Rishab Balasubramanian, Jiawei Li, Prasad Tadepalli, Huazheng Wang, Qingyun Wu, Haoyu Zhao, (参考訳) 我々は,コンビニアル・マルチアーム・バンドイット(CMAB)に対する報酬中毒攻撃について検討した。 まず,CMABの脆弱性とロバスト性を捕捉する概念であるCMABの攻撃性に対する十分な,必要な条件を提供する。 攻撃性条件は、スーパーアームの報酬分布やベースアームの結果分布など、対応するCMABインスタンスの固有の性質に依存する。 さらに,攻撃可能なCMABインスタンスに対する攻撃アルゴリズムを考案した。 マルチ武器の盗賊に対する事前の理解とは対照的に,我々の研究は,特定のCMABインスタンスの攻撃性が,盗賊インスタンスが敵に未知であるかによっても左右されるという驚くべき事実を明らかにしている。 この結果から, CMAB に対する敵攻撃は実際は困難であり, CMAB インスタンスに対する一般的な攻撃戦略は存在しないことが示唆された。 我々は,確率的最大被覆問題,オンライン最小スパンニング木,オンラインランキング用カスケード帯状地,オンライン最短経路など,実世界のCMABアプリケーションに関する広範な実験を通じて理論的知見を検証する。

We study reward poisoning attacks on Combinatorial Multi-armed Bandits (CMAB). We first provide a sufficient and necessary condition for the attackability of CMAB, a notion to capture the vulnerability and robustness of CMAB. The attackability condition depends on the intrinsic properties of the corresponding CMAB instance such as the reward distributions of super arms and outcome distributions of base arms. Additionally, we devise an attack algorithm for attackable CMAB instances. Contrary to prior understanding of multi-armed bandits, our work reveals a surprising fact that the attackability of a specific CMAB instance also depends on whether the bandit instance is known or unknown to the adversary. This finding indicates that adversarial attacks on CMAB are difficult in practice and a general attack strategy for any CMAB instance does not exist since the environment is mostly unknown to the adversary. We validate our theoretical findings via extensive experiments on real-world CMAB applications including probabilistic maximum covering problem, online minimum spanning tree, cascading bandits for online ranking, and online shortest path.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# Don't Fine-Tune, Decode: 制約付きデコードによる構文エラーなしツール

Don't Fine-Tune, Decode: Syntax Error-Free Tool Use via Constrained Decoding ( http://arxiv.org/abs/2310.07075v3 )

ライセンス: Link先を確認
Kexun Zhang, Hongqiao Chen, Lei Li, William Wang, (参考訳) 命令調整型大規模言語モデル(LLM)は多くのタスクで優れているが、複雑な構文制約のために外部ツールを使うことができないことが多い。 大規模な微調整とプロンプトは問題を緩和するが、これらのアプローチは高価で一般化が難しい。 さらに、構文制約は微調整時にのみ暗黙的に学習されるため、モデルは頻繁に構文エラーを発生させる。 これらの制約が制約付き復号法に明示的に満足できるという事実から,有限状態マシンを用いた復号アルゴリズムTOOLDECを提案する。 実験の結果,TOOLDECはすべての構文エラーを排除し,様々なベースモデルやベンチマークの性能を著しく向上させることがわかった。 より驚くべきことに、Mistral-Instructのような一般のLLMに適用すると、ToOLDECはツール使用時の精度を初期0%から印象的な52%に改善し、ToolLLMのような特殊な微調整モデルの性能に匹敵する。

Instruction-tuned large language models (LLMs) excel at many tasks but often fail to use external tools due to complicated and unfamiliar syntax constraints. While extensive fine-tuning and prompting can mitigate the issue, these approaches are expensive and hard to generalize. Furthermore, because syntax constraints are only learned implicitly during fine-tuning, models still make frequent syntax errors. Motivated by the fact that these constraints can be better satisfied explicitly with constrained decoding, we propose TOOLDEC, a decoding algorithm using finite state machines to force LLMs to follow tool syntax. Our experiments show that TOOLDEC eliminates all syntax errors, achieving significantly better performance on various base models and benchmarks. More surprisingly, when applied to generalist out-of-the-box LLMs such as Mistral-Instruct, TOOLDEC improves its accuracy in tool use from the initial 0% to an impressive 52%, matching the performance of specialized fine-tuned models such as ToolLLM.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-04
# 深部ReLUネットワークと高次有限要素法II:チェビシェフエミュレーション

Deep ReLU networks and high-order finite element methods II: Chebyshev emulation ( http://arxiv.org/abs/2310.07261v2 )

ライセンス: Link先を確認
Joost A. A. Opschoor, Christoph Schwab, (参考訳) 我々は、任意の有限分割$\mathcal{T}$の有界区間$(a,b)$上で、連続的かつ断片的な多項式関数に対してNNを定義するパラメータの個数の観点から、ディープフィードフォワードReLUニューラルネットワーク(NN)のソボレフノルムの表現率と安定性を示す。 チェビシェフ多項式展開係数を用いて関数近似を符号化するReLU NNの新しい構成法を開発した。 チェビシェフ係数は、逆高速フーリエ変換を用いてクレンショー-クールティス点の関数の値から容易に計算できる。 モノミアルのReLU NNエミュレーション(Opschoor, Petersen and Schwab, 2020),[Montanelli, Yang and Du, 2021]に基づく構造よりも優れた表現率と安定性のバウンドが得られた。 すべてのエミュレーション境界は、インターバルの(任意)パーティション、ターゲットエミュレーション精度、およびパーティションの各要素における多項式次数の観点から明示的である。 ReLU NNエミュレーション誤差推定は、様々な関数とノルムのクラスに対して提供され、数値解析でよく見られる。 特に、点特異点を持つ解析関数に対する指数的ReLUエミュレーション率境界を示し、Chebfun近似と構成的ReLU NNエミュレーションのインターフェースを開発する。

We show expression rates and stability in Sobolev norms of deep feedforward ReLU neural networks (NNs) in terms of the number of parameters defining the NN for continuous, piecewise polynomial functions, on arbitrary, finite partitions $\mathcal{T}$ of a bounded interval $(a,b)$. Novel constructions of ReLU NN surrogates encoding function approximations in terms of Chebyshev polynomial expansion coefficients are developed which require fewer neurons than previous constructions. Chebyshev coefficients can be computed easily from the values of the function in the Clenshaw--Curtis points using the inverse fast Fourier transform. Bounds on expression rates and stability are obtained that are superior to those of constructions based on ReLU NN emulations of monomials as considered in [Opschoor, Petersen and Schwab, 2020] and [Montanelli, Yang and Du, 2021]. All emulation bounds are explicit in terms of the (arbitrary) partition of the interval, the target emulation accuracy and the polynomial degree in each element of the partition. ReLU NN emulation error estimates are provided for various classes of functions and norms, commonly encountered in numerical analysis. In particular, we show exponential ReLU emulation rate bounds for analytic functions with point singularities and develop an interface between Chebfun approximations and constructive ReLU NN emulations.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# インコンテキスト・アンラーニング: ほとんどショット・アンラーナーとしての言語モデル

In-Context Unlearning: Language Models as Few Shot Unlearners ( http://arxiv.org/abs/2310.07579v3 )

ライセンス: Link先を確認
Martin Pawelczyk, Seth Neel, Himabindu Lakkaraju, (参考訳) 特定のトレーニングインスタンスがモデルに与える影響を効率的に除去するマシンアンラーニングは,近年,emph{Right to be Forgotten}などの規制ガイドラインによって注目を集めている。 正確な未学習を実現するには、モデルを完全に再訓練する必要があるが、大規模言語モデル(LLM)のような非常に大きなモデルの場合、計算的に不可能である。 この目的のために、近年の研究では、モデルを再トレーニングすることなく、トレーニングデータの削除を近似するアルゴリズムがいくつか提案されている。 これらのアルゴリズムは、計算上の制約やLLMへのクエリアクセスしか持たないために、実際には保たない仮定であるモデルを更新するために、モデルパラメータへのアクセスに決定的に依存する。 本研究では,LLMのための新しいアンラーニング手法である ``In-Context Unlearning を提案する。 このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。 特定のトレーニングインスタンスを学習するために、これらのインスタンスをLLMに推論時に提示する。 実験の結果、文脈内アンラーニングはモデルパラメータへのアクセスを必要とする他の最先端手法よりも優れており、テスト精度を維持しながら、特定のインスタンスがモデルに与える影響を効果的に除去する。

Machine unlearning, the study of efficiently removing the impact of specific training instances on a model, has garnered increased attention in recent years due to regulatory guidelines such as the \emph{Right to be Forgotten}. Achieving precise unlearning typically involves fully retraining the model and is computationally infeasible in case of very large models such as Large Language Models (LLMs). To this end, recent work has proposed several algorithms which approximate the removal of training data without retraining the model. These algorithms crucially rely on access to the model parameters in order to update them, an assumption that may not hold in practice due to computational constraints or having only query access to the LLMs. In this work, we propose a new class of unlearning methods for LLMs called ``In-Context Unlearning.'' This method unlearns instances from the model by simply providing specific kinds of inputs in context, without the need to update model parameters. To unlearn specific training instances, we present these instances to the LLMs at inference time along with labels that differ from their ground truth. Our experimental results demonstrate that in-context unlearning performs on par with, or in some cases outperforms other state-of-the-art methods that require access to model parameters, effectively removing the influence of specific instances on the model while preserving test accuracy.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# Self-Pro: グラフニューラルネットワークのためのセルフプロンプトとチューニングフレームワーク

Self-Pro: A Self-Prompt and Tuning Framework for Graph Neural Networks ( http://arxiv.org/abs/2310.10362v3 )

ライセンス: Link先を確認
Chenghua Gong, Xiang Li, Jianxiang Yu, Cheng Yao, Jiaqi Tan, Chengcheng Yu, (参考訳) グラフはWebアプリケーションにとって重要なモデリングツールとなり、グラフニューラルネットワーク(GNN)はグラフ表現学習において大きな成功を収めた。 しかし、従来のGNNのパフォーマンスは大量の監督に依存している。 近年, 'pre-train, fine-tune'' はラベル依存や一般化の貧弱な問題に対処するパラダイムとなっている。 しかし、事前学習戦略はホモフィリーなグラフとヘテロフィリーなグラフで異なり、様々な下流タスクの目的も異なる。 これにより、プリテキストとダウンストリームタスクの間にギャップが生じ、結果として‘負の転送’が発生し、パフォーマンスが低下する。 自然言語処理(NLP)の素早い学習にインスパイアされた多くの研究は、ギャップを埋め、事前訓練されたモデルを完全に活用する。 しかし、グラフプロンプトの既存の方法はホモフィリーに調整されており、グラフ上の固有のヘテロフィリーを無視している。 一方、それらの多くはランダムに初期化されたプロンプトに依存しており、安定性に悪影響を及ぼす。 そこで本研究では,モデルとデータ自体に基づくグラフのプロンプトフレームワークであるSelf-Promptを提案する。 まず,非対称なグラフコントラスト学習を導入し,不均質に対処し,前文と下流タスクの目的を整合させる。 次に、事前学習段階のコンポーネントをセルフアダプタとして再利用し、タスク適応のためのグラフ自体に基づいたセルフプロンプトを導入する。 最後に、11のベンチマークデータセットに対する広範な実験を行い、その優位性を実証する。 私たちはhttps://github.com/gongchenghua/Self-Pro.comでコードを提供しています。

Graphs have become an important modeling tool for web applications, and Graph Neural Networks (GNNs) have achieved great success in graph representation learning. However, the performance of traditional GNNs heavily relies on a large amount of supervision. Recently, ``pre-train, fine-tune'' has become the paradigm to address the issues of label dependency and poor generalization. However, the pre-training strategies vary for graphs with homophily and heterophily, and the objectives for various downstream tasks also differ. This leads to a gap between pretexts and downstream tasks, resulting in ``negative transfer'' and poor performance. Inspired by prompt learning in Natural Language Processing (NLP), many studies turn to bridge the gap and fully leverage the pre-trained model. However, existing methods for graph prompting are tailored to homophily, neglecting inherent heterophily on graphs. Meanwhile, most of them rely on the randomly initialized prompts, which negatively impact on the stability. Therefore, we propose Self-Prompt, a prompting framework for graphs based on the model and data itself. We first introduce asymmetric graph contrastive learning for pretext to address heterophily and align the objectives of pretext and downstream tasks. Then we reuse the component from pre-training phase as the self adapter and introduce self-prompts based on graph itself for task adaptation. Finally, we conduct extensive experiments on 11 benchmark datasets to demonstrate its superiority. We provide our codes at https://github.com/gongchenghua/Self-Pro.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# 大規模言語モデルを用いた要約における文脈利用について

On Context Utilization in Summarization with Large Language Models ( http://arxiv.org/abs/2310.10570v4 )

ライセンス: Link先を確認
Mathieu Ravaut, Aixin Sun, Nancy F. Chen, Shafiq Joty, (参考訳) 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。 最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。 しかし、質問への回答では、言語モデルは入力コンテキストの不均一な利用を示す。 彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。 このバイアスは、特に重要なコンテンツがソース文書全体に分散されるような要約において、関心を喚起します。 さらに、要約において、ソースから要約への事実のマッピングは、通常、健全な内容が再記述されるため、簡単ではない。 本稿では,要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。 分析対象は,LLM6つ,データセット10つ,評価指標5つである。 階層的な要約と漸進的な要約という,位置バイアスを軽減するための2つの代替推論手法をベンチマークした,MiddleSumと呼ばれる新しい評価ベンチマークを導入する。 私たちのコードとデータは以下の通りです。

Large language models (LLMs) excel in abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, exceeding 100k tokens. However, in question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization where crucial content may be dispersed throughout the source document(s). Besides, in summarization, mapping facts from the source to the summary is not trivial as salient content is usually re-phrased. In this paper, we conduct the first comprehensive study on context utilization and position bias in summarization. Our analysis encompasses 6 LLMs, 10 datasets, and 5 evaluation metrics. We introduce a new evaluation benchmark called MiddleSum on the which we benchmark two alternative inference methods to alleviate position bias: hierarchical summarization and incremental summarization. Our code and data can be found here: https://github.com/ntunlp/MiddleSum.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# 人間のフィードバックによる品質の多様性:オープンエンドな多様性駆動最適化に向けて

Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization ( http://arxiv.org/abs/2310.12103v3 )

ライセンス: Link先を確認
Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、容易に定義されたパフォーマンス対策が欠如している定性的なタスクにおいてポテンシャルを示す。 しかしながら、RLHFが平均的な人間の嗜好、特に多様なモデル応答を必要とする生成タスクの最適化に一般的に使用されることには欠点がある。 一方、品質多様性(QD)アルゴリズムは、多様で高品質なソリューションを特定するのに優れていますが、しばしば手作業による多様性メトリクスに依存します。 本稿では,QDHF(Quality Diversity through Human Feedback, QDHF)を提案する。これは,ソリューション間の類似性の人間の判断から,多様性指標を段階的に推論し,複雑かつオープンな領域におけるQDアルゴリズムの適用性と有効性を向上する手法である。 実証実験により、QDHFは自動多様性発見において最先端の手法を著しく上回り、ロボット工学と強化学習の標準ベンチマーク上で、手作業による多様性測定値とQDの有効性に匹敵することを示した。 特に、オープンな生成タスクにおいては、QDHFは拡散モデルからテキスト・ツー・イメージ生成の多様性を著しく向上させ、ユーザ・スタディにおいてより好意的に受け入れられる。 我々はQDHFのスケーラビリティ、堅牢性、派生した多様性指標の質を分析し、オープンエンド最適化タスクにおけるその強みを強調した。 コードとチュートリアルはhttps://liding.info/qdhf.comで公開されている。

Reinforcement Learning from Human Feedback (RLHF) has shown potential in qualitative tasks where easily defined performance measures are lacking. However, there are drawbacks when RLHF is commonly used to optimize for average human preferences, especially in generative tasks that demand diverse model responses. Meanwhile, Quality Diversity (QD) algorithms excel at identifying diverse and high-quality solutions but often rely on manually crafted diversity metrics. This paper introduces Quality Diversity through Human Feedback (QDHF), a novel approach that progressively infers diversity metrics from human judgments of similarity among solutions, thereby enhancing the applicability and effectiveness of QD algorithms in complex and open-ended domains. Empirical studies show that QDHF significantly outperforms state-of-the-art methods in automatic diversity discovery and matches the efficacy of QD with manually crafted diversity metrics on standard benchmarks in robotics and reinforcement learning. Notably, in open-ended generative tasks, QDHF substantially enhances the diversity of text-to-image generation from a diffusion model and is more favorably received in user studies. We conclude by analyzing QDHF's scalability, robustness, and quality of derived diversity metrics, emphasizing its strength in open-ended optimization tasks. Code and tutorials are available at https://liding.info/qdhf.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# OODRobustBench: 分散シフトによる対向ロバスト性のベンチマークと大規模解析

OODRobustBench: a Benchmark and Large-Scale Analysis of Adversarial Robustness under Distribution Shift ( http://arxiv.org/abs/2310.12793v2 )

ライセンス: Link先を確認
Lin Li, Yifei Wang, Chawin Sitawarin, Michael Spratling, (参考訳) 既存の研究は、敵の堅牢性を改善するために大きな進歩を遂げてきたが、通常、それらの手法はトレーニングデータと同じ分布からのデータ、すなわち、分布内(ID)テストでのみテストされる。 その結果、そのようなロバスト性が、入力分布シフト(out-of-distribution(OOD)テスト)の下でどのように一般化されるかは明らかでない。 この省略は、メソッドが野生にデプロイされる場合、分散シフトが避けられないためである。 この問題に対処するために、OODRobustBenchというベンチマークを提案し、23のデータセットワイドシフト(すなわち、入力分布の自然主義シフト)と6つの脅威ワイドシフト(すなわち、予期せぬ敵脅威モデル)を用いてOOD対逆ロバスト性を評価する。 OODRobustBenchは60.7Kの敵評価を用いて706のロバストモデルを評価するために使用される。 この大規模な分析は、次のように示している。 1) 敵対的堅牢性は,厳しいOOD一般化問題に悩まされる。 2) IDのロバスト性はOODのロバスト性と正の線形性で強く相関する。 後者は、IDのロバスト性からOODロバスト性を予測することができる。 次に、既存の手法が高いOODロバスト性を達成できないことを予測し、検証する。 したがって,OODのロバスト性は予測を超える新しい手法が求められている。 これらの手法の開発を容易にするため,幅広い手法を探索し,将来性のある方向を同定する。 コードとモデルは、https://github.com/OODRobustBench/OODRobustBench.comで入手できる。

Existing works have made great progress in improving adversarial robustness, but typically test their method only on data from the same distribution as the training data, i.e. in-distribution (ID) testing. As a result, it is unclear how such robustness generalizes under input distribution shifts, i.e. out-of-distribution (OOD) testing. This omission is concerning as such distribution shifts are unavoidable when methods are deployed in the wild. To address this issue we propose a benchmark named OODRobustBench to comprehensively assess OOD adversarial robustness using 23 dataset-wise shifts (i.e. naturalistic shifts in input distribution) and 6 threat-wise shifts (i.e., unforeseen adversarial threat models). OODRobustBench is used to assess 706 robust models using 60.7K adversarial evaluations. This large-scale analysis shows that: 1) adversarial robustness suffers from a severe OOD generalization issue; 2) ID robustness correlates strongly with OOD robustness in a positive linear way. The latter enables the prediction of OOD robustness from ID robustness. We then predict and verify that existing methods are unlikely to achieve high OOD robustness. Novel methods are therefore required to achieve OOD robustness beyond our prediction. To facilitate the development of these methods, we investigate a wide range of techniques and identify several promising directions. Code and models are available at: https://github.com/OODRobustBench/OODRobustBench.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# 非逆分布マッチングの実用化に向けて

Towards Practical Non-Adversarial Distribution Matching ( http://arxiv.org/abs/2310.19690v2 )

ライセンス: Link先を確認
Ziyu Gong, Ben Usman, Han Zhao, David I. Inouye, (参考訳) 分布マッチングは、フェアネスとロバストネスの応用で不変表現を学ぶのに使うことができる。 ほとんどの先行研究は敵のマッチング手法を頼りにしているが、結果として生じるミニマックス問題は不安定で最適化が難しい。 非敵対的可能性に基づくアプローチは、モデルの可逆性を必要とするか、潜在する事前に制約を課すか、あるいは分散マッチングのための一般的なフレームワークを欠くかのいずれかである。 これらの制限を克服するために,任意のモデルパイプラインに適用可能な非逆VAEベースのマッチング手法を提案する。 分布マッチングのためのアライメントの上界(ノイズ境界を含む)は、VAEのような目的を持つが、異なる視点で開発する。 提案手法を,理論上も経験的にも,従来のVAEベースのマッチング手法と比較する。 最後に、従来のアーキテクチャを変更することなく、標準不変表現学習パイプラインの逆方向の損失を置き換え、非逆方向のマッチング手法の適用性を著しく拡大できることを実証する。

Distribution matching can be used to learn invariant representations with applications in fairness and robustness. Most prior works resort to adversarial matching methods but the resulting minimax problems are unstable and challenging to optimize. Non-adversarial likelihood-based approaches either require model invertibility, impose constraints on the latent prior, or lack a generic framework for distribution matching. To overcome these limitations, we propose a non-adversarial VAE-based matching method that can be applied to any model pipeline. We develop a set of alignment upper bounds for distribution matching (including a noisy bound) that have VAE-like objectives but with a different perspective. We carefully compare our method to prior VAE-based matching approaches both theoretically and empirically. Finally, we demonstrate that our novel matching losses can replace adversarial losses in standard invariant representation learning pipelines without modifying the original architectures -- thereby significantly broadening the applicability of non-adversarial matching methods.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# 主観的データセットの雑音補正

Noise Correction on Subjective Datasets ( http://arxiv.org/abs/2311.00619v3 )

ライセンス: Link先を確認
Uthman Jinadu, Yi Ding, (参考訳) すべてのアノテータの視点を組み込むことは、偏りのないデータモデリングに不可欠である。 アノテーションの疲労や意見の変更は、データセットのアノテーションを歪めてしまう可能性がある。 これに対抗するために,多タスク学習と損失に基づくラベル補正を併用して,多様な意見のより正確な表現を学習することを提案する。 新規な定式化を用いることで、アノテーションの同意と同意の相違をきれいに分離できることを示す。 さらに、この方法は、不一致を奨励または阻止するための制御可能な方法を提供する。 この修正により、単一または複数アノテーション設定での予測性能が向上することを示す。 最後に,本手法は主観的データに適用される付加的なラベルノイズに対して頑健であることを示す。

Incorporating every annotator's perspective is crucial for unbiased data modeling. Annotator fatigue and changing opinions over time can distort dataset annotations. To combat this, we propose to learn a more accurate representation of diverse opinions by utilizing multitask learning in conjunction with loss-based label correction. We show that using our novel formulation, we can cleanly separate agreeing and disagreeing annotations. Furthermore, this method provides a controllable way to encourage or discourage disagreement. We demonstrate that this modification can improve prediction performance in a single or multi-annotator setting. Lastly, we show that this method remains robust to additional label noise that is applied to subjective data.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# パイプラインDNN推論のための実用的性能保証

Practical Performance Guarantees for Pipelined DNN Inference ( http://arxiv.org/abs/2311.03703v3 )

ライセンス: Link先を確認
Aaron Archer, Matthew Fahrbach, Kuikui Liu, Prakash Prabhu, (参考訳) 我々は、モデルグラフを$k$のステージに分割し、通信を含むボトルネックステージの実行時間を最小化することで、ディープニューラルネットワーク(DNN)推論のためのパイプライン並列性を最適化する。 このNPハード問題に対して実用的で効果的なアルゴリズムを提示するが、我々は、ソリューションが十分であるかどうかを決める実践者のジレンマに取り組むことに注力する。 この目的のために、我々は、下界を証明するための新しい混合整数プログラミング(MIP)の緩和を設計する。 これらの手法を369生産モデルの多種多様なテストベッドに適用すると、$k \in \{2, 4, 8, 16, 32, 64\}$に対して、これらの下限が実際に役立つほど強いことを実証的に示す。 我々の下限は標準組合せ境界よりもかなり強い。 例えば、$k = 16$パイプラインステージのプロダクションテストベッドでの幾何学的手段による評価では、MIPの定式化は、見つかった最良の分割の分数として表される0.4598から0.9452に下限を上昇させる。 言い換えれば、改良された下界は最適性ギャップを9.855xで閉じる。

We optimize pipeline parallelism for deep neural network (DNN) inference by partitioning model graphs into $k$ stages and minimizing the running time of the bottleneck stage, including communication. We give practical and effective algorithms for this NP-hard problem, but our emphasis is on tackling the practitioner's dilemma of deciding when a solution is good enough. To this end, we design novel mixed-integer programming (MIP) relaxations for proving lower bounds. Applying these methods to a diverse testbed of 369 production models, for $k \in \{2, 4, 8, 16, 32, 64\}$, we empirically show that these lower bounds are strong enough to be useful in practice. Our lower bounds are substantially stronger than standard combinatorial bounds. For example, evaluated via geometric means across a production testbed with $k = 16$ pipeline stages, our MIP formulations raise the lower bound from 0.4598 to 0.9452, expressed as a fraction of the best partition found. In other words, our improved lower bounds close the optimality gap by a factor of 9.855x.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# Tighter Bayesian Regret bounds を用いた後方サンプリングに基づくベイズ最適化

Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds ( http://arxiv.org/abs/2311.03760v3 )

ライセンス: Link先を確認
Shion Takeno, Yu Inatsu, Masayuki Karasuyama, Ichiro Takeuchi, (参考訳) ベイズ最適化 (BO) における様々な獲得関数 (AF) のうち、ガウス過程上信頼境界 (GP-UCB) とトンプソンサンプリング (TS) はベイズ累積後悔 (BCR) に関する確立された理論的性質を持つよく知られた選択肢である。 近年,GP-UCBの無作為な変種はGP-UCBよりも厳密なBCRを達成できることが示されている。 この研究にインスパイアされたこの論文は、まずTSがより厳密なBCR境界を達成することを示す。 一方、GP-UCBとTSは、それぞれ手動のハイパーパラメータチューニングと過剰探索の問題に悩まされることが多い。 そこで本研究では,サンプルパス(PIMS)の最大値から改善の確率という別のAFを解析した。 GP-UCBとは異なり,PIMSはより厳密なBCR境界を実現し,ハイパーパラメータチューニングを回避する。 さらに,GP-UCB と TS の実践的問題を緩和する PIMS の有効性に着目し,幅広い実験を行った。

Among various acquisition functions (AFs) in Bayesian optimization (BO), Gaussian process upper confidence bound (GP-UCB) and Thompson sampling (TS) are well-known options with established theoretical properties regarding Bayesian cumulative regret (BCR). Recently, it has been shown that a randomized variant of GP-UCB achieves a tighter BCR bound compared with GP-UCB, which we call the tighter BCR bound for brevity. Inspired by this study, this paper first shows that TS achieves the tighter BCR bound. On the other hand, GP-UCB and TS often practically suffer from manual hyperparameter tuning and over-exploration issues, respectively. Therefore, we analyze yet another AF called a probability of improvement from the maximum of a sample path (PIMS). We show that PIMS achieves the tighter BCR bound and avoids the hyperparameter tuning, unlike GP-UCB. Furthermore, we demonstrate a wide range of experiments, focusing on the effectiveness of PIMS that mitigates the practical issues of GP-UCB and TS.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-04
# Fair Wasserstein Coresets

Fair Wasserstein Coresets ( http://arxiv.org/abs/2311.05436v3 )

ライセンス: Link先を確認
Zikai Xiong, Niccolò Dalmasso, Shubham Sharma, Freddy Lecue, Daniele Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso, (参考訳) データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成するための一般的なアプローチとして現れている。 同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。 現在のアプローチでは、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルの作成に重点を置いているが、下流学習プロセスへの影響はまだ検討されていない。 本研究では、下流学習タスクで使用するサンプルレベルの重みとともに、公正な合成代表サンプルを生成する新しいコアセットである、フェア・ワッサースタイン・コアセット(FWC)を提案する。 FWCは効率的な多数決最小化アルゴリズムを用いて、ワッサースタインのデータセットと重み付けされた合成サンプルとの距離を最小化し、人口統計学的等式を強制する。 我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。 合成データと実データの両方で行った実験は、FWCが示す。 i) 既存のアプローチと比較して下流モデルにおいて、競争力のある公正効用トレードオフを実現する。 (二)既存の訓練データに付加した場合の下流の公平性を改善すること。 (iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。

Data distillation and coresets have emerged as popular approaches to generate a smaller representative set of samples for downstream learning tasks to handle large-scale datasets. At the same time, machine learning is being increasingly applied to decision-making processes at a societal level, making it imperative for modelers to address inherent biases towards subgroups present in the data. While current approaches focus on creating fair synthetic representative samples by optimizing local properties relative to the original samples, their impact on downstream learning processes has yet to be explored. In this work, we present fair Wasserstein coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC uses an efficient majority minimization algorithm to minimize the Wasserstein distance between the original dataset and the weighted synthetic samples while enforcing demographic parity. We show that an unconstrained version of FWC is equivalent to Lloyd's algorithm for k-medians and k-means clustering. Experiments conducted on both synthetic and real datasets show that FWC: (i) achieves a competitive fairness-utility tradeoff in downstream models compared to existing approaches, (ii) improves downstream fairness when added to the existing training data and (iii) can be used to reduce biases in predictions from large language models (GPT-3.5 and GPT-4).
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# Vlasov-Maxwell方程式を解くための量子テンソルネットワーク

Quantized tensor networks for solving the Vlasov-Maxwell equations ( http://arxiv.org/abs/2311.07756v4 )

ライセンス: Link先を確認
Erika Ye, Nuno Loureiro, (参考訳) ヴラソフ・マクスウェル方程式は、衝突のないプラズマの「textit{ab-initio}」の記述を提供するが、それを解くことは、解決すべき空間スケールと時間スケールの広い範囲と、問題の高次元性のため、しばしば非現実的である。 本稿では量子化されたテンソルネットワーク(QTN)フレームワークを利用する量子インスパイアされた半単純Vlasov-Maxwellソルバを提案する。 このQTNソルバを用いて、$N$のグリッドベースの数値計算のコストを$\mathcal{O}(N)$から$\mathcal{O}(\text{poly}(D))$に下げる。 ここで考慮された5次元テスト問題に対して、D=64$は、合計$N=2^{36}$グリッドポイントを用いたシミュレーションでは、フルランク計算のために$D=2^{18}$を必要とするが、期待される物理学を捉えるのに十分であるように見える。 さらに,Dirac-Frenkel変分原理に基づくQTN時間進化スキームにより,Courant-Friedrichs-Lewy (CFL) 制約よりも多少大きな時間ステップを使用できることを示した。 このようにして、この研究は、QTN形式が、コストを大幅に削減したヴラソフ・マクスウェル方程式をおよそ解くための有望な手段であることを示した。

The Vlasov-Maxwell equations provide an \textit{ab-initio} description of collisionless plasmas, but solving them is often impractical because of the wide range of spatial and temporal scales that must be resolved and the high dimensionality of the problem. In this work, we present a quantum-inspired semi-implicit Vlasov-Maxwell solver that utilizes the quantized tensor network (QTN) framework. With this QTN solver, the cost of grid-based numerical simulation of size $N$ is reduced from $\mathcal{O}(N)$ to $\mathcal{O}(\text{poly}(D))$, where $D$ is the ``rank'' or ``bond dimension'' of the QTN and is typically set to be much smaller than $N$. We find that for the five-dimensional test problems considered here, a modest $D=64$ appears to be sufficient for capturing the expected physics despite the simulations using a total of $N=2^{36}$ grid points, \edit{which would require $D=2^{18}$ for full-rank calculations}. Additionally, we observe that a QTN time evolution scheme based on the Dirac-Frenkel variational principle allows one to use somewhat larger time steps than prescribed by the Courant-Friedrichs-Lewy (CFL) constraint. As such, this work demonstrates that the QTN format is a promising means of approximately solving the Vlasov-Maxwell equations with significantly reduced cost.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v6 )

ライセンス: Link先を確認
Ziyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong, Hang Yu, Jianguo Li, Rui Wang, (参考訳) 本研究では,70以上のモデル,40以上の評価タスク,180以上のデータセット,900以上の関連作業を含む,言語モデルによるソフトウェア工学の最近の進歩を体系的にレビューする。 私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、コード上で特別に事前訓練された特殊なモデルに分解します。 我々は,これらのモデル間の関係や相違について論じ,統計モデルやRNNから事前学習されたトランスフォーマーやLLMへのコードモデリングの歴史的変遷を強調した。 私たちはまた、要件エンジニアリング、テスト、デプロイメント、SEにおけるNLPのグローバルなビューを提供するための取り組みにおけるオペレーションを含む、その他のソフトウェアエンジニアリング活動におけるLCMのアプリケーションについても、プログラミングやレビューを行なっています。 このドメインの主要な課題と今後の方向性を特定し、GitHubでhttps://github.com/codefuse-ai/Awesome-Code-LLM.comでサーベイを公開し、更新する。

In this work we systematically review the recent advancements in software engineering with language models, covering 70+ models, 40+ evaluation tasks, 180+ datasets, and 900 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also go beyond programming and review LLMs' application in other software engineering activities including requirement engineering, testing, deployment, and operations in an endeavor to provide a global view of NLP in SE. We identify key challenges and potential future directions in this domain, and keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# Fast Chain-of-Thought: 並列デコードから回答へ

Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster ( http://arxiv.org/abs/2311.08263v2 )

ライセンス: Link先を確認
Hongxuan Zhang, Zhining Liu, Yao Zhao, Jiaqi Zheng, Chenyi Zhuang, Jinjie Gu, Guihai Chen, (参考訳) 本研究では,並列デコードに基づくモデルに依存しないFastCoTを提案する。 FastCoTはサイズが変化するコンテキストウィンドウを使用し、そのサイズは位置によって変化し、並列デコーディングと自動回帰デコーディングを同時に実行し、GPU計算リソースを完全に活用する。 FastCoTでは、並列復号部はLLMに近似トークンからなる未来を素早く見ることができ、因果変換器で使われる通常の自己回帰復号よりも高速な解が得られる。 また,KV-cache生成とバッチ処理をサポートする並列デコーディングの実装も提供する。 広範な実験を通して、FastCoTは通常の手法と比較して、無視できる性能低下だけで、推論時間を20%近く短縮することを示した。 さらに、コンテキストウィンドウサイズは、異なるタスクに対してかなりの堅牢性を示すことを示す。

In this work, we propose FastCoT, a model-agnostic framework based on parallel decoding without any further training of an auxiliary model or modification to the LLM itself. FastCoT uses a size-varying context window whose size changes with position to conduct parallel decoding and auto-regressive decoding simultaneously, thus fully utilizing GPU computation resources. In FastCoT, the parallel decoding part provides the LLM with a quick glance of the future composed of approximate tokens, which could lead to faster answers compared to regular autoregressive decoding used by causal transformers. We also provide an implementation of parallel decoding within LLM, which supports KV-cache generation and batch processing. Through extensive experiments, we demonstrate that FastCoT saves inference time by nearly 20% with only a negligible performance drop compared to the regular approach. Additionally, we show that the context window size exhibits considerable robustness for different tasks.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# LLMは推論エラーを見つけることはできないが、エラー位置を考慮すれば修正できる

LLMs cannot find reasoning errors, but can correct them given the error location ( http://arxiv.org/abs/2311.08516v3 )

ライセンス: Link先を確認
Gladys Tyen, Hassan Mansoor, Victor Cărbune, Peter Chen, Tony Mak, (参考訳) 自己補正は、LLMの出力をスタイルと品質の面で改善する(e g Chen et al , 2023b; Madaan et al , 2023)ことを約束している一方で、近年の自己修正的論理的あるいは推論的誤りは、正しい答えを誤ったものにし、全体的なパフォーマンスが悪化する(Huang et al , 2023)。 本稿では,LLMが既知の誤りを訂正する能力ではなく,論理的誤りを発見できないことに起因する自己補正性能の低下を示す。 まず,いくつかの最先端のLCMを,そのミスフィリング能力についてベンチマークし,高い客観的かつ曖昧なケースにおいても,一般的にタスクに苦しむことを示す。 第二に、モデルに真実の誤り位置情報を提供するバックトラック設定を用いて、誤り発見とは別にLLMの補正能力をテストする。 これにより,5つの推論タスクのダウンストリームタスク性能が向上し,LLMの補正能力が堅牢であることを示す。 最後に,地中情報やドメイン内学習データを用いずに,誤り位置情報を得ることが可能であることを示す。 ドメイン外データを用いた小さな分類器を訓練し、大きなモデルよりも強い誤判定性能を示す。 我々は,LLM生成論理ミスのデータセットであるBIG-Bench Mistakeをリリースし,LLM推論ミスの特定についてさらなる研究を可能にする。

While self-correction has shown promise in improving LLM outputs in terms of style and quality (e.g. Chen et al., 2023b; Madaan et al., 2023), recent attempts to self-correct logical or reasoning errors often cause correct answers to become incorrect, resulting in worse performances overall (Huang et al., 2023). In this paper, we show that poor self-correction performance stems from LLMs' inability to find logical mistakes, rather than their ability to correct a known mistake. Firstly, we benchmark several state-of-the-art LLMs on their mistake-finding ability and demonstrate that they generally struggle with the task, even in highly objective, unambiguous cases. Secondly, we test the correction abilities of LLMs -- separately from mistake finding -- using a backtracking setup that feeds ground truth mistake location information to the model. We show that this boosts downstream task performance across our 5 reasoning tasks, indicating that LLMs' correction abilities are robust. Finally, we show that it is possible to obtain mistake location information without ground truth labels or in-domain training data. We train a small classifier with out-of-domain data, which exhibits stronger mistake-finding performance than prompting a large model. We release our dataset of LLM-generated logical mistakes, BIG-Bench Mistake, to enable further research into locating LLM reasoning mistakes.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# 整数計画法による多項関数の多項回帰

Piecewise Polynomial Regression of Tame Functions via Integer Programming ( http://arxiv.org/abs/2311.13544v3 )

ライセンス: Link先を確認
Gilles Bareilles, Johannes Aspman, Jiri Nemecek, Jakub Marecek, (参考訳) タマ関数は非滑らかで非凸関数のクラスであり、全ての共通の活性化を伴うディープニューラルネットワークのトレーニングで遭遇する関数、混合整数プログラムの値関数、または小さな分子の波動関数である。 片方向多項式関数を用いたタメ関数の近似について検討する。 我々は、任意の全次元立方体上の与えられたセグメント数を持つ分数多項式関数により、テーム関数の近似の質を束縛する。 また,数次多項式回帰の混合整数計画法を初めて提案する。 これらを合わせて、テーム関数を推定することができる。 有望な計算結果を示す。

Tame functions are a class of nonsmooth, nonconvex functions, which feature in a wide range of applications: functions encountered in the training of deep neural networks with all common activations, value functions of mixed-integer programs, or wave functions of small molecules. We consider approximating tame functions with piecewise polynomial functions. We bound the quality of approximation of a tame function by a piecewise polynomial function with a given number of segments on any full-dimensional cube. We also present the first mixed-integer programming formulation of piecewise polynomial regression. Together, these can be used to estimate tame functions. We demonstrate promising computational results.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# モード最適化型ハイブリッドCPU-GPU密度行列再正規化法による2次元量子格子モデル

Two dimensional quantum lattice models via mode optimized hybrid CPU-GPU density matrix renormalization group method ( http://arxiv.org/abs/2311.14106v2 )

ライセンス: Link先を確認
Andor Menczer, Kornél Kapás, Miklós Antal Werner, Örs Legeza, (参考訳) 本稿では,2つの空間次元量子格子モデル上での量子多体問題に対するハイブリッド数値計算手法を提案する。 本稿では, 2次元スピンレスフェルミオンモデルと, トーラス幾何学上のハバードモデルについて, 最適化ベースで計算を行い, ハイブリッドCPU-マルチGPU並列化を利用することにより, 計算時間における数桁のオーダーを省くことができることを示した。 少なくとも1桁の計算複雑性の減少はモード最適化によるものであり、さらに大きな並列化によって壁時間の減少が達成される。 結果はFLOPと秒で直接測定される。 行列ランク関数およびシステムサイズ関数として得られた性能の詳細なスケーリング解析について, 12$格子トポロジーを用いて検討した。 CPU-multiGPUモデルはまた,高忠実度で様々な順序パラメータやトレース量子相転移を構成するために使用できる1粒子と2粒子の還元密度行列の計算を著しく高速化する。

We present a hybrid numerical approach to simulate quantum many body problems on two spatial dimensional quantum lattice models via the non-Abelian ab initio version of the density matrix renormalization group method on state-of-the-art high performance computing infrastructures. We demonstrate for the two dimensional spinless fermion model and for the Hubbard model on torus geometry that altogether several orders of magnitude in computational time can be saved by performing calculations on an optimized basis and by utilizing hybrid CPU-multiGPU parallelization. At least an order of magnitude reduction in computational complexity results from mode optimization, while a further order of reduction in wall time is achieved by massive parallelization. Our results are measured directly in FLOP and seconds. A detailed scaling analysis of the obtained performance as a function of matrix ranks and as a function of system size up to $12\times 12$ lattice topology is discussed. Our CPU-multiGPU model also tremendously accelerates the calculation of the one- and two-particle reduced density matrices, which can be used to construct various order parameters and trace quantum phase transitions with high fidelity.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# SeeSR:Semantics-Aware Real-World Image Super-Resolutionを目指して

SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution ( http://arxiv.org/abs/2311.16518v2 )

ライセンス: Link先を確認
Rongyuan Wu, Tao Yang, Lingchen Sun, Zhengqiang Zhang, Shuai Li, Lei Zhang, (参考訳) 強力な生成前駆体であるT2I拡散モデルが, 現実の超解像問題を解く上で, ますます人気が高まっている。 しかし、入力低解像度(LR)画像の高画質化の結果、局所構造の破壊は曖昧な画像意味論に繋がる可能性がある。 その結果、再生された高解像度画像の内容には意味的誤りがあり、超高解像度画像の性能が劣化する可能性がある。 この問題に対処するために,生成現実画像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。 まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。 ハードセマンティックプロンプトはイメージタグを参照し、T2Iモデルの局所認識能力を向上することを目的としており、ソフトセマンティックプロンプトはハードセマンティックプロンプトを補償して追加の表現情報を提供する。 これらのセマンティックプロンプトは、T2Iモデルに詳細でセマンティックに正確な結果を生成するよう促す。 さらに、推定過程において、LR画像を初期サンプリングノイズに統合し、拡散モデルの過度なランダムな詳細を生成する傾向を緩和する。 実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。 我々のメソッドのソースコードはhttps://github.com/cswry/SeeSR.comで確認できる。

Owe to the powerful generative priors, the pre-trained text-to-image (T2I) diffusion models have become increasingly popular in solving the real-world image super-resolution problem. However, as a consequence of the heavy quality degradation of input low-resolution (LR) images, the destruction of local structures can lead to ambiguous image semantics. As a result, the content of reproduced high-resolution image may have semantic errors, deteriorating the super-resolution performance. To address this issue, we present a semantics-aware approach to better preserve the semantic fidelity of generative real-world image super-resolution. First, we train a degradation-aware prompt extractor, which can generate accurate soft and hard semantic prompts even under strong degradation. The hard semantic prompts refer to the image tags, aiming to enhance the local perception ability of the T2I model, while the soft semantic prompts compensate for the hard ones to provide additional representation information. These semantic prompts encourage the T2I model to generate detailed and semantically accurate results. Furthermore, during the inference process, we integrate the LR images into the initial sampling noise to mitigate the diffusion model's tendency to generate excessive random details. The experiments show that our method can reproduce more realistic image details and hold better the semantics. The source code of our method can be found at https://github.com/cswry/SeeSR.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# フラクショナルグラディエントDescenceの収束解析

Convergence Analysis of Fractional Gradient Descent ( http://arxiv.org/abs/2311.18426v5 )

ライセンス: Link先を確認
Ashwani Aggarwal, (参考訳) 分数微分(英: Fractional derivatives)は、整数階微分のよく研究された一般化である。 自然に最適化するためには、分数微分を用いて勾配降下の収束特性を理解することが重要である。 現在,分数勾配降下の収束解析は,解析手法と解析手法の両方において限定されている。 本研究の目的は, 滑らかな凸面, 滑らかで強い凸面, 滑らかで非凸面の設定における分数勾配勾配の変動を解析することによって, これらのギャップを埋めることである。 まず、新しい境界は分数微分と整数微分をブリッジする。 すると、上記の設定にこれらの境界を適用して、滑らかで強い凸函数に対する線型収束を証明し、滑らかで凸関数に対する$O(1/T)$収束を証明できる。 さらに、滑らかで非凸な函数に対する$O(1/T)$収束を、分数微分に対してより自然な滑らかさ(H\\older smoothness)という拡張された概念を用いて証明する。 最後に、標準勾配降下に対する分数勾配降下のポテンシャル速度アップと、この速度アップを説明する予備的な理論的結果について実験結果が提示される。

Fractional derivatives are a well-studied generalization of integer order derivatives. Naturally, for optimization, it is of interest to understand the convergence properties of gradient descent using fractional derivatives. Convergence analysis of fractional gradient descent is currently limited both in the methods analyzed and the settings analyzed. This paper aims to fill in these gaps by analyzing variations of fractional gradient descent in smooth and convex, smooth and strongly convex, and smooth and non-convex settings. First, novel bounds will be established bridging fractional and integer derivatives. Then, these bounds will be applied to the aforementioned settings to prove linear convergence for smooth and strongly convex functions and $O(1/T)$ convergence for smooth and convex functions. Additionally, we prove $O(1/T)$ convergence for smooth and non-convex functions using an extended notion of smoothness - H\"older smoothness - that is more natural for fractional derivatives. Finally, empirical results will be presented on the potential speed up of fractional gradient descent over standard gradient descent as well as some preliminary theoretical results explaining this speed up.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-04
# 局所的な深部表現を用いた指紋照合

Fingerprint Matching with Localized Deep Representation ( http://arxiv.org/abs/2311.18576v3 )

ライセンス: Link先を確認
Yongjie Duan, Zhiyu Pan, Jianjiang Feng, Jie Zhou, (参考訳) 栄養素に基づく指紋表現と比較して、固定長表現は単純で効率的なマッチングのために魅力的である。 固定長の指紋表現は、異なる指紋ポーズや取得方法によって生じる異なる可視領域の指紋をマッチングする場合に、精度が制限される。 この問題に対処するために,LDRFという指紋の局所的な深部表現を提案する。 LDRFは局所領域における識別特性に焦点をあてることで、可変可視領域を持つ指紋に対して、より堅牢で正確な固定長表現を提供する。 LDRFは任意の有効な領域に情報を保持するように適応することができ、柔軟性が高い。 LDRFによるマッチングスコアも直感的な統計特性を示し,非常に小さな重複領域の場合の不確実性を軽減するために,マッチングスコア正規化手法を提案する。 この新しい手法では,データベースのサイズが急速に拡大しても,指紋マッチングにおいて高い精度と信頼性を維持することができる。 種々の指ポーズと印象型の140K以上の指紋を含む21個のデータセットを用いた実験結果,LDRFが他の固定長表現よりも優れており,センシング技術や印象型に頑健であることがわかった。 さらに,提案したマッチングスコア正規化は,5.11万以上の指紋を含む大規模識別実験において,偽一致率(FMR)を効果的に低減する。 特に, この手法は, スコア正規化を伴わないマッチングに比べて2桁の精度を低下させ, 先行処理に比べて5桁の精度を低下させる。

Compared to minutia-based fingerprint representations, fixed-length representations are attractive due to simple and efficient matching. However, fixed-length fingerprint representations are limited in accuracy when matching fingerprints with different visible areas, which can occur due to different finger poses or acquisition methods. To address this issue, we propose a localized deep representation of fingerprint, named LDRF. By focusing on the discriminative characteristics within local regions, LDRF provides a more robust and accurate fixed-length representation for fingerprints with variable visible areas. LDRF can be adapted to retain information within any valid area, making it highly flexible. The matching scores produced by LDRF also exhibit intuitive statistical characteristics, which led us to propose a matching score normalization technique to mitigate the uncertainty in the cases of very small overlapping area. With this new technique, we can maintain a high level of accuracy and reliability in our fingerprint matching, even as the size of the database grows rapidly. Our experimental results on 21 datasets containing over 140K fingerprints of various finger poses and impression types show that LDRF outperforms other fixed-length representations and is robust to sensing technologies and impression types. Besides, the proposed matching score normalization effectively reduces the false match rate (FMR) in large-scale identification experiments comprising over 5.11 million fingerprints. Specifically, this technique results in a reduction of two orders of magnitude compared to matching without matching score normalization and five orders of magnitude compared to prior works.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# Pruning-Quantizationジョイントラーニングのための物理インスピレーションによる基準

Physics Inspired Criterion for Pruning-Quantization Joint Learning ( http://arxiv.org/abs/2312.00851v2 )

ライセンス: Link先を確認
Weiying Xie, Xiaoyi Fan, Xin Zhang, Yunsong Li, Jie Lei, Leyuan Fang, (参考訳) Pruning-quantization joint learningは、リソース制約されたエッジデバイスへのディープニューラルネットワーク(DNN)のデプロイを容易にする。 しかし、既存のほとんどの手法は、解釈可能な方法でプルーニングと量子化のグローバルな基準を共同で学習するわけではない。 本稿では, 弾性力学 (ED) とモデル圧縮 (MC) の類似性から探索した, プルーニング量子化連成学習(PIC-PQ)の物理に着想を得た新しい基準を提案する。 具体的には、EDにおけるフックの法則から導かれ、物理インスパイアされた基準(PIC)における学習可能な変形スケールによるフィルタの重要度分布とフィルタ特性(FP)の線形関係を確立する。 さらに,PICをグローバルビューに対して相対シフト変数で拡張する。 実現可能性と柔軟性を確保するため、量子化ビット幅割り当てに利用可能な最大ビット幅とペナルティ係数を導入する。 画像分類のベンチマーク実験では、PIC-PQは、CIFAR10上のResNet56の圧縮比eg、54.96X BOPsの圧縮比0.10%の精度低下、ImageNet18上のResNet18の53.24Xの圧縮比0.61%の精度低下を示す。 コードはhttps://github.com/fanxxxxyi/PIC-PQ.comで入手できる。

Pruning-quantization joint learning always facilitates the deployment of deep neural networks (DNNs) on resource-constrained edge devices. However, most existing methods do not jointly learn a global criterion for pruning and quantization in an interpretable way. In this paper, we propose a novel physics inspired criterion for pruning-quantization joint learning (PIC-PQ), which is explored from an analogy we first draw between elasticity dynamics (ED) and model compression (MC). Specifically, derived from Hooke's law in ED, we establish a linear relationship between the filters' importance distribution and the filter property (FP) by a learnable deformation scale in the physics inspired criterion (PIC). Furthermore, we extend PIC with a relative shift variable for a global view. To ensure feasibility and flexibility, available maximum bitwidth and penalty factor are introduced in quantization bitwidth assignment. Experiments on benchmarks of image classification demonstrate that PIC-PQ yields a good trade-off between accuracy and bit-operations (BOPs) compression ratio e.g., 54.96X BOPs compression ratio in ResNet56 on CIFAR10 with 0.10% accuracy drop and 53.24X in ResNet18 on ImageNet with 0.61% accuracy drop). The code will be available at https://github.com/fanxxxxyi/PIC-PQ.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# LLM評価器の競合レベル問題

Competition-Level Problems are Effective LLM Evaluators ( http://arxiv.org/abs/2312.02143v3 )

ライセンス: Link先を確認
Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen, (参考訳) 大規模言語モデル(LLM)は印象的な推論能力を示してきたが、近年これらの能力と潜在的なデータ汚染問題に関して議論が続いている。 本稿では,LLMの推論能力,特に専門的かつ独特な,深い理解と堅牢な推論能力を必要とするCodeforcesにおける近年の競合レベルプログラミング問題の解決をめざして,LLMの推論能力を評価することを目的とする。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4のゼロショット性能を総合的に評価する。 意外なことに、2021年9月以降、GPT-4の悲観的な性能は、データ汚染の可能性、そして既存のLCMが未確認の複雑な推論問題を解く上での課題など、あらゆる困難と種類の問題に対して一貫して低下しているように、崖を経験している。 さらに、微調整やチェーン・オブ・ソート(Chain-of-Thought)のプロンプト、問題記述の単純化など、さまざまなアプローチについても検討しています。 我々は,LLMの真の推論能力を評価する上で,この優れたデータソースの重要性を強調し,より強力な推論能力と将来的な一般化によるLCMの開発を促進する。

Large language models (LLMs) have demonstrated impressive reasoning capabilities, yet there is ongoing debate about these abilities and the potential data contamination problem recently. This paper aims to evaluate the reasoning capacities of LLMs, specifically in solving recent competition-level programming problems in Codeforces, which are expert-crafted and unique, requiring deep understanding and robust reasoning skills. We first provide a comprehensive evaluation of GPT-4's peiceived zero-shot performance on this task, considering various aspects such as problems' release time, difficulties, and types of errors encountered. Surprisingly, the peiceived performance of GPT-4 has experienced a cliff like decline in problems after September 2021 consistently across all the difficulties and types of problems, which shows the potential data contamination, as well as the challenges for any existing LLM to solve unseen complex reasoning problems. We further explore various approaches such as fine-tuning, Chain-of-Thought prompting and problem description simplification, unfortunately none of them is able to consistently mitigate the challenges. Through our work, we emphasis the importance of this excellent data source for assessing the genuine reasoning capabilities of LLMs, and foster the development of LLMs with stronger reasoning abilities and better generalization in the future.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# 留意点を最短にする: ツールを効果的に活用するための大規模言語モデルの文脈認識の強化

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use ( http://arxiv.org/abs/2312.04455v4 )

ライセンス: Link先を確認
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan, (参考訳) 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。 具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。 この問題に対処するため,Attention Buckets という新しい推論手法を提案する。 LLMは複数の並列プロセスを通じて入力を処理できる。 各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。 本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。 ツール・ユース・ベンチマークでは,GPT-4に匹敵する最先端性能を実現するため,提案手法は7Bモデルに上昇する。 他のベンチマークやいくつかのRAGタスクでは、コンテクストの内容の徹底的な理解も要求されるが、Attention Buckets氏はパフォーマンスの顕著な向上も示した。

In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# FitDiff: 拡散モデルを用いたロバストモノクロ3次元顔形状と反射率推定

FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models ( http://arxiv.org/abs/2312.04465v2 )

ライセンス: Link先を確認
Stathis Galanakis, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou, (参考訳) 3次元顔再構成の顕著な進歩は、高精細で写真リアリスティックな顔表現をもたらす。 近年,拡散モデルがGANの性能を超越して生成手法の能力に革命をもたらした。 本研究では拡散型3次元顔アバター生成モデルであるFitDiffを提案する。 拡散原理を応用して,本モデルでは,「未使用」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現可能な顔アバターを正確に生成する。 導入されたマルチモーダル拡散モデルは、顔の反射率マップ(拡散と特異なアルベドと正規)と形状を同時に出力し、優れた一般化能力を示す最初のものである。 3D再構成と組み合わせて、パブリックな顔データセットの注釈付きサブセットでのみトレーニングされる。 我々は,知覚的・顔認識的損失を用いた逆拡散過程を導くことによって,典型的な3次元顔合わせ法を再検討する。 顔認識の埋め込みを前提とした最初の3D LDMであるFitDiffは、一般的なレンダリングエンジンで使用可能な、照らし出し可能な人間のアバターを再構築する。

The remarkable progress in 3D face reconstruction has resulted in high-detail and photorealistic facial representations. Recently, Diffusion Models have revolutionized the capabilities of generative methods by surpassing the performance of GANs. In this work, we present FitDiff, a diffusion-based 3D facial avatar generative model. Leveraging diffusion principles, our model accurately generates relightable facial avatars, utilizing an identity embedding extracted from an "in-the-wild" 2D facial image. The introduced multi-modal diffusion model is the first to concurrently output facial reflectance maps (diffuse and specular albedo and normals) and shapes, showcasing great generalization capabilities. It is solely trained on an annotated subset of a public facial dataset, paired with 3D reconstructions. We revisit the typical 3D facial fitting approach by guiding a reverse diffusion process using perceptual and face recognition losses. Being the first 3D LDM conditioned on face recognition embeddings, FitDiff reconstructs relightable human avatars, that can be used as-is in common rendering engines, starting only from an unconstrained facial image, and achieving state-of-the-art performance.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# GaitGuard: 混合現実におけるプライベート・ゲイトを目指して

GaitGuard: Towards Private Gait in Mixed Reality ( http://arxiv.org/abs/2312.04470v3 )

ライセンス: Link先を確認
Diana Romero, Ruchi Jagdish Patel, Athina Markopoulou, Salma Elmalaki, (参考訳) Augmented/Mixed Reality (AR/MR)技術は、没入的で協調的な体験の新しい時代を提供する。 しかし、これらの環境におけるプライバシーとセキュリティの影響をさらに調査するにつれ、歩行プライバシーの問題は批判的だが未解明の懸念として浮かび上がっている。 いくつかの機密属性と相関できる生体認証識別子としての特異性を考えると、歩行情報の保護は、これらのシステム内での潜在的なアイデンティティ追跡や不正なプロファイリングを防ぐ上で重要である。 本稿では,MR デバイスが捉えた映像フィードから抽出した歩行特徴分析を用いて,20人の参加者によるユーザスタディを行い,個人識別のリスクを評価する。 以上の結果から,最大92%の精度で個人を識別できることが示唆された。 厳密な評価を通じて、その実用性とプライバシ保護への影響の観点から、意識的・無意識的な敵の双方に対処する様々な緩和手法の比較分析を行う。 これらの評価から、AR/MRデバイスのカメラビュー内の歩行機能のプライバシを保護するために設計された、最初のリアルタイムフレームワークであるGaitGuardを紹介する。 MRコラボレーティブシナリオにおけるGaitGuardの評価は、AR/MRエコシステム内のプライバシを保護する上で重要なステップである118.77ミリ秒の最小レイテンシを維持しながら、識別のリスクを最大68%削減する緩和の実装の有効性を示す。

Augmented/Mixed Reality (AR/MR) technologies offers a new era of immersive, collaborative experiences, distinctively setting them apart from conventional mobile systems. However, as we further investigate the privacy and security implications within these environments, the issue of gait privacy emerges as a critical yet underexplored concern. Given its uniqueness as a biometric identifier that can be correlated to several sensitive attributes, the protection of gait information becomes crucial in preventing potential identity tracking and unauthorized profiling within these systems. In this paper, we conduct a user study with 20 participants to assess the risk of individual identification through gait feature analysis extracted from video feeds captured by MR devices. Our results show the capability to uniquely identify individuals with an accuracy of up to 92%, underscoring an urgent need for effective gait privacy protection measures. Through rigorous evaluation, we present a comparative analysis of various mitigation techniques, addressing both aware and unaware adversaries, in terms of their utility and impact on privacy preservation. From these evaluations, we introduce GaitGuard, the first real-time framework designed to protect the privacy of gait features within the camera view of AR/MR devices. Our evaluations of GaitGuard within a MR collaborative scenario demonstrate its effectiveness in implementing mitigation that reduces the risk of identification by up to 68%, while maintaining a minimal latency of merely 118.77 ms, thus marking a critical step forward in safeguarding privacy within AR/MR ecosystems.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# KnowGPT:大規模言語モデルのための知識グラフベースのプロンプト

KnowGPT: Knowledge Graph based Prompting for Large Language Models ( http://arxiv.org/abs/2312.06185v5 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Hao Chen, Daochen Zha, Zailiang Yu, Xiao Huang, (参考訳) 大規模言語モデル(LLM)は多くの現実世界のアプリケーションで顕著な機能を示している。 にもかかわらず、LLMは幻覚を生み出す傾向があるとしてしばしば批判され、そのモデルが彼らの知識や知覚を超えたタスクに関する誤った言明をつくり上げている。 この問題を緩和するために、研究者は知識グラフ(KG)の事実知識を活用して、確立された事実と原則にLCMの反応を基礎づけることを模索してきた。 しかし、ほとんどの最先端のLLMはクローズドソースであり、ハードプロンプトのみを用いてKGをLLMに効率的に効率的に統合できるプロンプトフレームワークを開発することは困難である。 一般に、既存のKGエンハンスLSMは、巨大な検索スペース、高いAPIコスト、退屈なプロンプトエンジニアリングを含む3つの重要な問題に悩まされ、実際に広く使われていることを妨げている。 この目的のために我々は,知識グラフに基づく新しいプロンプタイピングフレームワークであるKnowGPTを導入し,LLMをドメイン知識で拡張する。 KnowGPTには、KGから最も情報性の高い知識を抽出する知識抽出モジュールと、抽出した知識を自動的に効果的なプロンプトに変換するコンテキスト対応プロンプト構築モジュールが含まれている。 3つのベンチマークの実験では、KnowGPTが全ての競合より大幅に優れていることが示されている。 特に、KnowGPTはOpenbookQAのリーダーボードで92.6%の精度を達成している。

Large Language Models (LLMs) have demonstrated remarkable capabilities in many real-world applications. Nonetheless, LLMs are often criticized for their tendency to produce hallucinations, wherein the models fabricate incorrect statements on tasks beyond their knowledge and perception. To alleviate this issue, researchers have explored leveraging the factual knowledge in knowledge graphs (KGs) to ground the LLM's responses in established facts and principles. However, most state-of-the-art LLMs are closed-source, making it challenging to develop a prompting framework that can efficiently and effectively integrate KGs into LLMs with hard prompts only. Generally, existing KG-enhanced LLMs usually suffer from three critical issues, including huge search space, high API costs, and laborious prompt engineering, that impede their widespread application in practice. To this end, we introduce a novel Knowledge Graph based PrompTing framework, namely KnowGPT, to enhance LLMs with domain knowledge. KnowGPT contains a knowledge extraction module to extract the most informative knowledge from KGs, and a context-aware prompt construction module to automatically convert extracted knowledge into effective prompts. Experiments on three benchmarks demonstrate that KnowGPT significantly outperforms all competitors. Notably, KnowGPT achieves a 92.6% accuracy on OpenbookQA leaderboard, comparable to human-level performance.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現

Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v6 )

ライセンス: Link先を確認
Xiang Cheng, Yuxin Chen, Suvrit Sra, (参考訳) 多くのニューラルネットワークアーキテクチャはチューリング完全であることが知られており、原理的には任意のアルゴリズムを実装できる。 しかし、Transformerは、単純なパラメータ設定で勾配に基づく学習アルゴリズムを実装することができるという点でユニークである。 本稿では,(非線形)トランスフォーマーが自然に関数空間の勾配降下を実装することを学習し,それによってコンテキスト内で非線形関数を学習できるという理論的および実証的な証拠を提供する。 本研究は,非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用する。 さらに、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることが示される。

Many neural network architectures are known to be Turing Complete, and can thus, in principle implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms under simple parameter configurations. This paper provides theoretical and empirical evidence that (non-linear) Transformers naturally learn to implement gradient descent in function space, which in turn enable them to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures and non-linear in-context learning tasks. Additionally, we show that the optimal choice of non-linear activation depends in a natural way on the class of functions that need to be learned.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# Momentum Particle Maximum Likelihood

Momentum Particle Maximum Likelihood ( http://arxiv.org/abs/2312.07335v3 )

ライセンス: Link先を確認
Jen Ning Lim, Juan Kuntz, Samuel Power, Adam M. Johansen, (参考訳) 潜在変数モデルの最大確率推定(MLE)は、パラメータと確率分布の拡張空間上の自由エネルギー関数の最小化としてしばしば再キャストされる。 この視点は、遅延変数モデルをデータに適合させる新しい粒子ベースのアルゴリズムを得るための最適な輸送からの洞察と最近結合された。 通常の微分方程式の離散化として 'momentum-enriched' 最適化アルゴリズムを解釈する先行研究からインスピレーションを得て、自由エネルギー汎関数を最小化するための類似の力学系に基づくアプローチを提案する。 その結果、ネステロフの加速勾配法、アンダーダムのランゲヴィン拡散法、および粒子法の要素をブレンドする力学系が得られた。 適切な仮定の下では、連続時間系が関数を最小化することを示す。 システムの離散化により、潜在変数モデルにおけるMLEの実用的なアルゴリズムを得る。 このアルゴリズムは、既存の粒子法を数値実験で上回り、他のMLEアルゴリズムと比較する。

Maximum likelihood estimation (MLE) of latent variable models is often recast as the minimization of a free energy functional over an extended space of parameters and probability distributions. This perspective was recently combined with insights from optimal transport to obtain novel particle-based algorithms for fitting latent variable models to data. Drawing inspiration from prior works which interpret `momentum-enriched' optimization algorithms as discretizations of ordinary differential equations, we propose an analogous dynamical-systems-inspired approach to minimizing the free energy functional. The result is a dynamical system that blends elements of Nesterov's Accelerated Gradient method, the underdamped Langevin diffusion, and particle methods. Under suitable assumptions, we prove that the continuous-time system minimizes the functional. By discretizing the system, we obtain a practical algorithm for MLE in latent variable models. The algorithm outperforms existing particle methods in numerical experiments and compares favourably with other MLE algorithms.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# ロボットシステムのダイナミクス調和解析:データ駆動クープマンモデリングへの応用

Dynamics Harmonic Analysis of Robotic Systems: Application in Data-Driven Koopman Modelling ( http://arxiv.org/abs/2312.07457v3 )

ライセンス: Link先を確認
Daniel Ordoñez-Apraez, Vladimir Kostic, Giulio Turrisi, Pietro Novelli, Carlos Mastalli, Claudio Semini, Massimiliano Pontil, (参考訳) 対称ロボットシステムの状態空間を直交同型部分空間に分解するために調和解析を導入する。 これらは、差分、対称、および相乗運動を捉える低次元空間である。 線形力学では、この分解が各部分空間上の独立線型系への力学の分割にどのように寄与するかを特徴付け、力学調和解析(DHA)と呼ぶ。 この特性を利用するために、システム力学の大域的線形モデルを学ぶために、DHAの特性を利用する同変ディープラーニングアーキテクチャを提案する。 本アーキテクチャは, 四足歩行ロボットの運動力学と合成システムで検証し, より高度な一般化, サンプル効率, 解釈可能性を示し, トレーニング可能なパラメータや計算コストを少なくする。

We introduce the use of harmonic analysis to decompose the state space of symmetric robotic systems into orthogonal isotypic subspaces. These are lower-dimensional spaces that capture distinct, symmetric, and synergistic motions. For linear dynamics, we characterize how this decomposition leads to a subdivision of the dynamics into independent linear systems on each subspace, a property we term dynamics harmonic analysis (DHA). To exploit this property, we use Koopman operator theory to propose an equivariant deep-learning architecture that leverages the properties of DHA to learn a global linear model of the system dynamics. Our architecture, validated on synthetic systems and the dynamics of locomotion of a quadrupedal robot, exhibits enhanced generalization, sample efficiency, and interpretability, with fewer trainable parameters and computational costs.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# 医用画像における微視的画像テキストアライメントによる説明可能な周期的画像レポート生成の実現

Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation ( http://arxiv.org/abs/2312.08078v5 )

ライセンス: Link先を確認
Wenting Chen, Linlin Shen, Jingyang Lin, Jiebo Luo, Xiang Li, Yixuan Yuan, (参考訳) これらの問題に対処するために,医療報告における単語と胸部X線画像領域を相関付け,CXR-report 生成に適用し,生成プロセスの説明可能性を実現するための新しい適応パッチワードマッチング(AdaMatch)モデルを提案する。 AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。 異なるサイズと位置の異常領域をキャプチャするために、適応パッチ抽出モジュールを導入し、これらの領域の適応パッチを適応的に取得する。 本稿では,CXR-Report生成タスクの明示的な説明性を提供するために,CXR-Report生成のためのAdaMatchベースの双方向大言語モデルを提案する。 CXRイメージのキーワードと、CXR-Report生成をガイドするヒントとして、医療報告の'keypatches'を取得するためにAdaMatchを使用している。 利用可能な2つのCXRデータセットに対する大規模な実験により,提案手法の有効性と既存手法よりも優れた性能が証明された。

To address these issues, we propose a novel Adaptive patch-word Matching (AdaMatch) model to correlate chest X-ray (CXR) image regions with words in medical reports and apply it to CXR-report generation to provide explainability for the generation process. AdaMatch exploits the fine-grained relation between adaptive patches and words to provide explanations of specific image regions with corresponding words. To capture the abnormal regions of varying sizes and positions, we introduce the Adaptive Patch extraction (AdaPatch) module to acquire the adaptive patches for these regions adaptively. In order to provide explicit explainability for CXR-report generation task, we propose an AdaMatch-based bidirectional large language model for Cyclic CXR-report generation (AdaMatch-Cyclic). It employs the AdaMatch to obtain the keywords for CXR images and `keypatches' for medical reports as hints to guide CXR-report generation. Extensive experiments on two publicly available CXR datasets prove the effectiveness of our method and its superior performance to existing methods.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# CMOSE: 高品質ラベルによる総合的マルチモーダルオンライン学生エンゲージメントデータセット

CMOSE: Comprehensive Multi-Modality Online Student Engagement Dataset with High-Quality Labels ( http://arxiv.org/abs/2312.09066v2 )

ライセンス: Link先を確認
Chi-hsuan Wu, Shih-yang Liu, Xijie Huang, Xingbo Wang, Rong Zhang, Luca Minciullo, Wong Kai Yiu, Kenny Kwan, Kwang-Ting Cheng, (参考訳) オンライン学習は急速に成長している産業だ。 しかし、オンライン学習に関する大きな疑問は、学生が対面授業に通っているかどうかである。 エンゲージメント認識システムは、教官に生徒の状態を通知し、学習経験を改善することができる。 エンゲージメント検出における現在の課題は、ラベルの品質の低さ、極端なデータ不均衡、クラス内の多様性などだ。 これらの問題に対処するために、異なるエンゲージメントレベルからの大量のデータと、心理的アドバイスに従って注釈付けされた高品質なラベルを含むCMOSEデータセットを提案する。 また,クラス内多様度とクラス内多様度の順序パターンを扱うためのトレーニング機構であるMocoRankを提案する。 MocoRankは以前のエンゲージメント検出フレームワークより優れており、全体的な精度が1.32%向上し、平均精度が5.05%向上している。 さらに,映像特徴と音声特徴を組み合わせることで,エンゲージメント検出におけるマルチモーダルの有効性を示す。 データ転送可能性の実験では、提案したCMOSEデータセットがラベルの品質と振る舞いの多様性に優れたものであることも述べられている。

Online learning is a rapidly growing industry. However, a major doubt about online learning is whether students are as engaged as they are in face-to-face classes. An engagement recognition system can notify the instructors about the students condition and improve the learning experience. Current challenges in engagement detection involve poor label quality, extreme data imbalance, and intra-class variety - the variety of behaviors at a certain engagement level. To address these problems, we present the CMOSE dataset, which contains a large number of data from different engagement levels and high-quality labels annotated according to psychological advice. We also propose a training mechanism MocoRank to handle the intra-class variety and the ordinal pattern of different degrees of engagement classes. MocoRank outperforms prior engagement detection frameworks, achieving a 1.32% increase in overall accuracy and 5.05% improvement in average accuracy. Further, we demonstrate the effectiveness of multi-modality in engagement detection by combining video features with speech and audio features. The data transferability experiments also state that the proposed CMOSE dataset provides superior label quality and behavior diversity.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# 逆問題に対する正規化学習:スペクトルモデルからの考察

Learned Regularization for Inverse Problems: Insights from a Spectral Model ( http://arxiv.org/abs/2312.09845v2 )

ライセンス: Link先を確認
Martin Burger, Samira Kabri, (参考訳) 本章では、スペクトル再構成演算子の観点から、逆問題に対する最先端の学習アプローチに関する理論的に確立された研究を行う。 本稿では, 正規化法とその収束を基礎となるデータ分布の観点から拡張し, 今後の理論的研究の道筋をたどる。 教師付き学習のために導入された単純なスペクトル学習モデルに基づいて,特定のアーキテクチャとは独立して定式化できる逆問題に対する異なる学習パラダイムの重要な性質について検討する。 特に、トレーニングデータ分布に対する正規化特性、バイアス、および臨界依存性について検討する。 さらに,本フレームワークは,無限次元の極限において,異なるパラダイムの特定の挙動を強調し,比較することができる。

In this chapter we provide a theoretically founded investigation of state-of-the-art learning approaches for inverse problems from the point of view of spectral reconstruction operators. We give an extended definition of regularization methods and their convergence in terms of the underlying data distributions, which paves the way for future theoretical studies. Based on a simple spectral learning model previously introduced for supervised learning, we investigate some key properties of different learning paradigms for inverse problems, which can be formulated independently of specific architectures. In particular we investigate the regularization properties, bias, and critical dependence on training data distributions. Moreover, our framework allows to highlight and compare the specific behavior of the different paradigms in the infinite-dimensional limit.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# 高速決定境界を用いた分布外検出器

Fast Decision Boundary based Out-of-Distribution Detector ( http://arxiv.org/abs/2312.11536v2 )

ライセンス: Link先を確認
Litian Liu, Yao Qin, (参考訳) AIシステムの安全なデプロイには、効率的かつ効果的なアウト・オブ・ディストリビューション(OOD)検出が不可欠である。 既存の特徴空間法は有効であるが、訓練特徴から構築された補助モデルに依存するため、しばしば計算上のオーバーヘッドを生じさせる。 本稿では,特徴空間に埋め込まれた豊富な情報を引き続き活用しながら,補助モデルを使用しない計算効率の良いOOD検出器を提案する。 具体的には,その特徴量から決定境界までの距離に基づいてOODサンプルを検出する。 計算コストを最小化するために,解析的に距離を厳格に下げる効率的な閉形式推定を導入する。 評価の結果,OOD特徴よりも,ID特徴が決定境界から遠ざかることが判明した。 さらに、IDとOODのサンプルは、トレーニング機能の平均から同等の偏差レベルで比較すると、より分離される。 平均値から特徴偏差に基づいて決定境界までの距離を正規化することにより、超パラメータフリーで補助的なモデルフリーなOOD検出器を開発する。 提案手法は, 予測遅延において無視できないオーバーヘッドを発生させながら, 実験において最先端の手法の有効性に適合するか, 上回っている。 全体として,本手法はOOD検出における効率効率-効率トレードオフを大幅に改善する。 コードは、https://github.com/litianliu/fDBD-OOD.comで入手できる。

Efficient and effective Out-of-Distribution (OOD) detection is essential for the safe deployment of AI systems. Existing feature space methods, while effective, often incur significant computational overhead due to their reliance on auxiliary models built from training features. In this paper, we propose a computationally-efficient OOD detector without using auxiliary models while still leveraging the rich information embedded in the feature space. Specifically, we detect OOD samples based on their feature distances to decision boundaries. To minimize computational cost, we introduce an efficient closed-form estimation, analytically proven to tightly lower bound the distance. Based on our estimation, we discover that In-Distribution (ID) features tend to be further from decision boundaries than OOD features. Additionally, ID and OOD samples are better separated when compared at equal deviation levels from the mean of training features. By regularizing the distances to decision boundaries based on feature deviation from the mean, we develop a hyperparameter-free, auxiliary model-free OOD detector. Our method matches or surpasses the effectiveness of state-of-the-art methods in extensive experiments while incurring negligible overhead in inference latency. Overall, our approach significantly improves the efficiency-effectiveness trade-off in OOD detection. Code is available at: https://github.com/litianliu/fDBD-OOD.
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# ZX-Calculusによる強化学習に基づく量子回路最適化

Reinforcement Learning Based Quantum Circuit Optimization via ZX-Calculus ( http://arxiv.org/abs/2312.11597v3 )

ライセンス: Link先を確認
Jordi Riu, Jan Nogué, Gerard Vilaplana, Artur Garcia-Saez, Marta P. Estarellas, (参考訳) 本稿では,ZX-ダイアグラムのグラフ理論的単純化規則を用いて,量子回路を最適化するための新しい強化学習法を提案する。 このエージェントはPPOアルゴリズムを用いて訓練され、グラフニューラルネットワークを用いてポリシーと値関数を近似する。 そこで本研究では,ZX-Calculusをベースとした最良性能のアルゴリズムと比較し,提案手法の能力を示す。 5量子ビットと10分の1ゲートの小さなクリフォード+T回路のトレーニングの後、エージェントは、計算性能の点で競争力を維持しながら、少なくとも80量子ビットと2100ゲートのこのタイプの回路の最先端性を一貫して改善した。 さらに、全ゲート数と2ビットゲート数の削減を目標とし、各ハードウェアバックエンドの特定の特性に合わせて報酬関数を調整する可能性を示す。 我々のアプローチは、短期中間スケール範囲(NISQ)における量子アルゴリズムの実装のための貴重なツールとして使われる準備ができている。

We propose a novel Reinforcement Learning (RL) method for optimizing quantum circuits using graph-theoretic simplification rules of ZX-diagrams. The agent, trained using the Proximal Policy Optimization (PPO) algorithm, employs Graph Neural Networks to approximate the policy and value functions. We demonstrate the capacity of our approach by comparing it against the best performing ZX-Calculus-based algorithm for the problem in hand. After training on small Clifford+T circuits of 5-qubits and few tenths of gates, the agent consistently improves the state-of-the-art for this type of circuits, for at least up to 80-qubit and 2100 gates, whilst remaining competitive in terms of computational performance. Additionally, we illustrate its versatility by targeting both total and two-qubit gate count reduction, conveying the potential of tailoring its reward function to the specific characteristics of each hardware backend. Our approach is ready to be used as a valuable tool for the implementation of quantum algorithms in the near-term intermediate-scale range (NISQ).
翻訳日:2024-06-06 13:47:23 公開日:2024-06-04
# メモリを用いたオープン量子ダイナミクスのための統一フレームワーク

Unified Framework for Open Quantum Dynamics with Memory ( http://arxiv.org/abs/2312.13233v4 )

ライセンス: Link先を確認
Felix Ivander, Lachlan P. Lindoy, Joonho Lee, (参考訳) 浴槽に結合した量子系の力学の研究は、典型的には中島-ズワンツィヒメモリカーネル({\mathcal{K}}$)や影響関数(\mathbf{I}}$)を利用して行われる。 その重要性にもかかわらず、メモリカーネルと影響関数の間の正式な接続は明確にされていない。 我々は,N$レベルのシステムがガウス浴(ボソニック,フェルミオン,スピン)に線形に結合しているような問題に対して,システムプロパゲータを検査することにより,それらの関係を明らかにする。 ある種の開量子系問題に対して、標準アプローチで要求される射影自由力学入力を使わずにガウス浴と相互作用する(駆動)システムに対して${\mathcal{K}}$から${\mathcal{K}}$を構築する非摂動的図式的アプローチを考案した。 最後に、量子センシングおよび工学における新しい道を開くために、実験的にまたは数値的に正確な方法で得られた一連の還元系軌跡からバススペクトル密度を抽出するハミルトン学習手法を実証する。 この研究で提供される洞察は、非マルコフ力学の理解を著しく前進させ、この領域における理論的および実験的発展にとって重要な足掛かりとなる。

Studies of the dynamics of a quantum system coupled to baths are typically performed by utilizing the Nakajima-Zwanzig memory kernel (${\mathcal{K}}$) or the influence functions ($\mathbf{{I}}$), especially when the dynamics exhibit memory effects (i.e., non-Markovian). Despite their significance, the formal connection between the memory kernel and the influence functions has not been explicitly made. We reveal their relation by inspecting the system propagator for a broad class of problems where an $N$-level system is linearly coupled to Gaussian baths (bosonic, fermionic, and spin.) With this connection, we also show how approximate path integral methods can be understood in terms of approximate memory kernels. For a certain class of open quantum system problems, we devised a non-perturbative, diagrammatic approach to construct ${\mathcal{K}}$ from $\mathbf{{I}}$ for (driven) systems interacting with Gaussian baths without the use of any projection-free dynamics inputs required by standard approaches. Lastly, we demonstrate a Hamiltonian learning procedure to extract the bath spectral density from a set of reduced system trajectories obtained experimentally or by numerically exact methods, opening new avenues in quantum sensing and engineering. The insights we provide in this work will significantly advance the understanding of non-Markovian dynamics, and they will be an important stepping stone for theoretical and experimental developments in this area.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# 循環経済におけるブロックチェーン統合の推計と提案

Investigating Assumptions and Proposals for Blockchain Integration in the Circular Economy. A Delphi Study ( http://arxiv.org/abs/2312.13774v2 )

ライセンス: Link先を確認
Giulio Caldarelli, (参考訳) 循環経済とブロックチェーンの誇大広告への関心が高まり、多くの統合が提案された。 しかし、現実的な実現可能性の研究は乏しく、循環経済におけるブロックチェーンの可能性の仮定はめったに疑問視されることはなかった。 今回の研究では、最も著名なブロックチェーン専門家11人の助けを借りて、循環経済の多くの領域におけるテクノロジ統合を分析して、その可能性を予測する。 デルフィの手法は専門家のビジョンと意見の間で合意に達するために活用されている。 結果は、循環経済の統合が成功する可能性は低いが、特定の条件が満たされた場合、長期的には成功する可能性があるという見解を支持している。

Given the rising interest in the circular economy and blockchain hype, numerous integrations were proposed. However, studies on the practical feasibility were scarce, and the assumptions of blockchain potential in the circular economy were rarely questioned. With the help of eleven of the most prominent blockchain experts, the present study critically analyzed technology integration in many areas of the circular economy to forecast their possible outcomes. Delphi's technique is leveraged to reach a consensus among experts' visions and opinions. Results support the view that some circular economy integrations are unlikely to succeed, while others if specific conditions are met, may prove to be successful in the long run.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# VideoPoet: ゼロショットビデオ生成のための大規模言語モデル

VideoPoet: A Large Language Model for Zero-Shot Video Generation ( http://arxiv.org/abs/2312.14125v4 )

ライセンス: Link先を確認
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang, (参考訳) 本稿では,多種多様な条件信号から高品質な映像と音声を合成可能な言語モデルであるVideoPoetを提案する。 VideoPoetは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。 トレーニングプロトコルはLarge Language Models (LLM)の後継で、事前訓練とタスク固有の適応という2つの段階で構成されている。 事前トレーニング中、VideoPoetは自動回帰トランスフォーマーフレームワークにマルチモーダル生成目的の混合を組み込んでいる。 事前訓練されたLLMは、様々なビデオ生成タスクに適応できる基盤として機能する。 ゼロショットビデオ生成におけるモデルの現状を示す実証実験の結果,特に高忠実度モーションを生成する VideoPoet の能力を強調した。 プロジェクトページ: http://sites.research.google/videopoet/

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# ダイヤモンド中のElectron-14Nハイブリッドスピンレジスタの高忠実度2量子状態トモグラフィ

High fidelity two-qubit quantum state tomography of Electron-14N hybrid spin register in diamond ( http://arxiv.org/abs/2312.14310v2 )

ライセンス: Link先を確認
Abhishek Shukla, Boo Carmans, Michael Petrov, Daan Vrancken, Milos Nesladek, (参考訳) 本稿では、ダイヤモンド中の単一NV中心の14N核スピンの制御とキャラクタリゼーションの大幅な改善と、Ravi実験を用いた量子状態トモグラフィー(quantum state tomography)のキャラクタリゼーションのために考案した新しい手法について報告する。 我々はRabi実験の振幅情報や位相情報を利用するかによって、Rabi振幅量子状態トモグラフィ(RAQST)とRabi位相量子状態トモグラフィ(RPQST)という2つのサブメソッドを定義する。 Rabi ベースのトモグラフィー手法の利点は、他の手法、特に標準手法で使われるユニタリ演算の要件を引き上げることである。 一方、これは大きなレジスタにおけるトモグラフィ実験の複雑さを増大させるものではなく、一方、MW照射による誤差を減少させる。 我々は、RAQSTとRPQSTを用いて、セットアップにおける様々な2ビット純状態の品質を調査した。 予想通り、テスト量子状態は理論上の状態と非常に高い忠実性を示す。

We report here on a major improvement of the control and characterization capabilities of 14N nuclear spin of single NV centers in diamond, as well as on a new method that we have devised for characterizing quantum states, i.e. quantum state tomography using Rabi experiments. Depending on whether we use amplitude information or phase information from Rabi experiments, we define two sub-methods namely Rabi amplitude quantum state tomography (RAQST) and Rabi phase quantum state tomography (RPQST). The advantage of Rabi-based tomography methods is that they lift the requirement of unitary operations used in other methods in general and standard methods in particular. On one hand, this does not increase the complexity of the tomography experiments in large registers, and on the other hand, it decreases the error induced by MW irradiation. We used RAQST and RPQST to investigate the quality of various two-qubit pure states in our setup. As expected, test quantum states show very high fidelity with the theoretical counterpart.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# スムースとは何か?

How Smooth Is Attention? ( http://arxiv.org/abs/2312.14820v2 )

ライセンス: Link先を確認
Valérie Castin, Pierre Ablin, Gabriel Peyré, (参考訳) 自己アテンションとマスク付き自己アテンションはトランスフォーマーの卓越した成功の核心にある。 それでも、注意の数学的理解、特にそのリプシッツの性質は、ロバスト性や表現力を分析する上で鍵となるもので、不完全である。 いくつかの実践シナリオにおいて、リプシッツ定数の詳細な研究を行い、配列長$n$と層正規化が非マスキングおよびマスク付き自己アテンションの両方の局所リプシッツ定数に与える影響を論じる。 特に、任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$\sqrt{n}$で有界であり、この境界は妥当な列長に対して厳密であることを示す。 列長 $n$ が、前回の境界がタイトになるには大きすぎるとき、平均場状態(英: mean-field regime)と呼び、上界と一致する下界を$n$ とは独立に提供する。 マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。 事前学習およびランダムに初期化したBERTとGPT-2に関する実験は,理論的な知見を裏付けるものである。

Self-attention and masked self-attention are at the heart of Transformers' outstanding success. Still, our mathematical understanding of attention, in particular of its Lipschitz properties - which are key when it comes to analyzing robustness and expressive power - is incomplete. We provide a detailed study of the Lipschitz constant of self-attention in several practical scenarios, discussing the impact of the sequence length $n$ and layer normalization on the local Lipschitz constant of both unmasked and masked self-attention. In particular, we show that for inputs of length $n$ in any compact set, the Lipschitz constant of self-attention is bounded by $\sqrt{n}$ up to a constant factor and that this bound is tight for reasonable sequence lengths. When the sequence length $n$ is too large for the previous bound to be tight, which we refer to as the mean-field regime, we provide an upper bound and a matching lower bound which are independent of $n$. Our mean-field framework for masked self-attention is novel and of independent interest. Our experiments on pretrained and randomly initialized BERT and GPT-2 support our theoretical findings.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# SSFlowNet:擬似ラベル付きポイントクラウド上の半教師付きシーンフロー推定

SSFlowNet: Semi-supervised Scene Flow Estimation On Point Clouds With Pseudo Label ( http://arxiv.org/abs/2312.15271v2 )

ライセンス: Link先を確認
Jingze Chen, Junfeng Yao, Qiqin Lin, Rongzhou Zhou, Lei Li, (参考訳) 教師付きシーンフロー推定の領域では、手動ラベリングのプロセスは時間集約的かつ経済的に要求される。 本稿では,ラベル付きデータとラベルなしデータを組み合わせた半教師付きシーンフロー推定手法であるSSFlowNetを紹介し,ラベル付けコストとモデルトレーニングの精度のバランスを最適化する。 SSFlowNetは、その革新的な擬似ラベルの使用を通じて際立っている。 我々のモデルの中核は、局所的およびグローバル的に点雲の複雑な幾何学構造と、新しい空間記憶機能に重点を置いている。 この特徴は、逐次時間フレーム上の点間の幾何学的関係の学習に有効である。 ラベル付きポイントとラベルなしポイントの類似性を識別することにより、SSFlowNetは動的に相関行列を構築し、個々のポイントレベルでシーンフロー依存性を評価する。 さらに、SSFlowNet内のフロー一貫性モジュールの統合により、フローを継続的に推定する能力が向上する。 実験の結果、SSFlowNetは擬似ラベル生成の既存の手法を超越し、様々なデータボリュームに適応可能であることが示された。 さらに, 半教師付きトレーニング手法では, ラベル付きデータが異なる場合であっても, 期待できる結果が得られ, シーンフロー推定の分野ではかなり進歩していることを示す。

In the domain of supervised scene flow estimation, the process of manual labeling is both time-intensive and financially demanding. This paper introduces SSFlowNet, a semi-supervised approach for scene flow estimation, that utilizes a blend of labeled and unlabeled data, optimizing the balance between the cost of labeling and the precision of model training. SSFlowNet stands out through its innovative use of pseudo-labels, mainly reducing the dependency on extensively labeled datasets while maintaining high model accuracy. The core of our model is its emphasis on the intricate geometric structures of point clouds, both locally and globally, coupled with a novel spatial memory feature. This feature is adept at learning the geometric relationships between points over sequential time frames. By identifying similarities between labeled and unlabeled points, SSFlowNet dynamically constructs a correlation matrix to evaluate scene flow dependencies at individual point level. Furthermore, the integration of a flow consistency module within SSFlowNet enhances its capability to consistently estimate flow, an essential aspect for analyzing dynamic scenes. Empirical results demonstrate that SSFlowNet surpasses existing methods in pseudo-label generation and shows adaptability across varying data volumes. Moreover, our semi-supervised training technique yields promising outcomes even with different smaller ratio labeled data, marking a substantial advancement in the field of scene flow estimation.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# Observable Propagation: Transformerの機能ベクトルの発見

Observable Propagation: Uncovering Feature Vectors in Transformers ( http://arxiv.org/abs/2312.16291v2 )

ライセンス: Link先を確認
Jacob Dunefsky, Arman Cohan, (参考訳) NLPにおける現在の機械論的解釈可能性の研究の鍵となるゴールは、変圧器の線形特徴(「機能ベクトル」とも呼ばれる)を見つけることである。 線形特徴を見つけるための現在の最先端の手法は、大量のラベル付きデータ -- 取得に苦労すると同時に、利用するのに計算コストがかかる — を必要とする。この記事では、ほとんど何もデータを使って、変換言語モデルが与えられたタスクを計算する際に使用する線形特徴を見つけるために、"observable propagation"(略してObProp)と呼ばれる新しい手法を導入する。 我々のパラダイムは、与えられたタスクに対応する線形汎関数である「観測可能」の概念に焦点を当てている。 次に、ある特徴ベクトルの出力が他の特徴ベクトルと相関する程度を推定する結合係数と呼ばれる特徴ベクトル間の類似度計量を含む特徴ベクトルの解析のための数学的理論を導入する。 我々はObPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。 以上の結果から,ObPropは低データ構造における特徴ベクトル探索の従来の手法を超越し,大規模言語モデルにおけるバイアスの原因となるメカニズムをよりよく理解するために,ObPropが有効であることが示唆された。

A key goal of current mechanistic interpretability research in NLP is to find linear features (also called "feature vectors") for transformers: directions in activation space corresponding to concepts that are used by a given model in its computation. Present state-of-the-art methods for finding linear features require large amounts of labelled data -- both laborious to acquire and computationally expensive to utilize. In this work, we introduce a novel method, called "observable propagation" (in short: ObProp), for finding linear features used by transformer language models in computing a given task -- using almost no data. Our paradigm centers on the concept of "observables", linear functionals corresponding to given tasks. We then introduce a mathematical theory for the analysis of feature vectors, including a similarity metric between feature vectors called the coupling coefficient which estimates the degree to which one feature's output correlates with another's. We use ObProp to perform extensive qualitative investigations into several tasks, including gendered occupational bias, political party prediction, and programming language detection. Our results suggest that ObProp surpasses traditional approaches for finding feature vectors in the low-data regime, and that ObProp can be used to better understand the mechanisms responsible for bias in large language models.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# 生成的情報抽出のための大規模言語モデル:調査

Large Language Models for Generative Information Extraction: A Survey ( http://arxiv.org/abs/2312.17617v2 )

ライセンス: Link先を確認
Derong Xu, Wei Chen, Wenjun Peng, Chao Zhang, Tong Xu, Xiangyu Zhao, Xian Wu, Yefeng Zheng, Yang Wang, Enhong Chen, (参考訳) 情報抽出(IE)は、平易な自然言語テキストから構造的知識(実体、関係、出来事など)を抽出することを目的としている。 近年,ジェネレーティブ・Large Language Models (LLM) はテキスト理解と生成において顕著な能力を示し,様々な領域やタスクをまたいだ一般化を実現している。 その結果、LLMの能力を活用し、生成パラダイムに基づいたIEタスクに実行可能なソリューションを提供するために、多くの研究が提案されている。 そこで本研究では,IE タスクにおける LLM の取り組みを総合的に検討し,最近の進歩を調査する。 まず,これらの課題を多種多様なIEサブタスクと学習パラダイムで分類し,先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。 徹底的なレビューに基づいて,今後の研究にふさわしい技術と有望な研究の方向性について,いくつかの知見を見出している。 パブリックリポジトリを維持し、関連するリソースを継続的に更新します。

Information extraction (IE) aims to extract structural knowledge (such as entities, relations, and events) from plain natural language texts. Recently, generative Large Language Models (LLMs) have demonstrated remarkable capabilities in text understanding and generation, allowing for generalization across various domains and tasks. As a result, numerous works have been proposed to harness abilities of LLMs and offer viable solutions for IE tasks based on a generative paradigm. To conduct a comprehensive systematic review and exploration of LLM efforts for IE tasks, in this study, we survey the most recent advancements in this field. We first present an extensive overview by categorizing these works in terms of various IE subtasks and learning paradigms, then we empirically analyze the most advanced methods and discover the emerging trend of IE tasks with LLMs. Based on thorough review conducted, we identify several insights in technique and promising research directions that deserve further exploration in future studies. We maintain a public repository and consistently update related resources at: \url{https://github.com/quqxui/Awesome-LLM4IE-Papers}.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# 大規模ネットワークにおけるデータ駆動型エネルギー効率モデリング -知識とMLに基づくアプローチ-

Data-driven Energy Efficiency Modelling in Large-scale Networks: An Expert Knowledge and ML-based Approach ( http://arxiv.org/abs/2401.00443v2 )

ライセンス: Link先を確認
David López-Pérez, Antonio De Domenico, Nicola Piovesan, Merouane Debbah, (参考訳) モバイルネットワークのエネルギー消費は重要な課題である。 この懸念を緩和するには、ネットワークリソースを動的に管理するために、キャリアのシャットダウンのようなネットワーク省エネソリューションのデプロイと最適化が必要である。 従来の最適化アプローチは、多数のセル、確率的トラフィック、チャネルのバリエーション、複雑なトレードオフなどの要因によって複雑さに直面する。 本稿では、生のネットワークデータを活用し、機械学習(ML)とエキスパートベースモデルを組み合わせた新しいデータ駆動モデリングパラダイムである、通信ネットワーク(SRCON)フレームワークのシミュレーション現実を紹介する。 これらの混合モデルは、ネットワークコンポーネントの機能を正確に特徴付け、特定のネットワーク内の任意のエネルギーキャリアのシャットダウン構成に対して、ネットワークエネルギー効率とユーザ機器(UE)の品質を予測する。 SRCONは既存の手法から切り離すため、高価な専門家の知識、テスト駆動、あるいはネットワーク性能を予測する不完全なマップへの依存を排除している。 本稿では,大規模なネットワークエネルギー効率モデリング問題をMLおよびエキスパートベースサブモデルに分解するためにSRCONが採用したパイプラインについて詳述する。 確率性を受け入れ、そのようなサブモデル間の関係を慎重に構築することにより、全体的な計算複雑性を減らし、予測精度を向上できることを示す。 実ネットワークデータから得られた結果は、SRCONが導入したパラダイムシフトを裏付けるもので、オペレーターがネットワークエネルギー効率のモデリングに使用する最先端技術よりも大幅に向上したことを示している。 このローカルなデータ駆動型ネットワークモデリングの信頼性は、ネットワークの省エネ最適化の鍵となる資産であることが証明されている。

The energy consumption of mobile networks poses a critical challenge. Mitigating this concern necessitates the deployment and optimization of network energy-saving solutions, such as carrier shutdown, to dynamically manage network resources. Traditional optimization approaches encounter complexity due to factors like the large number of cells, stochastic traffic, channel variations, and intricate trade-offs. This paper introduces the simulated reality of communication networks (SRCON) framework, a novel, data-driven modeling paradigm that harnesses live network data and employs a blend of machine learning (ML)- and expert-based models. These mix of models accurately characterizes the functioning of network components, and predicts network energy efficiency and user equipment (UE) quality of service for any energy carrier shutdown configuration in a specific network. Distinguishing itself from existing methods, SRCON eliminates the reliance on expensive expert knowledge, drive testing, or incomplete maps for predicting network performance. This paper details the pipeline employed by SRCON to decompose the large network energy efficiency modeling problem into ML and expert-based submodels. It demonstrates how, by embracing stochasticity, and carefully crafting the relationship between such submodels, the overall computational complexity can be reduced and prediction accuracy enhanced. Results derived from real network data underscore the paradigm shift introduced by SRCON, showcasing significant gains over a state-of-the art method used by a operator for network energy efficiency modeling. The reliability of this local, data-driven modeling of the network proves to be a key asset for network energy-saving optimization.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# 騙しの技:トリガーの動的積み重ねによるロバストなバックドア攻撃

The Art of Deception: Robust Backdoor Attack using Dynamic Stacking of Triggers ( http://arxiv.org/abs/2401.01537v3 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)の領域は、AI(Artificial Intelligence)産業の最近の進歩により、実装が増加している。 しかし、このスパイクはAI防衛機構、特に完全に信頼できないサードパーティプロバイダによる隠蔽攻撃に関する懸念を引き起こしている。 近年の研究では、聴覚バックドアが特定の変更を開始メカニズムとして用いる可能性があることが判明している。 DynamicTriggerは、巧妙にデザインされた微調整を使用して、破損したサンプルがクリーンと区別できないことを保証する動的バックドアアタックを実行するための方法論として紹介されている。 ゆらぎ信号のサンプリングレートと動音トリガーによる話者の身元をマスキングすることにより、音声認識システム(ASR)を欺くことができる。 実験的なテストでは、DynamicTriggerは強力かつステルス的であり、非ポゾンデータセットによる例外的な精度を維持しながら、隠蔽攻撃による顕著な成功率を実現しています。

The area of Machine Learning as a Service (MLaaS) is experiencing increased implementation due to recent advancements in the AI (Artificial Intelligence) industry. However, this spike has prompted concerns regarding AI defense mechanisms, specifically regarding potential covert attacks from third-party providers that cannot be entirely trusted. Recent research has uncovered that auditory backdoors may use certain modifications as their initiating mechanism. DynamicTrigger is introduced as a methodology for carrying out dynamic backdoor attacks that use cleverly designed tweaks to ensure that corrupted samples are indistinguishable from clean. By utilizing fluctuating signal sampling rates and masking speaker identities through dynamic sound triggers (such as the clapping of hands), it is possible to deceive speech recognition systems (ASR). Our empirical testing demonstrates that DynamicTrigger is both potent and stealthy, achieving impressive success rates during covert attacks while maintaining exceptional accuracy with non-poisoned datasets.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# TinyLlama: オープンソースの小型言語モデル

TinyLlama: An Open-Source Small Language Model ( http://arxiv.org/abs/2401.02385v2 )

ライセンス: Link先を確認
Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu, (参考訳) 約3エポックで約1兆トークンを事前訓練した,コンパクトな1.1B言語モデルTinyLlamaを提案する。 Llama 2のアーキテクチャとトークン化ツール上に構築されているTinyLlamaは、オープンソースコミュニティ(例:FlashAttention、Lit-GPT)が貢献する様々な進歩を活用し、より良い計算効率を実現する。 TinyLlamaは比較的小さなサイズだが、一連のダウンストリームタスクで顕著なパフォーマンスを示している。 これは、既存のオープンソース言語モデルと同等のサイズで大幅に上回っている。 私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/jzhang38/TinyLlama.comで公開されています。

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention and Lit-GPT), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# 脳にインスパイアされた産業事故診断のためのスパイクニューラルネットワーク:サーベイ、課題、そして機会

Brain-Inspired Spiking Neural Networks for Industrial Fault Diagnosis: A Survey, Challenges, and Opportunities ( http://arxiv.org/abs/2401.02429v2 )

ライセンス: Link先を確認
Huan Wang, Yan-Fu Li, Konstantinos Gryllias, (参考訳) 近年, 産業用機器の健康状態に関する重要な情報を検出し収集する上で重要な分野として, 産業用故障診断 (IFD) が登場している。 高精度かつ効果的な断層認識の追求は、安全事故の防止と人的労働への依存を減らすための機器監視の自動化に重点を置いている。 人工知能ニューラルネットワーク(ANN)の出現は、特にビッグデータの文脈において、インテリジェントIFDアルゴリズムの強化に役立っている。 これらの進歩にもかかわらず、ANNは単純化されたバイオミメティックニューラルネットワークモデルであり、リソースやデータ依存や制限された認知能力といった固有の制限を示す。 これらの制限に対処するため、Brainにインスパイアされたコンピューティングの原則に基づく第3世代のスパイクニューラルネットワーク(SNN)が、有望な代替手段として浮上した。 SNNは、その生物学的ニューロンのダイナミクスとスパイク情報符号化によって特徴づけられ、時空間の特徴を表現するのに例外的なポテンシャルを示す。 その結果,SNNベースのIFDモデルの開発が勢いを増し,性能向上が図られた。 それにもかかわらず、この分野は現在の状況、課題、今後の方向性を説明するための体系的な調査を欠いている。 そこで本研究では,SNNモデルの理論的進歩を体系的に検証し,SNNとは何かという疑問に答える。 その後、既存のSNNベースのIFDモデルをレビューし分析し、なぜSNNを使う必要があるのか、どのように使う必要があるのかを説明する。 さらに,本論文は,IFDにおけるSNNの課題,解決,機会を体系的に解決する。

In recent decades, Industrial Fault Diagnosis (IFD) has emerged as a crucial discipline concerned with detecting and gathering vital information about industrial equipment's health condition, thereby facilitating the identification of failure types and severities. The pursuit of precise and effective fault recognition has garnered substantial attention, culminating in a focus on automating equipment monitoring to preclude safety accidents and reduce reliance on human labor. The advent of artificial neural networks (ANNs) has been instrumental in augmenting intelligent IFD algorithms, particularly in the context of big data. Despite these advancements, ANNs, being a simplified biomimetic neural network model, exhibit inherent limitations such as resource and data dependencies and restricted cognitive capabilities. To address these limitations, the third-generation Spiking Neural Network (SNN), founded on principles of Brain-inspired computing, has surfaced as a promising alternative. The SNN, characterized by its biological neuron dynamics and spiking information encoding, demonstrates exceptional potential in representing spatiotemporal features. Consequently, developing SNN-based IFD models has gained momentum, displaying encouraging performance. Nevertheless, this field lacks systematic surveys to illustrate the current situation, challenges, and future directions. Therefore, this paper systematically reviews the theoretical progress of SNN-based models to answer the question of what SNN is. Subsequently, it reviews and analyzes existing SNN-based IFD models to explain why SNN needs to be used and how to use it. More importantly, this paper systematically answers the challenges, solutions, and opportunities of SNN in IFD.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-04
# ダイアリゼーションLM:大規模言語モデルを用いた話者ダイアリゼーション後処理

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v5 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao, (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。 提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。 この枠組みでは、自動音声認識(ASR)と話者ダイアリゼーションシステムの出力を、任意に微調整されたLLMのプロンプトに含まれるコンパクトテキスト形式として表現する。 LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。 後処理のステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、市販のASRおよび話者ダイアリゼーションシステムに容易に適用することができる。 実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。 Fisher 電話の会話データセットで55.5%、rel。 44.9%であった。

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# 大規模言語モデルにおける判断空間関係の歪み

Distortions in Judged Spatial Relations in Large Language Models ( http://arxiv.org/abs/2401.04218v2 )

ライセンス: Link先を確認
Nir Fulman, Abdulkadir Memduhoğlu, Alexander Zipf, (参考訳) GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。 このベンチマークは、LLMが人間と類似した階層的な空間バイアスを示すかどうかを特に評価し、個々の位置の空間的関係に関する判断は、それらを含む大きなグループの知覚的な関係に影響される。 これを調べるために、よく知られたアメリカの都市に焦点を当てた14の質問を定式化した。 7つの質問は、国家や国のようなより大きな地理的単位の向きに影響される可能性のあるシナリオでLLMに挑戦するために設計された。 GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。 これらのモデルでは,階層的バイアスが疑われるタスクに対して有意に精度が低下した。 例えば、GPT-4の精度はこれらのタスクで33%まで低下し、他のタスクでは86%に低下した。 しかし、これらのモデルでは、ほとんどの場合において最も近い基数方向を識別し、その連想学習機構を反映し、人間のような誤解を具現化している。 LLMの空間的推論能力を改善するための方法について議論する。

We present a benchmark for assessing the capability of Large Language Models (LLMs) to discern intercardinal directions between geographic locations and apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar to humans, where judgments about individual locations' spatial relationships are influenced by the perceived relationships of the larger groups that contain them. To investigate this, we formulated 14 questions focusing on well-known American cities. Seven questions were designed to challenge the LLMs with scenarios potentially influenced by the orientation of larger geographical units, such as states or countries, while the remaining seven targeted locations were less susceptible to such hierarchical categorization. Among the tested models, GPT-4 exhibited superior performance with 55 percent accuracy, followed by GPT-3.5 at 47 percent, and Llama-2 at 45 percent. The models showed significantly reduced accuracy on tasks with suspected hierarchical bias. For example, GPT-4's accuracy dropped to 33 percent on these tasks, compared to 86 percent on others. However, the models identified the nearest cardinal direction in most cases, reflecting their associative learning mechanism, thereby embodying human-like misconceptions. We discuss avenues for improving the spatial reasoning capabilities of LLMs.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# LinguAlchemy: 未知の言語一般化のための言語学的および地理的要素の融合

LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization ( http://arxiv.org/abs/2401.06034v3 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Alham Fikri Aji, Genta Indra Winata, Ayu Purwarianti, (参考訳) 事前学習型言語モデル (PLM) はタスクや言語の一般化に非常に適している。 それでも、見知らぬ言語に直面すると、しばしば失敗する。 本稿では,言語情報に類型的,地理的,系統的特徴を包含する正規化手法であるLinguAlchemyについて述べる。 我々のLinguAlchemyは、意図分類、ニュース分類、セマンティック関連性といった複数の下流タスクにおいて、mBERTとXLM-Rの性能を、完全に微調整されたモデルと比較して大幅に改善し、高いレベルの未確認言語一般化を表示する。 さらに,言語規則化の重み付けを自動的に調整するLinguAlchemyの拡張であるAlchemyScaleとAlchemyTuneを導入し,ハイパーパラメータ検索の必要性を軽減した。

Pretrained language models (PLMs) have become remarkably adept at task and language generalization. Nonetheless, they often fail when faced with unseen languages. In this work, we present LinguAlchemy, a regularization method that incorporates various linguistic information covering typological, geographical, and phylogenetic features to align PLMs representation to the corresponding linguistic information on each language. Our LinguAlchemy significantly improves the performance of mBERT and XLM-R on low-resource languages in multiple downstream tasks such as intent classification, news classification, and semantic relatedness compared to fully finetuned models and displaying a high degree of unseen language generalization. We further introduce AlchemyScale and AlchemyTune, extension of LinguAlchemy which adjusts the linguistic regularization weights automatically, alleviating the need for hyperparameter search.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# 量子場からのエンベジング絡み

Embezzling entanglement from quantum fields ( http://arxiv.org/abs/2401.07292v2 )

ライセンス: Link先を確認
Lauritz van Luijk, Alexander Stottmeister, Reinhard F. Werner, Henrik Wilming, (参考訳) 絡み合いのエンベズレメント(英: Embezzlement of entanglement)とは、補助系(「エンベズラー」)の参照状態から、局所的な量子演算を通じて絡み合った量子状態を抽出する反直感的な可能性を指す。 エンベジングエンタングルメントの操作タスクとフォン・ノイマン代数の数学的分類との深い関係を明らかにする。 この結果から、相対論的量子場は普遍的なエンベズラーであり、任意の次元の絡み合った状態は任意の精度でエンベズすることができる。 これは相対論的場の量子論の真空状態に存在する無限個の絡み合いの操作的特徴を与える。

Embezzlement of entanglement refers to the counterintuitive possibility of extracting entangled quantum states from a reference state of an auxiliary system (the "embezzler") via local quantum operations while hardly perturbing the latter. We uncover a deep connection between the operational task of embezzling entanglement and the mathematical classification of von Neumann algebras. Our result implies that relativistic quantum fields are universal embezzlers: Any entangled state of any dimension can be embezzled from them with arbitrary precision. This provides an operational characterization of the infinite amount of entanglement present in the vacuum state of relativistic quantum field theories.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# エンタングルメントの埋め込み、量子場、フォン・ノイマン代数の分類

Embezzlement of entanglement, quantum fields, and the classification of von Neumann algebras ( http://arxiv.org/abs/2401.07299v3 )

ライセンス: Link先を確認
Lauritz van Luijk, Alexander Stottmeister, Reinhard F. Werner, Henrik Wilming, (参考訳) 我々は、フォン・ノイマン代数の設定におけるエンタングルメントの埋め込みの量子情報理論的タスクについて研究する。 共有の絡み合ったリソース状態が与えられた場合、このタスクは、任意の絡み合った状態を生成するよう要求する。 与えられた資源状態の性能を最悪のエラーで定量化する。 後者が消滅する状態は「エンベジング状態」であり、任意の絡み合った状態を任意に小さな誤差でエンベジングすることができる。 すべての状態の最高かつ最悪の性能は、フォン・ノイマン代数の2つの代数不変量を定義する。 最初の不変量は2つの値のみである。 III型でしか起こらない状態や、非自明なエンベツルメントを許さない状態が存在する。 有限型 I でない因子の場合、第二不変量(英語版)は状態空間の直径に等しい。 これは、コンヌの量子情報理論におけるタイプIIIの分類の定量的な操作的解釈を提供する。 タイプIII$_1$ファクタは、すべての状態がエンベジングされる'ユニバーサル・エンベジングラー'である。 我々の発見は、III型代数が自然に現れる相対論的場の量子論に影響を及ぼす。 例えば、真空中におけるベルの不等式の最大違反を説明する。 重みのフローにおけるエンベジング状態と不変確率測度との1対1の対応から得られた。 また, ITPFI因子の普遍的なエンベジングは, 基本引数によってIII$_1$であることも確認した。

We study the quantum information theoretic task of embezzlement of entanglement in the setting of von Neumann algebras. Given a shared entangled resource state, this task asks to produce arbitrary entangled states using local operations without communication while perturbing the resource arbitrarily little. We quantify the performance of a given resource state by the worst-case error. States for which the latter vanishes are 'embezzling states' as they allow to embezzle arbitrary entangled states with arbitrarily small error. The best and worst performance among all states defines two algebraic invariants for von Neumann algebras. The first invariant takes only two values. Either it vanishes and embezzling states exist, which can only happen in type III, or no state allows for nontrivial embezzlement. In the case of factors not of finite type I, the second invariant equals the diameter of the state space. This provides a quantitative operational interpretation of Connes' classification of type III factors within quantum information theory. Type III$_1$ factors are 'universal embezzlers' where every state is embezzling. Our findings have implications for relativistic quantum field theory, where type III algebras naturally appear. For instance, they explain the maximal violation of Bell inequalities in the vacuum. Our results follow from a one-to-one correspondence between embezzling states and invariant probability measures on the flow of weights. We also establish that universally embezzling ITPFI factors are of type III$_1$ by elementary arguments.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# 大規模言語モデル推論における解錠効率:投機的復号化に関する総合的な調査

Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding ( http://arxiv.org/abs/2401.07851v3 )

ライセンス: Link先を確認
Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge, Tianyu Liu, Wenjie Li, Zhifang Sui, (参考訳) 大規模言語モデル(LLM)における自己回帰復号化に起因する高い推論遅延を軽減するため、投機的復号化はLLM推論の新しい復号パラダイムとして登場した。 復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。 自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。 本稿では,この有望な復号化パラダイムの概観と解析について述べる。 まずは、投機的復号化の正式な定義と定式化を提供することから始めます。 そこで我々は,草案選択や検証戦略などの重要な課題について,詳細な議論をまとめる。 さらに,サードパーティテスト環境下での先行手法の比較分析を行った。 本研究は、投機的復号化のさらなる研究の触媒となることを目指しており、最終的にはより効率的なLLM推論に寄与する。

To mitigate the high inference latency stemming from autoregressive decoding in Large Language Models (LLMs), Speculative Decoding has emerged as a novel decoding paradigm for LLM inference. In each decoding step, this method first drafts several future tokens efficiently and then verifies them in parallel. Unlike autoregressive decoding, Speculative Decoding facilitates the simultaneous decoding of multiple tokens per step, thereby accelerating inference. This paper presents a comprehensive overview and analysis of this promising decoding paradigm. We begin by providing a formal definition and formulation of Speculative Decoding. Then, we organize in-depth discussions on its key facets, such as drafter selection and verification strategies. Furthermore, we present a comparative analysis of leading methods under third-party testing environments. We aim for this work to serve as a catalyst for further research on Speculative Decoding, ultimately contributing to more efficient LLM inference.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# グラフニューラルネットワークのヘテロフォリー理解

Understanding Heterophily for Graph Neural Networks ( http://arxiv.org/abs/2401.09125v2 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang, (参考訳) ヘテロフィリーグラフはグラフニューラルネットワーク(GNN)の難解なシナリオとみなされており、ノードは様々なパターンを通じて異種隣人と接続されている。 本稿では,GNNに対して異なる異種パターンが与える影響に関する理論的理解について,多種多様な異種パターンに対応可能な一般確率グラフモデルであるHeterophilous Stochastic Block Models (HSBM) を通じて,グラフ畳み込み(GC)演算を完全連結ネットワークに組み込むことにより述べる。 第一に、GC演算を適用することにより、分離性ゲインは、近傍分布のユークリッド距離と$\sqrt{\mathbb{E}\left[\operatorname{deg}\right]}$、$\mathbb{E}\left[\operatorname{deg}\right]$の2つの因子によって決定される。 ヘテロフィリーが分類に与える影響は、平均ノード次数とともに評価する必要がある。 第二に、トポロジカルノイズが分離性に有害な影響があることを示し、これは $\mathbb{E}\left[\operatorname{deg}\right]$ の分解と同値である。 最後に,複数のGC演算を適用すると,$l$の近傍分布の正規化距離によって分離性ゲインが決定されることを示す。 ノードがいまだに分離性を持っていることを示しており、$l$は広範囲のレシエーションにおいて無限に進む。 合成データと実世界のデータの両方に関する大規模な実験により、我々の理論の有効性が検証された。

Graphs with heterophily have been regarded as challenging scenarios for Graph Neural Networks (GNNs), where nodes are connected with dissimilar neighbors through various patterns. In this paper, we present theoretical understandings of the impacts of different heterophily patterns for GNNs by incorporating the graph convolution (GC) operations into fully connected networks via the proposed Heterophilous Stochastic Block Models (HSBM), a general random graph model that can accommodate diverse heterophily patterns. Firstly, we show that by applying a GC operation, the separability gains are determined by two factors, i.e., the Euclidean distance of the neighborhood distributions and $\sqrt{\mathbb{E}\left[\operatorname{deg}\right]}$, where $\mathbb{E}\left[\operatorname{deg}\right]$ is the averaged node degree. It reveals that the impact of heterophily on classification needs to be evaluated alongside the averaged node degree. Secondly, we show that the topological noise has a detrimental impact on separability, which is equivalent to degrading $\mathbb{E}\left[\operatorname{deg}\right]$. Finally, when applying multiple GC operations, we show that the separability gains are determined by the normalized distance of the $l$-powered neighborhood distributions. It indicates that the nodes still possess separability as $l$ goes to infinity in a wide range of regimes. Extensive experiments on both synthetic and real-world data verify the effectiveness of our theory.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# グラッドブルチャットGPT翻訳評価

Gradable ChatGPT Translation Evaluation ( http://arxiv.org/abs/2401.09984v2 )

ライセンス: Link先を確認
Hui Jiao, Bei Peng, Lu Zong, Xiaojun Zhang, Xinwei Li, (参考訳) 大規模事前学習に基づく言語モデルであるChatGPTは,機械翻訳の領域に大きな影響を与えている。 ChatGPTでは、"Prompt"は、特定の応答カテゴリを生成するためにモデルを操るために使用されるテキストまたは命令のセグメントを指す。 翻訳の素早い設計は、翻訳のスタイル、精度、正確さなどの要因に影響を与えうる重要な側面として現れる。 しかし、翻訳プロンプトを設計し、選択する方法に関する共通の標準や方法論が欠如している。 そこで本研究では, 表現型, 翻訳スタイル, POS情報, 明示的なステートメントの観点から, 段階的な翻訳プロンプトを定義し, 様々な翻訳タスクに適した属性を付与したプロンプトの構築を容易にする, 一般的な分類法を提案する。 この方法の有効性を検証し、実証するために、特定の実験と事例が選択される。

ChatGPT, as a language model based on large-scale pre-training, has exerted a profound influence on the domain of machine translation. In ChatGPT, a "Prompt" refers to a segment of text or instruction employed to steer the model towards generating a specific category of response. The design of the translation prompt emerges as a key aspect that can wield influence over factors such as the style, precision and accuracy of the translation to a certain extent. However, there is a lack of a common standard and methodology on how to design and select a translation prompt. Accordingly, this paper proposes a generic taxonomy, which defines gradable translation prompts in terms of expression type, translation style, POS information and explicit statement, thus facilitating the construction of prompts endowed with distinct attributes tailored for various translation tasks. Specific experiments and cases are selected to validate and illustrate the effectiveness of the method.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# APT: 効果的な訓練と推論のための適応的プルーニングと事前訓練型言語モデル

APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference ( http://arxiv.org/abs/2401.12200v2 )

ライセンス: Link先を確認
Bowen Zhao, Hannaneh Hajishirzi, Qingqing Cao, (参考訳) 大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。 事前訓練されたLMに対するパラメータ効率の微調整は、少数のLMパラメータを更新することでトレーニングメモリを削減するが、推論効率は向上しない。 構造化プルーニングは、一貫したパラメータブロックを取り除くことでLM推論効率を向上させるが、しばしばトレーニングメモリと時間を増加させる。 トレーニングと推論の効率を両立させるため,LMのパラメータを適応的にプーンし調整するAPTを導入する。 ファインチューニングの初期段階では、APTは高速かつ正確な収束のための健全なチューニングパラメータを動的に追加し、非重要パラメータを効率のために破棄する。 ベースラインと比較すると,RoBERTaモデルとT5モデルが40%,86.4%,LLaMAモデルが70%であった場合,APTは最大98%のタスク性能を維持していることがわかった。 さらに、ALTはLMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。

Fine-tuning and inference with large Language Models (LM) are generally known to be expensive. Parameter-efficient fine-tuning over pretrained LMs reduces training memory by updating a small number of LM parameters but does not improve inference efficiency. Structured pruning improves LM inference efficiency by removing consistent parameter blocks, yet often increases training memory and time. To improve both training and inference efficiency, we introduce APT that adaptively prunes and tunes parameters for the LMs. At the early stage of fine-tuning, APT dynamically adds salient tuning parameters for fast and accurate convergence while discarding unimportant parameters for efficiency. Compared to baselines, our experiments show that APT maintains up to 98% task performance when pruning RoBERTa and T5 models with 40% parameters left while keeping 86.4% LLaMA models' performance with 70% parameters remained. Furthermore, APT speeds up LMs fine-tuning by up to 8x and reduces large LMs memory training footprint by up to 70%.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# SEER:強化学習による構造化推論と説明の促進

SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning ( http://arxiv.org/abs/2401.13246v3 )

ライセンス: Link先を確認
Guoxin Chen, Kexin Tang, Chao Yang, Fuying Ye, Yu Qiao, Yiming Qian, (参考訳) 質問回答システム(QA)の解釈可能性、トレーサビリティ、信頼性を大幅に向上させるため、質問から回答までの構造化された説明による推論プロセスの解明が不可欠である。 しかし、構造的説明は複雑な構造的推論を行うためにモデルを必要とするため、大きな課題が生じる。 既存のほとんどのメソッドは、教師付き学習を通じて、ステップ間の論理的依存関係を無視しながら、シングルステップの推論に重点を置いています。 さらに、既存の強化学習(RL)に基づく手法は構造的関係を見落とし、構造的推論におけるRLのポテンシャルを過小評価する。 本稿では,構造的推論と説明を容易にする構造的リターンを最大化する手法であるSEERを提案する。 提案手法は, 構造的推論に固有の階層構造と分岐構造を正確に記述し, 異なる推論ステップ間の複雑な関係を効果的に把握する。 さらに,多種多様な推論手順を正確に記述するための細粒度報酬関数を導入する。 大規模な実験の結果、SEERは最先端の手法を著しく上回り、EntailmentBankのRLベースの手法よりも6.9%向上し、STREETベンチマークの平均4.4%改善し、優れた効率性とクロスデータセットの一般化性能を示した。 私たちのコードはhttps://github.com/Chen-GX/SEER.comで公開されています。

Elucidating the reasoning process with structured explanations from question to answer is crucial, as it significantly enhances the interpretability, traceability, and trustworthiness of question-answering (QA) systems. However, structured explanations demand models to perform intricately structured reasoning, which poses great challenges. Most existing methods focus on single-step reasoning through supervised learning, ignoring logical dependencies between steps. Moreover, existing reinforcement learning (RL) based methods overlook the structured relationships, underutilizing the potential of RL in structured reasoning. In this paper, we propose SEER, a novel method that maximizes a structure-based return to facilitate structured reasoning and explanation. Our proposed structure-based return precisely describes the hierarchical and branching structure inherent in structured reasoning, effectively capturing the intricate relationships between different reasoning steps. In addition, we introduce a fine-grained reward function to meticulously delineate diverse reasoning steps. Extensive experiments show that SEER significantly outperforms state-of-the-art methods, achieving an absolute improvement of 6.9% over RL-based methods on EntailmentBank, a 4.4% average improvement on STREET benchmark, and exhibiting outstanding efficiency and cross-dataset generalization performance. Our code is available at https://github.com/Chen-GX/SEER.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-04
# PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models ( http://arxiv.org/abs/2401.15042v4 )

ライセンス: Link先を確認
Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Yunlong Feng, Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song, (参考訳) 大規模言語モデル (LLM) は長文の理解に成功している。 しかしながら、レポートや記事などの長文コンテンツを生成する能力の探索は、既存のベンチマークによって比較的調査されず、不十分に評価されている。 クラウドソーシングに大きく依存する一般的な評価手法は、労働集約性や効率の欠如から認識されているが、ROUGEスコアなどの自動測定基準は、人間の判断基準と一致していない。 本稿では,長文生成評価のための革新的なフレームワークであるProxyQAを提案する。 ProxyQAは、さまざまなドメインにまたがる詳細な人為的なメタクエストで構成され、それぞれに事前に注釈付き回答の付いた特定のプロキシクエストが伴っている。 LLMは、これらのメタクエストに対応するために、評価者が参加し、生成されたテキストをコンテキスト背景として組み込むことによって、広範囲なコンテンツを生成するよう指示され、プロキシクエストに対処する際の評価者の精度を通じて、生成されたコンテンツの品質を評価する。 本稿では,ProxyQAの要求する性質を高品質な評価ツールとして強調し,複数のLCMについて検討する。 人間による評価は、プロキシ・クエスト法が顕著に自己整合性を示し、人間の評価基準と密接に一致していることを示している。 データセットとリーダーボードは \url{https://proxy-qa.com} で公開されている。

Large Language Models (LLMs) have succeeded remarkably in understanding long-form contents. However, exploring their capability for generating long-form contents, such as reports and articles, has been relatively unexplored and inadequately assessed by existing benchmarks. The prevalent evaluation methods, which predominantly rely on crowdsourcing, are recognized for their labor-intensive nature and lack of efficiency, whereas automated metrics, such as the ROUGE score, demonstrate discordance with human judgment criteria. In this paper, we propose ProxyQA, an innovative framework dedicated to assessing long-text generation. ProxyQA comprises in-depth human-curated meta-questions spanning various domains, each accompanied by specific proxy-questions with pre-annotated answers. LLMs are tasked to generate extensive content in response to these meta-questions, by engaging an evaluator and incorporating the generated texts as contextual background, ProxyQA assesses the generated content's quality through the evaluator's accuracy in addressing the proxy-questions. We examine multiple LLMs, emphasizing ProxyQA's demanding nature as a high-quality assessment tool. Human evaluation demonstrates that the proxy-question method is notably self-consistent and aligns closely with human evaluative standards. The dataset and leaderboard is available at \url{https://proxy-qa.com}.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# ASCNet:赤外線画像削除のための非対称サンプリング補正ネットワーク

ASCNet: Asymmetric Sampling Correction Network for Infrared Image Destriping ( http://arxiv.org/abs/2401.15578v2 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Xiang Yan, Shiqi Yang, Shuowen Yang, Naveed Akhtar, (参考訳) 実世界の赤外線イメージングシステムでは、一貫したストライプノイズ除去モデルを効果的に学習することが不可欠である。 既存のデストリップ手法では,クロスレベルなセマンティックギャップやグローバルカラムの特徴の不十分さにより,画像の正確な再構築が不可能である。 この問題に対処するために,Asymmetric Smpling Correction Network (ASCNet) と呼ばれる新しい赤外線画像デストリップ手法を提案し,グローバルな列関係を効果的に捕捉し,それらをU字型フレームワークに組み込むことで,包括的識別表現とシームレスな意味的接続を実現する。 我々のASCNetは、Residual Haar Discrete Wavelet Transform (RHDWT), Pixel Shuffle (PS), Column Non-uniformity Correction Module (CNCM)の3つのコア要素から構成されている。 具体的には、RHDWTは、二重ブランチモデリングを使用して、ストライプ指向の事前知識とデータ駆動セマンティックインタラクションを効果的に統合し、特徴表現を豊かにする、新しいダウンサンプルである。 ストリップノイズのセマンティックパターンのクロストークを観察し、アプリオリ復号を過剰に防止し、セマンティックバイアスのない画像再構成を行うためにアップサンプラーとしてPSを導入する。 各サンプリングの後、CNCMは列関係を長距離依存でキャプチャする。 カラム、空間、自己依存情報を組み込むことで、CNCMはシーンの垂直構造とストリップを区別するグローバルなコンテキストを確立する。 合成データ, 実データ, 赤外線小目標検出タスクに対する広範囲な実験により, 提案手法は, 視覚的, 定量的に, 最先端の単一画像デストリップ法より優れていることを示した。 私たちのコードはhttps://github.com/xdFai/ASCNet.comで公開されます。

In a real-world infrared imaging system, effectively learning a consistent stripe noise removal model is essential. Most existing destriping methods cannot precisely reconstruct images due to cross-level semantic gaps and insufficient characterization of the global column features. To tackle this problem, we propose a novel infrared image destriping method, called Asymmetric Sampling Correction Network (ASCNet), that can effectively capture global column relationships and embed them into a U-shaped framework, providing comprehensive discriminative representation and seamless semantic connectivity. Our ASCNet consists of three core elements: Residual Haar Discrete Wavelet Transform (RHDWT), Pixel Shuffle (PS), and Column Non-uniformity Correction Module (CNCM). Specifically, RHDWT is a novel downsampler that employs double-branch modeling to effectively integrate stripe-directional prior knowledge and data-driven semantic interaction to enrich the feature representation. Observing the semantic patterns crosstalk of stripe noise, PS is introduced as an upsampler to prevent excessive apriori decoding and performing semantic-bias-free image reconstruction. After each sampling, CNCM captures the column relationships in long-range dependencies. By incorporating column, spatial, and self-dependence information, CNCM well establishes a global context to distinguish stripes from the scene's vertical structures. Extensive experiments on synthetic data, real data, and infrared small target detection tasks demonstrate that the proposed method outperforms state-of-the-art single-image destriping methods both visually and quantitatively. Our code will be made publicly available at https://github.com/xdFai/ASCNet.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# InfoLossQA: テキスト単純化における情報損失の特徴と回復

InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification ( http://arxiv.org/abs/2401.16475v2 )

ライセンス: Link先を確認
Jan Trienes, Sebastian Joseph, Jörg Schlötterer, Christin Seifert, Kyle Lo, Wei Xu, Byron C. Wallace, Junyi Jessy Li, (参考訳) テキストの単純化は、技術テキストを平凡な人々にとってより使いやすくすることを目的としているが、しばしば情報の削除と曖昧さをもたらす。 本研究は,QA(Qanguage-and-Awer)ペアによる簡易化による情報損失を特徴付けるフレームワークであるInfoLossQAを提案する。 QAペアは、読者がテキストの知識をより深く理解するのに役立つように設計されている。 私たちはこのフレームワークでさまざまな実験を行います。 まず、医学研究の科学的な抽象化の104 LLM単純化から得られた1000の言語学者によるQAペアのデータセットを収集する。 このデータから,情報損失は頻繁に発生し,QAペアは,失った情報の高レベルな概要を提示する。 第2に,オープンソースおよび商用言語モデルのエンドツーエンドプロンプトと,自然言語推論パイプラインの2つの手法を考案した。 また,QAペアの正しさと言語的適合性を考慮した新たな評価枠組みにより,モデルが情報損失を確実に識別し,情報損失を構成する点において人間と同様の基準を適用するのに苦慮していることが明らかとなった。

Text simplification aims to make technical texts more accessible to laypeople but often results in deletion of information and vagueness. This work proposes InfoLossQA, a framework to characterize and recover simplification-induced information loss in form of question-and-answer (QA) pairs. Building on the theory of Question Under Discussion, the QA pairs are designed to help readers deepen their knowledge of a text. We conduct a range of experiments with this framework. First, we collect a dataset of 1,000 linguist-curated QA pairs derived from 104 LLM simplifications of scientific abstracts of medical studies. Our analyses of this data reveal that information loss occurs frequently, and that the QA pairs give a high-level overview of what information was lost. Second, we devise two methods for this task: end-to-end prompting of open-source and commercial language models, and a natural language inference pipeline. With a novel evaluation framework considering the correctness of QA pairs and their linguistic suitability, our expert evaluation reveals that models struggle to reliably identify information loss and applying similar standards as humans at what constitutes information loss.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# 制御された潜在状態による動的生存解析

Dynamical Survival Analysis with Controlled Latent States ( http://arxiv.org/abs/2401.17077v2 )

ライセンス: Link先を確認
Linus Bleistein, Van-Tuan Nguyen, Adeline Fermanian, Agathe Guilloux, (参考訳) 静的な変数と不規則にサンプリングされた時系列の集合から,各プロセスの個々固有のインテンシティを学習するタスクを考察する。 制御された微分方程式の解となる強度をモデル化する新しい手法を導入する。 まず、ニューラルネットワーク制御微分方程式に基づくニューラルネットワーク推定器を設計する。 第二に、我々のモデルは十分な正則性条件下でシグネチャ空間内で線形化できることを示し、コックスシグと呼ばれるシグネチャベースの推定器を生成する。 我々は,金融,予測保守,食品サプライチェーン管理から,シミュレーションおよび実世界の膨大なデータセット上で,モデルの性能を示す前に,両者の理論的学習保証を提供する。

We consider the task of learning individual-specific intensities of counting processes from a set of static variables and irregularly sampled time series. We introduce a novel modelization approach in which the intensity is the solution to a controlled differential equation. We first design a neural estimator by building on neural controlled differential equations. In a second time, we show that our model can be linearized in the signature space under sufficient regularity conditions, yielding a signature-based estimator which we call CoxSig. We provide theoretical learning guarantees for both estimators, before showcasing the performance of our models on a vast array of simulated and real-world datasets from finance, predictive maintenance and food supply chain management.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# 適応器のソフトミキシングによる音響スペクトログラム変換器の効率的な微調整

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters ( http://arxiv.org/abs/2402.00828v2 )

ライセンス: Link先を確認
Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti, (参考訳) 最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。 さらに、多くの分野における現在の最先端モデルであるトランスフォーマーとステートスペースモデルの両方に適用することができる。 MoEは、主に事前学習段階で研究されているが、パラメータ効率のよい移動学習設定では、未探索である。 このギャップを狭めるために,本論文では,音響スペクトル変換器のパラメータ効率向上のためのMoEを用いた音声および音声のダウンストリームタスクのデミスティフィケートを試みる。 具体的には,ソフト・ミックス・オブ・アダプタ (Soft-MoA) を提案する。 アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。 4つのベンチマークにわたる大規模な実験により、Soft-MoAは単一アダプタ法より優れ、密度の高いMoAと同等に動作することが示された。 最終的に、Soft-MoAの重要な要素についてアブレーション研究を行い、例えば、Soft-MoAはより多くの専門家とより良いスケーリングを実現し、すべての専門家が出力トークンの計算に寄与することを保証するとともに、専門家の不均衡問題を排除していることを示す。

Mixture of Experts (MoE) architectures have recently started burgeoning due to their ability to scale model's capacity while maintaining the computational cost affordable. Furthermore, they can be applied to both Transformers and State Space Models, the current state-of-the-art models in numerous fields. While MoE has been mostly investigated for the pre-training stage, its use in parameter-efficient transfer learning settings is under-explored. To narrow this gap, this paper attempts to demystify the use of MoE for parameter-efficient fine-tuning of Audio Spectrogram Transformers to audio and speech downstream tasks. Specifically, we propose Soft Mixture of Adapters (Soft-MoA). It exploits adapters as the experts and, leveraging the recent Soft MoE method, it relies on a soft assignment between the input tokens and experts to keep the computational time limited. Extensive experiments across 4 benchmarks demonstrate that Soft-MoA outperforms the single adapter method and performs on par with the dense MoA counterpart. We finally present ablation studies on key elements of Soft-MoA, showing for example that Soft-MoA achieves better scaling with more experts, as well as ensuring that all experts contribute to the computation of the output tokens, thus dispensing with the expert imbalance issue.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# ウィンドウフィルタを用いた近似近傍探索

Approximate Nearest Neighbor Search with Window Filters ( http://arxiv.org/abs/2402.00943v2 )

ライセンス: Link先を確認
Joshua Engels, Benjamin Landrum, Shangdi Yu, Laxman Dhulipala, Julian Shun, (参考訳) 我々は、$\textit{c-approximate window search}$: Near Near neighbor search where the dataset each point has anumeric label, and the goal to find Near neighbors to querys within any label ranges。 タイムスタンプフィルタによる画像検索や文書検索,コストフィルタによる製品検索といったセマンティック検索の問題は,この問題の自然な例である。 本稿では,従来のc-近似近傍問題の解法を,ウィンドウ探索の解法であるデータ構造に変換するためのモジュラーツリーベースフレームワークを提案し,理論的に解析する。 ランダムなラベル値、逆向きに構築された埋め込み、およびリアルタイムのタイムスタンプによる画像検索埋め込みを備えた標準的な近接ベンチマークデータセットでは、同じレベルのリコールで既存のソリューションよりも75\times$のスピードアップが得られる。

We define and investigate the problem of $\textit{c-approximate window search}$: approximate nearest neighbor search where each point in the dataset has a numeric label, and the goal is to find nearest neighbors to queries within arbitrary label ranges. Many semantic search problems, such as image and document search with timestamp filters, or product search with cost filters, are natural examples of this problem. We propose and theoretically analyze a modular tree-based framework for transforming an index that solves the traditional c-approximate nearest neighbor problem into a data structure that solves window search. On standard nearest neighbor benchmark datasets equipped with random label values, adversarially constructed embeddings, and image search embeddings with real timestamps, we obtain up to a $75\times$ speedup over existing solutions at the same level of recall.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# 自己監督学習の背景にある確率モデル

A Probabilistic Model behind Self-Supervised Learning ( http://arxiv.org/abs/2402.01399v2 )

ライセンス: Link先を確認
Alice Bizeul, Bernhard Schölkopf, Carl Allen, (参考訳) 自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。 一般的なタスクは、データの拡張や異なるモダリティを分類することであり、セマンティックコンテンツ(例えば、画像内のオブジェクト)を共有するが、スタイル(例えば、オブジェクトの位置)が異なる。 SimCLR、CLIP、VicREGなど、自己教師型学習に対する多くのアプローチが提案されている。 しかし、自己教師付き手法の理論的な理解は困難である。 これに対応するために,自己教師型学習のための生成潜在変数モデルを提案し,比較的手法を含む識別的SSLのいくつかの家系が,表現に匹敵する分布を誘導し,これらの手法の統一的な理論的枠組みを提供することを示す。 提案モデルでは、相互情報に描画された接続と「投影ヘッド」の使用を正当化する。 モデル生成(SimVAEと呼ばれる)を適応させて表現を学習することで、単純な画像ベンチマーク上での識別や他のVAEベースの手法よりも性能を向上し、より複雑な環境で生成的および識別的表現学習のギャップを著しく狭める。 分析が予測しているように、SimVAEは、スタイル情報を必要とする自己教師あり学習よりも優れており、自己教師あり学習の理解とタスク非依存表現の実現に向けて重要な一歩を踏み出している。

In self-supervised learning (SSL), representations are learned via an auxiliary task without annotated labels. A common task is to classify augmentations or different modalities of the data, which share semantic content (e.g. an object in an image) but differ in style (e.g. the object's location). Many approaches to self-supervised learning have been proposed, e.g. SimCLR, CLIP, and VicREG, which have recently gained much attention for their representations achieving downstream performance comparable to supervised learning. However, a theoretical understanding of self-supervised methods eludes. Addressing this, we present a generative latent variable model for self-supervised learning and show that several families of discriminative SSL, including contrastive methods, induce a comparable distribution over representations, providing a unifying theoretical framework for these methods. The proposed model also justifies connections drawn to mutual information and the use of a "projection head". Learning representations by fitting the model generatively (termed SimVAE) improves performance over discriminative and other VAE-based methods on simple image benchmarks and significantly narrows the gap between generative and discriminative representation learning in more complex settings. Importantly, as our analysis predicts, SimVAE outperforms self-supervised learning where style information is required, taking an important step toward understanding self-supervised methods and achieving task-agnostic representations.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# 最適サブセット選択のための動的インクリメンタル最適化

Dynamic Incremental Optimization for Best Subset Selection ( http://arxiv.org/abs/2402.02322v3 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian, (参考訳) 最高のサブセット選択は、多くのスパース学習問題に対する'金の標準'と見なされる。 この非滑らかな非凸問題に対する様々な最適化手法が提案されている。 本稿では,$\ell_0$-regularized問題系の双対形式について検討する。 主問題構造と双対問題構造に基づいて,効率的な主元双対アルゴリズムを開発した。 この2値範囲推定とインクリメンタルな戦略を活用することで,アルゴリズムは冗長な計算を減らし,最適部分集合選択の解を改善することができる。 合成および実世界のデータセットに関する理論的解析と実験は、提案した解の効率性と統計的性質を検証する。

Best subset selection is considered the `gold standard' for many sparse learning problems. A variety of optimization techniques have been proposed to attack this non-smooth non-convex problem. In this paper, we investigate the dual forms of a family of $\ell_0$-regularized problems. An efficient primal-dual algorithm is developed based on the primal and dual problem structures. By leveraging the dual range estimation along with the incremental strategy, our algorithm potentially reduces redundant computation and improves the solutions of best subset selection. Theoretical analysis and experiments on synthetic and real-world datasets validate the efficiency and statistical properties of the proposed solutions.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-04
# ニューラルネットワークを用いたアルゴリズム選択のサンプル複雑度と分岐・カットへの応用

Sample Complexity of Algorithm Selection Using Neural Networks and Its Applications to Branch-and-Cut ( http://arxiv.org/abs/2402.02328v3 )

ライセンス: Link先を確認
Hongyu Cheng, Sammy Khalife, Barbara Fiedorowicz, Amitabh Basu, (参考訳) データ駆動型アルゴリズム設計(Data-driven algorithm design)は、統計および機械学習技術を用いて、計算問題に対するアルゴリズムのクラスから選択するパラダイムである。 我々は、この一連の研究において、最高のパフォーマンスを持つ1つのアルゴリズムを選択する代わりに、ニューラルネットワークを用いて、解決すべきインスタンスに基づいてアルゴリズムを選択することが可能な設定を考慮し、最近の研究結果に基づいて構築する。 特に、代表的なインスタンスのサンプルが与えられた場合、問題のインスタンスをそのインスタンスの最も適切なアルゴリズムにマッピングするニューラルネットワークを学習する。 我々は、このアイデアを形式化し、データ駆動アルゴリズム設計における最近の研究の精神の中で、この学習問題に対する厳密なサンプル複雑性を導出する。 次に、このアプローチを、混合整数最適化のためのブランチ・アンド・カットのフレームワークで良い決定をする問題に適用する。 言い換えれば、ニューラルネットワークは混合整数最適化インスタンスを入力として取り、そのインスタンスの小さな分岐とカットツリーをもたらす決定を出力する。 我々の計算結果は、従来のデータ駆動型アプローチと比較して、ニューラルネットワークをカットセレクションに使用する場合、分岐とカットのツリーサイズを削減できることを示す。

Data-driven algorithm design is a paradigm that uses statistical and machine learning techniques to select from a class of algorithms for a computational problem an algorithm that has the best expected performance with respect to some (unknown) distribution on the instances of the problem. We build upon recent work in this line of research by considering the setup where, instead of selecting a single algorithm that has the best performance, we allow the possibility of selecting an algorithm based on the instance to be solved, using neural networks. In particular, given a representative sample of instances, we learn a neural network that maps an instance of the problem to the most appropriate algorithm for that instance. We formalize this idea and derive rigorous sample complexity bounds for this learning problem, in the spirit of recent work in data-driven algorithm design. We then apply this approach to the problem of making good decisions in the branch-and-cut framework for mixed-integer optimization (e.g., which cut to add?). In other words, the neural network will take as input a mixed-integer optimization instance and output a decision that will result in a small branch-and-cut tree for that instance. Our computational results provide evidence that our particular way of using neural networks for cut selection can make a significant impact in reducing branch-and-cut tree sizes, compared to previous data-driven approaches.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# Timer氏: 生成されたトレーニング済みトランスフォーマーは大規模な時系列モデル

Timer: Generative Pre-trained Transformers Are Large Time Series Models ( http://arxiv.org/abs/2402.02368v2 )

ライセンス: Link先を確認
Yong Liu, Haoran Zhang, Chenyu Li, Xiangdong Huang, Jianmin Wang, Mingsheng Long, (参考訳) 深層学習は時系列分析の進歩に大きく貢献している。 それでも、ディープモデルは、現在のベンチマークで小さなモデルでパフォーマンスが飽和しているため、実際のデータスカースシナリオでパフォーマンスのボトルネックに遭遇する可能性がある。 一方、大規模モデルはこれらのシナリオにおいて大規模な事前学習を通じて大きな力を発揮している。 大規模な言語モデルの出現によって継続的な進歩が達成され、小さな深層モデルでは欠落しているような、数ショットの一般化、スケーラビリティ、タスクの一般性といった前例のない能力を示した。 そこで本研究では,大規模時系列モデル(LTSM)の早期開発を目標として,シナリオ固有の小型モデルをスクラッチから変更する。 事前トレーニング中、最大10億のタイムポイントを持つ大規模データセットをキュレートし、異種時系列を単一系列シーケンス(S3)に統一し、LTSMに向けてGPTスタイルのアーキテクチャを開発する。 多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。 本研究の結果はTime Series Transformer (Timer) であり、次のトークン予測によって事前学習され、LTSMとして有望な機能を持つ様々な下流タスクに適応する。 コードとデータセットは、https://github.com/thuml/Large-Time-Series-Modelで入手できる。

Deep learning has contributed remarkably to the advancement of time series analysis. Still, deep models can encounter performance bottlenecks in real-world data-scarce scenarios, which can be concealed due to the performance saturation with small models on current benchmarks. Meanwhile, large models have demonstrated great powers in these scenarios through large-scale pre-training. Continuous progress has been achieved with the emergence of large language models, exhibiting unprecedented abilities such as few-shot generalization, scalability, and task generality, which are however absent in small deep models. To change the status quo of training scenario-specific small models from scratch, this paper aims at the early development of large time series models (LTSM). During pre-training, we curate large-scale datasets with up to 1 billion time points, unify heterogeneous time series into single-series sequence (S3) format, and develop the GPT-style architecture toward LTSMs. To meet diverse application needs, we convert forecasting, imputation, and anomaly detection of time series into a unified generative task. The outcome of this study is a Time Series Transformer (Timer), which is generative pre-trained by next token prediction and adapted to various downstream tasks with promising capabilities as an LTSM. Code and datasets are available at: https://github.com/thuml/Large-Time-Series-Model.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# C-RAG:Retrieval-Augmented Language Models の生成リスク認定

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models ( http://arxiv.org/abs/2402.03181v4 )

ライセンス: Link先を確認
Mintong Kang, Nezihe Merve Gürel, Ning Yu, Dawn Song, Bo Li, (参考訳) 様々なアプリケーションにまたがる大きな言語モデル(LLM)の印象的な機能にもかかわらず、幻覚や誤認識といった信頼性の問題に悩まされている。 検索言語モデル(RAG)は、外部知識を基盤として世代間の信頼性を高めるために提案されているが、それらの世代リスクに関する理論的理解は未解明のままである。 本稿では,こう答える。 1)RAGが実際に低世代リスクにつながるかどうか。 2)RAG及びバニラLSMの発生リスクの保証を行う方法、及び 3)RAGモデルで生成リスクを低減できる十分な条件は何か。 RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。 具体的には、RAGモデルに対して共形リスク分析を行い、共形リスクと呼ばれる生成リスクの上位信頼境界を認定する。 また,テスト分布シフトにおける一般有界リスク関数の共形生成リスクに関する理論的保証も提供する。 検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。 実験結果から,4つの最先端検索モデル上で広く使用されている4つのNLPデータセットに対して,共形生成リスク保証の健全性と厳密性を示す。

Despite the impressive capabilities of large language models (LLMs) across diverse applications, they still suffer from trustworthiness issues, such as hallucinations and misalignments. Retrieval-augmented language models (RAG) have been proposed to enhance the credibility of generations by grounding external knowledge, but the theoretical understandings of their generation risks remains unexplored. In this paper, we answer: 1) whether RAG can indeed lead to low generation risks, 2) how to provide provable guarantees on the generation risks of RAG and vanilla LLMs, and 3) what sufficient conditions enable RAG models to reduce generation risks. We propose C-RAG, the first framework to certify generation risks for RAG models. Specifically, we provide conformal risk analysis for RAG models and certify an upper confidence bound of generation risks, which we refer to as conformal generation risk. We also provide theoretical guarantees on conformal generation risks for general bounded risk functions under test distribution shifts. We prove that RAG achieves a lower conformal generation risk than that of a single LLM when the quality of the retrieval model and transformer is non-trivial. Our intensive empirical results demonstrate the soundness and tightness of our conformal generation risk guarantees across four widely-used NLP datasets on four state-of-the-art retrieval models.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# 適応的勾配法で正方根を除去できるか? : 2次視点

Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v4 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani, (参考訳) Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。 彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。 これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。 本研究では,適応手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを強化するかを検討する。 意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。 2階の観点は、プレコンディショナー不変性の概念を通じて非対角的適応法の開発にも実用的な利点がある。 シャンプーのような根ベースの方法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要とせず、したがって半精度でうまく機能する。 本研究は適応手法の開発に関する新たな知見を提供し,現在見過ごされている適応性の役割について重要な疑問を提起する。

Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e. strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for the development of non-diagonal adaptive methods through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, the root-free counterparts do not require numerically unstable matrix root decompositions and inversions, thus work well in half precision. Our findings provide new insights into the development of adaptive methods and raise important questions regarding the currently overlooked role of adaptivity for their success.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# エンタングルメント強化量子距離論:標準量子極限からハイゼンベルク極限へ

Entanglement-enhanced quantum metrology: from standard quantum limit to Heisenberg limit ( http://arxiv.org/abs/2402.03572v3 )

ライセンス: Link先を確認
Jiahao Huang, Min Zhuang, Chaohong Lee, (参考訳) エンタングルメント強化量子メートル法は、測定精度を高めるために量子エンタングルメントの利用を探求する。 プローブ内の粒子が量子絡み合った状態に準備されると、測定対象の物理量に関する情報がまとめられ、標準量子限界を超えて測定精度が向上し、ハイゼンベルク限界に近づく。 量子操作と検出のための技術の急速な進歩により、コールド原子や閉じ込められたイオンのような合成量子系における多粒子の絡み合った状態の生成、操作、検出が可能になった。 本稿では,量子力学における多粒子の絡み合いを実証する基礎原理と実験の進歩を概観し,また,絡み合いを増強する量子センサの応用の可能性について論じる。

Entanglement-enhanced quantum metrology explores the utilization of quantum entanglement to enhance measurement precision. When particles in a probe are prepared into a quantum entangled state, they collectively accumulate information about the physical quantity to be measured, leading to an improvement in measurement precision beyond the standard quantum limit and approaching the Heisenberg limit. The rapid advancement of techniques for quantum manipulation and detection has enabled the generation, manipulation, and detection of multi-particle entangled states in synthetic quantum systems such as cold atoms and trapped ions. This article aims to review and illustrate the fundamental principles and experimental progresses that demonstrate multi-particle entanglement for quantum metrology, as well as discuss the potential applications of entanglement-enhanced quantum sensors.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# QuIP#: Adamard IncoherenceとLattice CodebookによるLLM量子化をさらに改善

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks ( http://arxiv.org/abs/2402.04396v2 )

ライセンス: Link先を確認
Albert Tseng, Jerry Chee, Qingyao Sun, Volodymyr Kuleshov, Christopher De Sa, (参考訳) 後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。 本研究では,3つの新しい手法を用いて,重量のみのPTQ法であるQuIP#を紹介した。 第一に、QuIP#はランダム化アダマール変換を用いてQuIP(Chee et al , 2023)の不整合処理を改善する。 第2に,QuIP# ではベクトル量子化を用いて,非コヒーレントな重みを持つボール形状のサブガウス分布を利用する。具体的には,高対称な$E_8$格子に基づくハードウェア効率のよいコードブックのセットを導入し,最適8次元単位球パッキングを実現する。 第3に、QuIP#はファインチューニングを使用して、オリジナルのモデルの忠実性を改善する。 実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。 私たちのコードはhttps://github.com/Cornell-RelaxML/quip-sharp.orgにある。

Post-training quantization (PTQ) reduces the memory footprint of LLMs by quantizing their weights to low-precision. In this work, we introduce QuIP#, a weight-only PTQ method that achieves state-of-the-art results in extreme compression regimes ($\le$ 4 bits per weight) using three novel techniques. First, QuIP# improves QuIP's (Chee et al., 2023) incoherence processing by using the randomized Hadamard transform, which is faster and has better theoretical properties. Second, QuIP# uses vector quantization to take advantage of the ball-shaped sub-Gaussian distribution that incoherent weights possess: specifically, we introduce a set of hardware-efficient codebooks based on the highly symmetric $E_8$ lattice, which achieves the optimal 8-dimension unit ball packing. Third, QuIP# uses fine-tuning to improve fidelity to the original model. Our experiments show that QuIP# outperforms existing PTQ methods, enables new behaviors in PTQ scaling, and supports fast inference. Our code can be found at https://github.com/Cornell-RelaxML/quip-sharp.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# インストラクションファインタニングのためのシンプルだがトウ・トゥ・ビート・ベースライン

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning ( http://arxiv.org/abs/2402.04833v2 )

ライセンス: Link先を確認
Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, (参考訳) LLMの微調整は高品質なデータを必要とするという意見もあるが、それらは何なのか? LIMA (NeurIPS 2023) と AlpaGasus (ICLR 2024) は、手作業によるキュレーションや GPT-3.5-Turbo を品質スコアリングとして使用する、最先端の手法である。 標準データセットから直感的により学習可能な情報を含み、過度に適合する1000の命令を選択するという非常に単純なベースラインは、GPT-4とPaLM-2を判断として、これらの洗練されたメソッドを一貫して上回り、事実知識をテストするOpen LLMベンチマークでは競争力を維持していることを示す。 いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証した。 さらに、このような長い命令の軽量化は、微調整されたLLMの能力をさらに向上させ、AlpacaEval 2.0上でのMT-Benchと2番目に高いLlama-2-7Bベースのモデル上での競争結果を得ることができる。 また,GPT-4の長時間応答に対する嗜好のため,モデルの性能向上を確実にするために,モデルの徹底的な解析を行う。 総じて,最も長い応答に対する微調整は,命令微調整作業の既定基準となることが示唆された。 私たちはhttps://github.com/tml-epfl/long-is-more-for-alignment.comでコードを公開しています。

There is a consensus that instruction fine-tuning of LLMs requires high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus (ICLR 2024) are state-of-the-art methods for selecting such high-quality examples, either via manual curation or using GPT-3.5-Turbo as a quality scorer. We show that the extremely simple baseline of selecting the 1,000 instructions with longest responses -- that intuitively contain more learnable information and are harder to overfit -- from standard datasets can consistently outperform these sophisticated methods according to GPT-4 and PaLM-2 as judges, while remaining competitive on the Open LLM benchmarks that test factual knowledge. We demonstrate this for several LLMs (Llama-2-7B, Llama-2-13B, Mistral-7B-v0.1) and datasets (Alpaca-52k, Evol-Instruct-70k). In addition, a lightweight refinement of such long instructions can further improve the abilities of the fine-tuned LLMs, and allows us to obtain competitive results on MT-Bench and the 2nd highest-ranked Llama-2-7B-based model on AlpacaEval 2.0, while training on only 1,000 examples and no extra preference data. We also conduct a thorough analysis of our models to ensure that their enhanced performance is not simply due to GPT-4's preference for longer responses. Overall, our findings suggest that fine-tuning on the longest responses should be the default baseline for any work on instruction fine-tuning. We provide our code at https://github.com/tml-epfl/long-is-more-for-alignment.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# 1段階勾配後の2層ネットワークにおける特徴学習の漸近

Asymptotics of feature learning in two-layer networks after one gradient-step ( http://arxiv.org/abs/2402.04980v2 )

ライセンス: Link先を確認
Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka Zdeborová, Bruno Loureiro, (参考訳) 本稿では,2層ニューラルネットワークがデータから特徴を学習し,単一の勾配降下ステップで学習した後のカーネル構造を改善するという課題について考察する。 得られた知見(Ba et al , 2022)を活用して、スパイクされたランダム特徴量(sRF)モデルによりトレーニングされたネットワークをモデル化する。 ガウス普遍性に関する最近の進歩(Dandi et al , 2023)に基づいて、サンプル数、幅、入力次元が比例的に増加する高次元極限におけるsRFの一般化誤差の正確な漸近的記述を提供する。 結果として得られるsRFの特性は、元のネットワークモデルの学習曲線をよく捉えている。 これにより、ネットワークが勾配方向の非線形関数を効率的に学習する上で、データへの適応がいかに重要であるかを理解することができる。

In this manuscript, we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging the insight from (Ba et al., 2022), we model the trained network by a spiked Random Features (sRF) model. Further building on recent progress on Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic description of the generalization error of the sRF in the high-dimensional limit where the number of samples, the width, and the input dimension grow at a proportional rate. The resulting characterization for sRFs also captures closely the learning curves of the original network model. This enables us to understand how adapting to the data is crucial for the network to efficiently learn non-linear functions in the direction of the gradient -- where at initialization it can only express linear functions in this regime.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# 繰り返しメッセージパッシングを有するグラフにおけるマルチエージェント強化学習の一般化に向けて

Towards Generalizability of Multi-Agent Reinforcement Learning in Graphs with Recurrent Message Passing ( http://arxiv.org/abs/2402.05027v3 )

ライセンス: Link先を確認
Jannis Weil, Zhenghua Bao, Osama Abboud, Tobias Meuser, (参考訳) グラフベースの環境は、マルチエージェント強化学習に固有の課題をもたらす。 分散化されたアプローチでは、エージェントは与えられたグラフ内で動作し、部分的または時代遅れな観察に基づいて決定を行う。 観測された近傍の大きさは、異なるグラフへの一般化可能性を制限するとともに、エージェントの反応性、選択されたアクションの品質、通信オーバーヘッドに影響を与える。 この研究は一般化性に焦点をあて、グラフ全体の連続的な情報フローで観測された近傍のサイズのトレードオフを解消する。 本稿では,環境のステップに合わせて繰り返しメッセージパッシングモデルを提案し,近隣のノードとメッセージを交換することで,ノードがグラフのグローバルな表現を作成できるようにする。 エージェントは、グラフ内の位置に基づいて学習したグラフ観察を受信する。 我々の手法は、実行時に分散的に使用することができ、選択した強化学習アルゴリズムと組み合わせることができる。 通信ネットワークにおけるルーティングのコンテキストにおいて,1000の多様なグラフにまたがる手法を評価し,エージェントがグラフの変化を一般化し適応できることを示す。

Graph-based environments pose unique challenges to multi-agent reinforcement learning. In decentralized approaches, agents operate within a given graph and make decisions based on partial or outdated observations. The size of the observed neighborhood limits the generalizability to different graphs and affects the reactivity of agents, the quality of the selected actions, and the communication overhead. This work focuses on generalizability and resolves the trade-off in observed neighborhood size with a continuous information flow in the whole graph. We propose a recurrent message-passing model that iterates with the environment's steps and allows nodes to create a global representation of the graph by exchanging messages with their neighbors. Agents receive the resulting learned graph observations based on their location in the graph. Our approach can be used in a decentralized manner at runtime and in combination with a reinforcement learning algorithm of choice. We evaluate our method across 1000 diverse graphs in the context of routing in communication networks and find that it enables agents to generalize and adapt to changes in the graph.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# イントロスペクティブ・プランニング:ロボットの不確かさとタスクのあいまいさ

Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity ( http://arxiv.org/abs/2402.06529v3 )

ライセンス: Link先を確認
Kaiqu Liang, Zixu Zhang, Jaime Fernández Fisac, (参考訳) 大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、適切な接地を通して戦略的にハイレベルな行動を計画できる。 しかし、LSM幻覚は、ユーザーの目標と不一致の計画を実行したり、極端な場合、安全でない計画を確実に実行してしまう可能性がある。 さらに、自然言語命令に固有の曖昧さは、特に複数の有効な選択肢が存在する状況において、タスクの不確実性を引き起こす可能性がある。 この問題に対処するには、LSMはそのような不確実性を特定し、積極的に明確化を求める必要がある。 本稿では,ロボットタスク実行において,微調整を必要とせず,不確実性を形成する上でLLMを指導する体系的手法としての内省的計画の概念を考察する。 本研究では,タスクレベルのロボット計画における不確実性の定量化について検討し,現状のLCMに基づく計画手法と比較して,イントロスペクションが成功率と安全性の両方を著しく改善することを示した。 さらに,コンフォメーション予測と連動してイントロスペクティブプランニングの有効性を評価し,この組み合わせにより信頼性境界がより強くなり,過剰なユーザ明確化クエリが少なく,統計的成功保証が維持されることを示した。 コードはhttps://github.com/kevinliang888/IntroPlanで入手できる。

Large language models (LLMs) exhibit advanced reasoning skills, enabling robots to comprehend natural language instructions and strategically plan high-level actions through proper grounding. However, LLM hallucination may result in robots confidently executing plans that are misaligned with user goals or, in extreme cases, unsafe. Additionally, inherent ambiguity in natural language instructions can induce task uncertainty, particularly in situations where multiple valid options exist. To address this issue, LLMs must identify such uncertainty and proactively seek clarification. This paper explores the concept of introspective planning as a systematic method for guiding LLMs in forming uncertainty--aware plans for robotic task execution without the need for fine-tuning. We investigate uncertainty quantification in task-level robot planning and demonstrate that introspection significantly improves both success rates and safety compared to state-of-the-art LLM-based planning approaches. Furthermore, we assess the effectiveness of introspective planning in conjunction with conformal prediction, revealing that this combination yields tighter confidence bounds, thereby maintaining statistical success guarantees with fewer superfluous user clarification queries. Code is available at https://github.com/kevinliang888/IntroPlan.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# 言語モデルによるフィードバックループは、コンテキスト内リワードハッキングを駆動する

Feedback Loops With Language Models Drive In-Context Reward Hacking ( http://arxiv.org/abs/2402.06627v2 )

ライセンス: Link先を確認
Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt, (参考訳) 言語モデルは、Webページに読み書きするAPIをクエリし、人間の振る舞いを形作るコンテンツを生成し、自律的なエージェントとしてシステムコマンドを実行する。 これらの相互作用はフィードバックループを形成し、LLM出力は世界に影響を与える。 本研究では、フィードバックループがコンテキスト内報酬ハック(ICRH)を引き起こす可能性を示し、テスト時のLLMは(潜在的に暗黙的な)目的を最適化するが、プロセス中に負の副作用を生じさせる。 例えば、Twitterのエンゲージメントを高めるために展開されたLLMエージェントを考えてみましょう。 ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。 これらのプロセスでは、静的データセットの評価は不十分であり、フィードバック効果を見逃しているため、最も有害な振る舞いをキャプチャすることはできない。 ICRHのインスタンス数を増やすために,評価のための3つの推奨事項を提供する。 AI開発が加速するにつれて、フィードバックループの効果が増大し、LCMの振る舞いを形作る上での役割を理解する必要性が高まる。

Language models influence the external world: they query APIs that read and write to web pages, generate content that shapes human behavior, and run system commands as autonomous agents. These interactions form feedback loops: LLM outputs affect the world, which in turn affect subsequent LLM outputs. In this work, we show that feedback loops can cause in-context reward hacking (ICRH), where the LLM at test-time optimizes a (potentially implicit) objective but creates negative side effects in the process. For example, consider an LLM agent deployed to increase Twitter engagement; the LLM may retrieve its previous tweets into the context window and make them more controversial, increasing engagement but also toxicity. We identify and study two processes that lead to ICRH: output-refinement and policy-refinement. For these processes, evaluations on static datasets are insufficient -- they miss the feedback effects and thus cannot capture the most harmful behavior. In response, we provide three recommendations for evaluation to capture more instances of ICRH. As AI development accelerates, the effects of feedback loops will proliferate, increasing the need to understand their role in shaping LLM behavior.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-04
# ExGRG: 自己教師付き表現学習のための明示的生成関係グラフ

ExGRG: Explicitly-Generated Relation Graph for Self-Supervised Representation Learning ( http://arxiv.org/abs/2402.06737v2 )

ライセンス: Link先を確認
Mahdi Naseri, Mahdi Biparva, (参考訳) 自己教師付き学習(SSL)は、高価なアノテートラベルに頼ることなく、ラベルのないデータに埋め込まれた信号を活用することなく、ディープラーニングモデルを事前訓練する強力なテクニックとして登場した。 SSLは直感的なデータ拡張を通じてコンピュータビジョンタスクにおいて顕著な成功を収めてきたが、グラフ構造化データへの適用は、グラフ拡張のセマンティック・アタリングと反直感的な性質のため、課題を提起している。 この制限に対処するため,従来の拡張型暗黙的関係グラフにのみ依存するのではなく,作曲関係グラフ(ExGRG)を明示的に生成する新たな非競合SSL手法を提案する。 ExGRGは、事前ドメイン知識とオンライン抽出された情報をSSL不変性の対象に組み込むためのフレームワークを提供し、ラプラシア固有マップと期待最大化(EM)からインスピレーションを得ている。 E-stepは、SSLのEMパースペクティブを利用して、SSLの分散目標を導出する候補を識別する関係グラフ生成を伴い、M-stepは派生した関係情報を統合することでモデルパラメータを更新する。 多様なノード分類データセットに対する大規模な実験により,この手法が最先端技術よりも優れていることが示され,グラフ表現学習におけるSSLの有効活用としてExGRGが確認された。

Self-supervised Learning (SSL) has emerged as a powerful technique in pre-training deep learning models without relying on expensive annotated labels, instead leveraging embedded signals in unlabeled data. While SSL has shown remarkable success in computer vision tasks through intuitive data augmentation, its application to graph-structured data poses challenges due to the semantic-altering and counter-intuitive nature of graph augmentations. Addressing this limitation, this paper introduces a novel non-contrastive SSL approach to Explicitly Generate a compositional Relation Graph (ExGRG) instead of relying solely on the conventional augmentation-based implicit relation graph. ExGRG offers a framework for incorporating prior domain knowledge and online extracted information into the SSL invariance objective, drawing inspiration from the Laplacian Eigenmap and Expectation-Maximization (EM). Employing an EM perspective on SSL, our E-step involves relation graph generation to identify candidates to guide the SSL invariance objective, and M-step updates the model parameters by integrating the derived relational information. Extensive experimentation on diverse node classification datasets demonstrates the superiority of our method over state-of-the-art techniques, affirming ExGRG as an effective adoption of SSL for graph representation learning.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# LLM-Cgnition Data Augmentationによる会話高密度検索の一般化

Generalizing Conversational Dense Retrieval via LLM-Cognition Data Augmentation ( http://arxiv.org/abs/2402.07092v3 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Kelong Mao, Jiongnan Liu, Ziliang Zhao, (参考訳) 会話型検索は、ミューリターン自然言語コンテキストを用いて関連するパスを検索する。 既存の会話高密度検索モデルは、主に会話を、厳密なデータ空間の問題を見渡すことで、質問や回答の固定シーケンスとして見ている。 そのため、現実世界のシナリオにおける多様な会話への一般化に苦慮することが多い。 本研究では,LLM認識データ拡張(ConvAug)による会話高密度検索の一般化のためのフレームワークを提案する。 ConvAugは、会話コンテキストの多様な性質を捉えるために、まずマルチレベルな拡張会話を生成する。 人間の認知にインスパイアされた私たちは、偽陽性、偽陰性、幻覚の発生を緩和する認知認識プロセスを考案した。 さらに,複雑な会話のための難解なサンプルを選択する難易度適応型サンプルフィルタを開発し,モデルにより大きな学習空間を与える。 対照的な学習目的は、より良い会話コンテキストエンコーダのトレーニングに使用される。 通常の設定とゼロショット設定の両方で4つの公開データセットで実施された大規模な実験は、ConvAugの有効性、一般化性、適用性を示している。 コードはhttps://github.com/haon-chen/ConvAug.comで公開されている。

Conversational search utilizes muli-turn natural language contexts to retrieve relevant passages. Existing conversational dense retrieval models mostly view a conversation as a fixed sequence of questions and responses, overlooking the severe data sparsity problem -- that is, users can perform a conversation in various ways, and these alternate conversations are unrecorded. Consequently, they often struggle to generalize to diverse conversations in real-world scenarios. In this work, we propose a framework for generalizing Conversational dense retrieval via LLM-cognition data Augmentation (ConvAug). ConvAug first generates multi-level augmented conversations to capture the diverse nature of conversational contexts. Inspired by human cognition, we devise a cognition-aware process to mitigate the generation of false positives, false negatives, and hallucinations. Moreover, we develop a difficulty-adaptive sample filter that selects challenging samples for complex conversations, thereby giving the model a larger learning space. A contrastive learning objective is then employed to train a better conversational context encoder. Extensive experiments conducted on four public datasets, under both normal and zero-shot settings, demonstrate the effectiveness, generalizability, and applicability of ConvAug. The code is released at https://github.com/haon-chen/ConvAug.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# ソクラティック・ダウトのエコー : 校正された証拠強化学習における不確実性を受け入れる

Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning ( http://arxiv.org/abs/2402.07107v3 )

ライセンス: Link先を確認
Alex Christopher Stutts, Danilo Erricolo, Theja Tulabandhula, Amit Ranjan Trivedi, (参考訳) 本稿では,量子回帰に基づく深部Qネットワークを含むモデル自由分布強化学習において,不確実性認識を取り入れた新しい統計手法を提案する。 The proposed algorithm, $\textit{Calibrated Evidential Quantile Regression in Deep Q Networks (CEQR-DQN)}$, aimed to address key challenges associated to aleatoric and epistemic uncertainty in stochastic environment。 深い明細学習と、共形推論の原理に基づく量子校正を組み合わせることで、単純な分散に基づく$\textit{local}$の推定と対照的に、$\textit{global}$不確実性の明示的でサンプルのない計算を提供する。 CEQR-DQNは、ミニチュア化されたAtariゲーム(すなわちMinAtar)でテストされ、スコアや学習速度において、同様のフレームワークを超えることが示されている。 不確実性を評価する能力は探索戦略を改善し、不確実性認識を必要とする他のアルゴリズムの青写真として機能する。

We present a novel statistical approach to incorporating uncertainty awareness in model-free distributional reinforcement learning involving quantile regression-based deep Q networks. The proposed algorithm, $\textit{Calibrated Evidential Quantile Regression in Deep Q Networks (CEQR-DQN)}$, aims to address key challenges associated with separately estimating aleatoric and epistemic uncertainty in stochastic environments. It combines deep evidential learning with quantile calibration based on principles of conformal inference to provide explicit, sample-free computations of $\textit{global}$ uncertainty as opposed to $\textit{local}$ estimates based on simple variance, overcoming limitations of traditional methods in computational and statistical efficiency and handling of out-of-distribution (OOD) observations. Tested on a suite of miniaturized Atari games (i.e., MinAtar), CEQR-DQN is shown to surpass similar existing frameworks in scores and learning speed. Its ability to rigorously evaluate uncertainty improves exploration strategies and can serve as a blueprint for other algorithms requiring uncertainty awareness.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# PASOA-PASOA-PArticle Based Bayesian Optimal Adaptive Design

PASOA- PArticle baSed Bayesian Optimal Adaptive design ( http://arxiv.org/abs/2402.07160v2 )

ライセンス: Link先を確認
Jacopo Iollo, Christophe Heinkelé, Pierre Alliez, Florence Forbes, (参考訳) 本稿では,パラメータ推論のための連続した後続分布の正確な推定を同時に提供することで,逐次設計の最適化を行う,ベイズ実験設計のためのPASOAという新しい手法を提案する。 逐次設計は、確率的最適化とシークエンシャルモンテカルロ(SMC)サンプリングを用いて、予測情報ゲイン(EIG)を最大化する。 連続した後続分布間の距離が大きくなるほど大きな情報ゲインが得られるため、このEIG目標は古典的なSMC性能を悪化させる可能性がある。 この問題に対処するため,大量の情報ゲインと正確なSMCサンプリングを同時に行うことを提案する。 この確率最適化と誘電型SMCの組み合わせにより、設計最適化とパラメータ推論を共同で扱うことができる。 得られた最適設計推定器がいくつかの整合性から恩恵を受けることを示す。 数値実験により、他の既存の手順よりも優れているアプローチの可能性が確認された。

We propose a new procedure named PASOA, for Bayesian experimental design, that performs sequential design optimization by simultaneously providing accurate estimates of successive posterior distributions for parameter inference. The sequential design process is carried out via a contrastive estimation principle, using stochastic optimization and Sequential Monte Carlo (SMC) samplers to maximise the Expected Information Gain (EIG). As larger information gains are obtained for larger distances between successive posterior distributions, this EIG objective may worsen classical SMC performance. To handle this issue, tempering is proposed to have both a large information gain and an accurate SMC sampling, that we show is crucial for performance. This novel combination of stochastic optimization and tempered SMC allows to jointly handle design optimization and parameter inference. We provide a proof that the obtained optimal design estimators benefit from some consistency property. Numerical experiments confirm the potential of the approach, which outperforms other recent existing procedures.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# ランダムウォークを用いた個人別分散学習

Differentially Private Decentralized Learning with Random Walks ( http://arxiv.org/abs/2402.07471v2 )

ライセンス: Link先を確認
Edwige Cyffers, Aurélien Bellet, Jalaj Upadhyay, (参考訳) フェデレートドラーニングの人気は、より良いスケーラビリティと参加者がデータのコントロールを維持し、データのセキュリティと主権を向上させる能力によってもたらされる。 残念ながら、共有モデルのアップデートは、新たなプライバシ攻撃サーフェスも生み出す。 本研究では、ランダムウォークアルゴリズムを用いて分散学習のプライバシー保証を特徴付ける。そこでは、あるノードから別のノードへ通信グラフのエッジに沿って移動することで、モデルを更新する。 Pairwise Network Differential Privacy(Pairwise Network Differential Privacy)と呼ばれる分散アルゴリズムの研究に合わせた最近の微分プライバシーの変種を用いて、通信トポロジの影響をグラフ理論量で捉えたノード間のプライバシー損失に関するクローズドフォーム表現を導出する。 我々の結果は、ランダムウォークアルゴリズムは、互いに近接するノードに対するゴシップアルゴリズムよりも、より優れたプライバシー保証をもたらす傾向があることを明らかにしている。 合成および実世界のグラフとデータセットに関する経験的評価で理論的結果を補足する。

The popularity of federated learning comes from the possibility of better scalability and the ability for participants to keep control of their data, improving data security and sovereignty. Unfortunately, sharing model updates also creates a new privacy attack surface. In this work, we characterize the privacy guarantees of decentralized learning with random walk algorithms, where a model is updated by traveling from one node to another along the edges of a communication graph. Using a recent variant of differential privacy tailored to the study of decentralized algorithms, namely Pairwise Network Differential Privacy, we derive closed-form expressions for the privacy loss between each pair of nodes where the impact of the communication topology is captured by graph theoretic quantities. Our results further reveal that random walk algorithms tends to yield better privacy guarantees than gossip algorithms for nodes close from each other. We supplement our theoretical results with empirical evaluation on synthetic and real-world graphs and datasets.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# 深部RLのためのエキスパートアンロックパラメータスケーリングの混合

Mixtures of Experts Unlock Parameter Scaling for Deep RL ( http://arxiv.org/abs/2402.08609v2 )

ライセンス: Link先を確認
Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro, (参考訳) 最近の(自己)教師付き学習モデルの急速な進歩は、主に経験的スケーリング法則によって予測されている。 しかし、モデルパラメータ数の増加が最終的なパフォーマンスを損なうことの多い強化学習領域では、アナログスケーリング法則はいまだ解明されていない。 本稿では,Mixture-of-Expert(MoE)モジュール,特にSoft MoEs(Puigcerver et al ,2023)を値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。 この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。

The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# Into the Unknown: Self-Learning Large Language Models

Into the Unknown: Self-Learning Large Language Models ( http://arxiv.org/abs/2402.09147v2 )

ライセンス: Link先を確認
Teddy Ferdinan, Jan Kocoń, Przemysław Kazienko, (参考訳) 自己学習 LLM の主な課題は,何を学ぶべきかという問題である。 本研究では,LLMが自覚の自己評価を通じて,未知の知識を独立に学習することのできる自己学習型LLMフレームワークを提案する。 幻覚スコアを用いて,未知の点 (PiU) の新たな概念と,PiUの自動識別のための1つの外生法と3つの内生法を導入する。 未知の点における知識ギャップにのみ焦点をあてた自己学習ループの作成が促進され、幻覚のスコアが減少する。 LLMの自己学習能力向上のための評価指標も開発した。 実験の結果,7B-ミストラルモデルとRWKV5-Eagleが十分に自己学習できることがわかった。 我々の自己学習の概念は、より効率的なLLM更新を可能にし、知識交換のための新しい視点を開放します。 また、AIに対する公的な信頼を高めることもできる。

We address the main problem of self-learning LLM: the question of what to learn. We propose a self-learning LLM framework that enables an LLM to independently learn previously unknown knowledge through selfassessment of their own hallucinations. Using the hallucination score, we introduce a new concept of Points in the Unknown (PiUs), along with one extrinsic and three intrinsic methods for automatic PiUs identification. It facilitates the creation of a self-learning loop that focuses exclusively on the knowledge gap in Points in the Unknown, resulting in a reduced hallucination score. We also developed evaluation metrics for gauging an LLM's self-learning capability. Our experiments revealed that 7B-Mistral models that have been finetuned or aligned and RWKV5-Eagle are capable of self-learning considerably well. Our self-learning concept allows more efficient LLM updates and opens new perspectives for knowledge exchange. It may also increase public trust in AI.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# 密度行列作用素のクリロフ複雑性

Krylov complexity of density matrix operators ( http://arxiv.org/abs/2402.09522v2 )

ライセンス: Link先を確認
Pawel Caputa, Hyun-Sik Jeong, Sinong Liu, Juan F. Pedraza, Le-Chen Qu, (参考訳) 量子システムの複雑性の定量化は近年、Krylovの複雑性(C_K$)やSpreadの複雑性(C_S$)など、関心の高まりを目撃している。 本研究では,密度行列演算子で表される状態の複雑さを考慮し,それらの相互作用を考察する。 問題の設定後、一般的な2次元ヒルベルト空間、量子ビット状態、量子調和振動子、ランダム行列理論にまたがる解析的および数値的な例を分析し、洞察力のある関係を明らかにする。 一般的な純状態については, (I) モーメント生成関数と生存振幅の対応, (II) 早期に$C_K$ と $2C_S$ の等価性を示す。 さらに、極大に絡み合った純粋状態に対しては、$C_K$ のモーメント生成関数がスペクトル形式因子となり、遅くとも$C_K$ は単に$N$次元ヒルベルト空間内の$N\geq2$ に対して $NC_S$ に関係している。 特に、$C_K = 2C_S$が$N=2$のとき、すべての時間にわたって保持されることを確認する。 ランダム行列理論のレンズを通して、中間時の複雑度間のずれを議論し、生存振幅のレベルにおける平均的アプローチの微妙さを強調する。

Quantifying complexity in quantum systems has witnessed a surge of interest in recent years, with Krylov-based measures such as Krylov complexity ($C_K$) and Spread complexity ($C_S$) gaining prominence. In this study, we investigate their interplay by considering the complexity of states represented by density matrix operators. After setting up the problem, we analyze a handful of analytical and numerical examples spanning generic two-dimensional Hilbert spaces, qubit states, quantum harmonic oscillators, and random matrix theories, uncovering insightful relationships. For generic pure states, our analysis reveals two key findings: (I) a correspondence between moment-generating functions (of Lanczos coefficients) and survival amplitudes, and (II) an early-time equivalence between $C_K$ and $2C_S$. Furthermore, for maximally entangled pure states, we find that the moment-generating function of $C_K$ becomes the Spectral Form Factor and, at late-times, $C_K$ is simply related to $NC_S$ for $N\geq2$ within the $N$-dimensional Hilbert space. Notably, we confirm that $C_K = 2C_S$ holds across all times when $N=2$. Through the lens of random matrix theories, we also discuss deviations between complexities at intermediate times and highlight subtleties in the averaging approach at the level of the survival amplitude.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# 表現外科:アフィンステアリングの理論と実践

Representation Surgery: Theory and Practice of Affine Steering ( http://arxiv.org/abs/2402.09631v4 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru, (参考訳) 言語モデルは、しばしば好ましくない振る舞いを示し、例えば、有毒または性別に偏ったテキストを生成する。 ニューラルネットワークモデルの場合、望ましくない振る舞いの符号化がモデルの表現にしばしば存在する。 したがって、モデルが望ましくない振る舞いを示すのを防ぐ自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を減らす方法でモデルの表現を操ることである。 本稿では、ステアリング関数の形式的および経験的特性、すなわち、その振る舞いを変えるニューラルネットワークモデルの表現の変換について検討する。 まず、最小二乗の意味で、異なる制約の下でのアフィンステアリング関数を最適に2つ導き出す。 我々の理論は既存のアプローチを正当化し、新しく改良されたステアリングアプローチを提供する。 第2に、偏りを緩和し、毒性の発生を減らす方法の実証的な効果を実証する一連の実験を提供する。

Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model's representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model's representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model's representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# 分散学習におけるプライバシ・アタック

Privacy Attacks in Decentralized Learning ( http://arxiv.org/abs/2402.10001v2 )

ライセンス: Link先を確認
Abdellah El Mrini, Edwige Cyffers, Aurélien Bellet, (参考訳) Decentralized Gradient Descent (D-GD)は、ネットワークグラフで近隣のモデル更新を反復的に平均化することにより、データを共有することなく、複数のユーザが協調学習を行うことを可能にする。 非隣ノード間の直接通信がないことは、ユーザが他人のデータについて正確な情報を推測できないという信念に繋がる可能性がある。 本研究では,D-GDに対する最初の攻撃を提案し,ユーザ(あるいはユーザの集合体)が近隣の他のユーザのプライベートデータを再構築できるようにすることで,その逆を実証する。 提案手法は,ゴシップ平均化プロトコルに対する再構築攻撃に基づいており,D-GDによる追加課題に対処するために拡張する。 実際のグラフやデータセットに対する攻撃の有効性を検証することで、単一の攻撃者や少数の攻撃者によって侵入されたユーザの数が驚くほど大きいことを示しています。 本研究では,攻撃性能に影響を与える要因,すなわちグラフトポロジ,攻撃者数,および攻撃位置について実験的に検討する。

Decentralized Gradient Descent (D-GD) allows a set of users to perform collaborative learning without sharing their data by iteratively averaging local model updates with their neighbors in a network graph. The absence of direct communication between non-neighbor nodes might lead to the belief that users cannot infer precise information about the data of others. In this work, we demonstrate the opposite, by proposing the first attack against D-GD that enables a user (or set of users) to reconstruct the private data of other users outside their immediate neighborhood. Our approach is based on a reconstruction attack against the gossip averaging protocol, which we then extend to handle the additional challenges raised by D-GD. We validate the effectiveness of our attack on real graphs and datasets, showing that the number of users compromised by a single or a handful of attackers is often surprisingly large. We empirically investigate some of the factors that affect the performance of the attack, namely the graph topology, the number of attackers, and their position in the graph.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# LLMの品質と多様性を評価するための精度とリコールの探索

Exploring Precision and Recall to assess the quality and diversity of LLMs ( http://arxiv.org/abs/2402.10693v3 )

ライセンス: Link先を確認
Florian Le Bronnec, Alexandre Verine, Benjamin Negrevergne, Yann Chevaleyre, Alexandre Allauzen, (参考訳) 本稿では,画像生成からテキスト生成へ精度とリコールのメトリクスをインポートすることに焦点を当てた,大言語モデル(LLM)の新たな評価フレームワーク,例えば,textsc{Llama-2} や \textsc{Mistral} を導入する。 このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。 この研究は、最先端言語モデルの包括的な評価を行うことで、従来のベンチマークでは適切に捉えられていないオープンエンドな生成タスクのパフォーマンスに関する新たな洞察を明らかにする。 この結果は、生成したサンプルの品質と多様性のトレードオフを浮き彫りにしている。特に、モデルが命令データセットや人間のフィードバックに基づいて微調整されている場合。 この研究は、分散ベースのNLP評価ツールキットを拡張し、多様な高品質のテキストを生成する上で、現在のLLMが直面する実践的能力と課題に関する洞察を提供する。 コードとデータをリリースします。

We introduce a novel evaluation framework for Large Language Models (LLMs) such as \textsc{Llama-2} and \textsc{Mistral}, focusing on importing Precision and Recall metrics from image generation to text generation. This approach allows for a nuanced assessment of the quality and diversity of generated text without the need for aligned corpora. By conducting a comprehensive evaluation of state-of-the-art language models, the study reveals new insights into their performance on open-ended generation tasks, which are not adequately captured by traditional benchmarks. The findings highlight a trade-off between the quality and diversity of generated samples, particularly when models are fine-tuned on instruction dataset or with human feedback. This work extends the toolkit for distribution-based NLP evaluation, offering insights into the practical capabilities and challenges that current LLMs face in generating diverse and high-quality text. We release our code and data.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-04
# 拡散に基づくテキスト音声モデルのセマンティック潜在空間について

On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models ( http://arxiv.org/abs/2402.12423v2 )

ライセンス: Link先を確認
Miri Varshavsky-Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman, Ehud Rivlin, (参考訳) テキスト音声(TTS)領域におけるDDM(Denoising Diffusion Models)の導入が増加し,高品質音声の合成において大きな価値が得られている。 印象的な音質を示すが、その意味的能力の程度は分かっておらず、合成音声の発声特性を制御することは依然として困難である。 画像合成の最近の進歩に触発されて、DDMのデノイザの潜在ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間を探索する。 この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。 次に、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集を可能にする方法をデモします。 編集音声の意味的・音響的特性の証拠を提示し, 補足サンプルとして, https://latent-analysis-grad-tts.github.io/speech-samples/。

The incorporation of Denoising Diffusion Models (DDMs) in the Text-to-Speech (TTS) domain is rising, providing great value in synthesizing high quality speech. Although they exhibit impressive audio quality, the extent of their semantic capabilities is unknown, and controlling their synthesized speech's vocal properties remains a challenge. Inspired by recent advances in image synthesis, we explore the latent space of frozen TTS models, which is composed of the latent bottleneck activations of the DDM's denoiser. We identify that this space contains rich semantic information, and outline several novel methods for finding semantic directions within it, both supervised and unsupervised. We then demonstrate how these enable off-the-shelf audio editing, without any further training, architectural changes or data requirements. We present evidence of the semantic and acoustic qualities of the edited audio, and provide supplemental samples: https://latent-analysis-grad-tts.github.io/speech-samples/.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# 価値に基づく深層強化学習において、刈り取られたネットワークは良いネットワークである

In value-based deep reinforcement learning, a pruned network is a good network ( http://arxiv.org/abs/2402.12479v2 )

ライセンス: Link先を確認
Johan Obando-Ceron, Aaron Courville, Pablo Samuel Castro, (参考訳) 近年の研究では、深層強化学習エージェントがネットワークパラメータを効果的に活用することが困難であることが示されている。 我々は、スパーストレーニング技術の利点に関する事前の知見を活用し、段階的な等級決定により、価値に基づくエージェントがパラメータの有効性を最大化できることを実証する。 これにより、ネットワークパラメータのごく一部しか使用せず、従来のネットワークよりも劇的なパフォーマンス向上が達成される。

Recent work has shown that deep reinforcement learning agents have difficulty in effectively using their network parameters. We leverage prior insights into the advantages of sparse training techniques and demonstrate that gradual magnitude pruning enables value-based agents to maximize parameter effectiveness. This results in networks that yield dramatic performance improvements over traditional networks, using only a small fraction of the full network parameters.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# モデル不安定性が説明と不確実性に及ぼす影響の検討

Investigating the Impact of Model Instability on Explanations and Uncertainty ( http://arxiv.org/abs/2402.13006v2 )

ライセンス: Link先を確認
Sara Vera Marjanović, Isabelle Augenstein, Christina Lioma, (参考訳) 説明可能なAI手法は、モデル動作の理解を容易にするが、入力に対する小さな、知覚できない摂動は、説明を大幅に歪めることができる。 これらの説明は一般的に、モデル展開の前に全体的評価されるため、特定の説明が信頼できるかどうかを評価するのは難しい。 いくつかの研究は、説明のための信頼度推定器の作成を試みたが、不確実性と説明品質の既存の関係についての調査は行われていない。 テキスト入力における認識の不確かさを人工的にシミュレートする。 本研究では,様々なレベルのノイズ摂動を挿入し,事前学習した言語モデルと異なる不確実性指標の出力に与える影響を計測する。 現実的な摂動はパフォーマンスや説明に最小限の影響を与えるが、マスキングは劇的な効果を持つ。 高い不確実性は、必ずしも説明の妥当性を低下させるものではない。トレーニングプロセス中にノイズが暴露された場合、両者の相関は適度に正となる。 このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。 さらに、予測的および認識的不確実性尺度が過信である場合、摂動に対する塩分マップの堅牢性はモデル安定性の問題を示す可能性がある。 統合グラディエントは摂動に対する全体的な堅牢性を示しながら、モデル固有の性能パターンを示しているが、この現象はより小さなTransformerベースの言語モデルに限定されている。

Explainable AI methods facilitate the understanding of model behaviour, yet, small, imperceptible perturbations to inputs can vastly distort explanations. As these explanations are typically evaluated holistically, before model deployment, it is difficult to assess when a particular explanation is trustworthy. Some studies have tried to create confidence estimators for explanations, but none have investigated an existing link between uncertainty and explanation quality. We artificially simulate epistemic uncertainty in text input by introducing noise at inference time. In this large-scale empirical study, we insert different levels of noise perturbations and measure the effect on the output of pre-trained language models and different uncertainty metrics. Realistic perturbations have minimal effect on performance and explanations, yet masking has a drastic effect. We find that high uncertainty doesn't necessarily imply low explanation plausibility; the correlation between the two metrics can be moderately positive when noise is exposed during the training process. This suggests that noise-augmented models may be better at identifying salient tokens when uncertain. Furthermore, when predictive and epistemic uncertainty measures are over-confident, the robustness of a saliency map to perturbation can indicate model stability issues. Integrated Gradients shows the overall greatest robustness to perturbation, while still showing model-specific patterns in performance; however, this phenomenon is limited to smaller Transformer-based language models.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# 個人用ハイパーパラメータチューニングの再検討

Revisiting Differentially Private Hyper-parameter Tuning ( http://arxiv.org/abs/2402.13087v2 )

ライセンス: Link先を確認
Zihang Xiang, Tianhao Wang, Chenglong Wang, Di Wang, (参考訳) 複数の候補から最適なハイパーパラメータを選択することを含む機械学習における重要なプロセスであるハイパーパラメータチューニングにおける差分プライバシーの適用について検討する。 DP-SGDを含む多くの私的学習アルゴリズムとは異なり、チューニングのプライバシーへの影響は十分に理解されていないか、しばしば完全に無視されている。 最近の研究はチューニングプロセスに汎用的なプライベートセレクションソリューションを提案するが、根本的な疑問が残る。 本稿では,この問題について詳細に検討する。 当初、私的な選択のための現在のプライバシー分析が、一般的には厳密であることを示す研究を提供している。 しかし、ホワイトボックス設定におけるハイパーパラメータチューニング問題を特に研究する場合、そのような厳密さはもはや保たない。 これはまず、チューニングプロセスにプライバシ監査を適用することで実証される。 以上の結果から, 厳密な監査設定下においても, 現在の理論的プライバシー境界と経験的バウンダリとの間には, かなりのギャップがあることが示唆された。 このギャップはその後の調査を動機づけます。 さらに本研究では,その特性が異なるため,プライベートなハイパーパラメータチューニングのためのプライバシ結果の改善について検討した。 本研究は,パラメータ設定に限定した事前解析よりも適用性が高いことを示す。

We study the application of differential privacy in hyper-parameter tuning, a crucial process in machine learning involving selecting the best hyper-parameter from several candidates. Unlike many private learning algorithms, including the prevalent DP-SGD, the privacy implications of tuning remain insufficiently understood or often totally ignored. Recent works propose a generic private selection solution for the tuning process, yet a fundamental question persists: is this privacy bound tight? This paper provides an in-depth examination of this question. Initially, we provide studies affirming the current privacy analysis for private selection is indeed tight in general. However, when we specifically study the hyper-parameter tuning problem in a white-box setting, such tightness no longer holds. This is first demonstrated by applying privacy audit on the tuning process. Our findings underscore a substantial gap between current theoretical privacy bound and the empirical bound derived even under strong audit setups. This gap motivates our subsequent investigations. Our further study provides improved privacy results for private hyper-parameter tuning due to its distinct properties. Our results demonstrate broader applicability compared to prior analyses, which are limited to specific parameter configurations.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# CIF-Bench: 大規模言語モデルの一般化性評価のための中国語指導フォローベンチマーク

CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models ( http://arxiv.org/abs/2402.13109v2 )

ライセンス: Link先を確認
Yizhi LI, Ge Zhang, Xingwei Qu, Jiali Li, Zhaoqun Li, Zekun Wang, Hao Li, Ruibin Yuan, Yinghao Ma, Kai Zhang, Wangchunshu Zhou, Yiming Liang, Lei Zhang, Lei Ma, Jiajun Zhang, Zuowen Li, Stephen W. Huang, Chenghua Lin, Jie Fu, (参考訳) 大規模言語モデル(LLM)の進歩は、命令追従により、広範囲の未確認自然言語処理(NLP)タスクを一般化する能力を高めた。 しかし、その効果はしばしば中国語のような低リソース言語で減少し、データ漏洩による偏りのある評価によって悪化し、新しい言語領域への真の一般化性に疑問を呈する。 これに対し、中国語へのLLMのゼロショット一般化性を評価するために、CIF-Bench(Instruction-Following Benchmark)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成されており、20のカテゴリにわたる複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。 データ汚染を軽減するために、データセットの半分しか公開せず、残りは非公開であり、スコアのばらつきを最小限に抑えるための多様な命令を導入し、合計45,000のデータインスタンスを公開します。 選択した28個のLLMの評価では,52.9%のスコアしか得られず,あまり馴染みのない言語やタスクコンテキストにおけるLLMの限界が強調されている。 この研究は、中国語タスクの処理におけるLLMの現在の限界を明らかにするだけでなく、より適応性が高く文化的に理解され、言語学的に多様なモデルの開発を推進し、将来のLLMの一般化可能性研究の新しい標準を定めている。

The advancement of large language models (LLMs) has enhanced the ability to generalize across a wide range of unseen natural language processing (NLP) tasks through instruction-following. Yet, their effectiveness often diminishes in low-resource languages like Chinese, exacerbated by biased evaluations from data leakage, casting doubt on their true generalizability to new linguistic territories. In response, we introduce the Chinese Instruction-Following Benchmark (CIF-Bench), designed to evaluate the zero-shot generalizability of LLMs to the Chinese language. CIF-Bench comprises 150 tasks and 15,000 input-output pairs, developed by native speakers to test complex reasoning and Chinese cultural nuances across 20 categories. To mitigate data contamination, we release only half of the dataset publicly, with the remainder kept private, and introduce diversified instructions to minimize score variance, totaling 45,000 data instances. Our evaluation of 28 selected LLMs reveals a noticeable performance gap, with the best model scoring only 52.9%, highlighting the limitations of LLMs in less familiar language and task contexts. This work not only uncovers the current limitations of LLMs in handling Chinese language tasks but also sets a new standard for future LLM generalizability research, pushing towards the development of more adaptable, culturally informed, and linguistically diverse models.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# RefuteBench: 大規模言語モデルに対するRefuting命令フォローの評価

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models ( http://arxiv.org/abs/2402.13463v3 )

ライセンス: Link先を確認
Jianhao Yan, Yun Luo, Yue Zhang, (参考訳) 大規模言語モデル(LLM)の適用範囲はますます拡大している。 実際に使う場合、ユーザーはモデルの出力に基づいてフィードバックを提供し、フィードバックに応じてレスポンスを完了できるレスポンシブモデルを求めている。 モデルがユーザの反響的フィードバックに適切に反応し、一貫して実行に追従できるかどうかは、完全には分析されていない。 そこで本研究では,質問応答,機械翻訳,電子メール作成などのタスクを網羅する総合ベンチマークRefuteBenchを提案する。 評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。 多数のLCMの評価を行い、LCMは頑健である、すなわち内部知識への傾きを示し、ユーザからのフィードバックに従わないことが多いことを発見した。 さらに、会話の長さが長くなると、モデルがユーザの述べたフィードバックを徐々に忘れて、自分自身のレスポンスに戻ります。 さらに,リコール・アンド・リピート・プロンプトを,モデルからのフィードバックに対する応答性を高めるためのシンプルかつ効果的な方法として提案する。

The application scope of large language models (LLMs) is increasingly expanding. In practical use, users might provide feedback based on the model's output, hoping for a responsive model that can complete responses according to their feedback. Whether the model can appropriately respond to users' refuting feedback and consistently follow through with execution has not been thoroughly analyzed. In light of this, this paper proposes a comprehensive benchmark, RefuteBench, covering tasks such as question answering, machine translation, and email writing. The evaluation aims to assess whether models can positively accept feedback in form of refuting instructions and whether they can consistently adhere to user demands throughout the conversation. We conduct evaluations on numerous LLMs and find that LLMs are stubborn, i.e. exhibit inclination to their internal knowledge, often failing to comply with user feedback. Additionally, as the length of the conversation increases, models gradually forget the user's stated feedback and roll back to their own responses. We further propose a recall-and-repeat prompts as a simple and effective way to enhance the model's responsiveness to feedback.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# ARL2: 自己誘導型アダプティブレバレンスラベリングによるブラックボックス大言語モデルのレトリバーの調整

ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling ( http://arxiv.org/abs/2402.13542v2 )

ライセンス: Link先を確認
Lingxi Zhang, Yue Yu, Kuan Wang, Chao Zhang, (参考訳) Retrieval-augmented generationは、外部知識ソースから関連する情報を取り入れることで、大きな言語モデル(LLM)を強化する。 これにより、LLMは特定のドメインに適応し、知識集約的なタスクにおける幻覚を軽減することができる。 しかし、既存のレトリバーは、異なるトレーニングプロセスとLLMのブラックボックスの性質のために、LLMと不一致であることが多い。 この課題に対処するために,LLMをラベルとして活用するレトリバー学習技術であるARL2を提案する。 ARL2 は LLM を利用してアノテートし、関連するエビデンスを記録し、ロバストな LLM の監督からレトリバーを学習する。 さらに、ARL2は、適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートし、アノテーションのコストを効果的に削減することができる。 広汎な実験によりARL2の有効性が示され、NQでは5.4%、MMLUでは4.6%の精度向上が達成された。 さらにARL2は、堅牢な転送学習能力と強力なゼロショット一般化能力を示す。 我々のコードは \url{https://github.com/zhanglingxi-cs/ARL2} で公開される。

Retrieval-augmented generation enhances large language models (LLMs) by incorporating relevant information from external knowledge sources. This enables LLMs to adapt to specific domains and mitigate hallucinations in knowledge-intensive tasks. However, existing retrievers are often misaligned with LLMs due to their separate training processes and the black-box nature of LLMs. To address this challenge, we propose ARL2, a retriever learning technique that harnesses LLMs as labelers. ARL2 leverages LLMs to annotate and score relevant evidence, enabling learning the retriever from robust LLM supervision. Furthermore, ARL2 uses an adaptive self-training strategy for curating high-quality and diverse relevance data, which can effectively reduce the annotation cost. Extensive experiments demonstrate the effectiveness of ARL2, achieving accuracy improvements of 5.4% on NQ and 4.6% on MMLU compared to the state-of-the-art methods. Additionally, ARL2 exhibits robust transfer learning capabilities and strong zero-shot generalization abilities. Our code will be published at \url{https://github.com/zhanglingxi-cs/ARL2}.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# ナラティブコンテキストの微粒化モデリング--ふりかえりによるコヒーレンスの視点から

Fine-Grained Modeling of Narrative Context: A Coherence Perspective via Retrospective Questions ( http://arxiv.org/abs/2402.13551v2 )

ライセンス: Link先を確認
Liyan Xu, Jiangnan Li, Mo Yu, Jie Zhou, (参考訳) この研究は、物語の個々の通路が孤立するよりも密接な関係にある傾向があるという特徴から生まれた、物語理解のためのオリジナルで実践的なパラダイムを取り入れたものである。 本稿では,タスクに依存しないコヒーレンス依存を表わすNarCoというグラフを定式化することにより,物語コンテキストのきめ細かいモデリングを提案する。 特に、NarCoのエッジは、コンテキストスニペット間の自由形式のふりかえりの質問を含んでいる。 重要なことは、我々のグラフ形式は、設計した2段階のプロンプトスキームを通して、人間のアノテーションを使わずにLLMによって事実上インスタンス化されている。 グラフ特性とその有用性を検討するために,我々は,それぞれ独自の角度から,エッジ関係の有効性,局所的コンテキストの充実,より広範なQA応用の3つの物語研究を行っている。 すべてのタスクは、NarCoがキャプチャした明示的な一貫性の恩恵を受けることができる。

This work introduces an original and practical paradigm for narrative comprehension, stemming from the characteristics that individual passages within narratives tend to be more cohesively related than isolated. Complementary to the common end-to-end paradigm, we propose a fine-grained modeling of narrative context, by formulating a graph dubbed NarCo, which explicitly depicts task-agnostic coherence dependencies that are ready to be consumed by various downstream tasks. In particular, edges in NarCo encompass free-form retrospective questions between context snippets, inspired by human cognitive perception that constantly reinstates relevant events from prior context. Importantly, our graph formalism is practically instantiated by LLMs without human annotations, through our designed two-stage prompting scheme. To examine the graph properties and its utility, we conduct three studies in narratives, each from a unique angle: edge relation efficacy, local context enrichment, and broader application in QA. All tasks could benefit from the explicit coherence captured by NarCo.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# 透かしは翻訳を救えるか? 大規模言語モデルのためのテキスト透かしの言語間整合性について

Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models ( http://arxiv.org/abs/2402.14007v2 )

ライセンス: Link先を確認
Zhiwei He, Binglin Zhou, Hongkun Hao, Aiwei Liu, Xing Wang, Zhaopeng Tu, Zhuosheng Zhang, Rui Wang, (参考訳) テキスト透かし技術は、大きな言語モデル(LLM)が生成したコンテンツをタグ付けして識別することを目的としている。 本研究では,テキスト透かしにおける言語間整合性の概念を導入し,テキスト透かしが他の言語に翻訳された後の効率を維持する能力を評価する。 2つのLCMと3つの透かし手法による予備的な実証結果から、現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときに一貫性が欠如していることが分かる。 そこで本研究では,まずLLMからの応答をピボット言語で取得し,対象言語に翻訳することで,透かしを回避するための言語間透かし除去攻撃(CWRA)を提案する。 CWRAはウォーターマークを効果的に除去することができ、AUCを無作為なゲスティングレベルに減らすことができる。 さらに,テキスト透かしにおける言語間整合性に寄与する2つの要因を分析し,CWRAに対する防御手法としてX-SIRを提案する。 コード:https://github.com/zwhe99/X-SIR

Text watermarking technology aims to tag and identify content produced by large language models (LLMs) to prevent misuse. In this study, we introduce the concept of cross-lingual consistency in text watermarking, which assesses the ability of text watermarks to maintain their effectiveness after being translated into other languages. Preliminary empirical results from two LLMs and three watermarking methods reveal that current text watermarking technologies lack consistency when texts are translated into various languages. Based on this observation, we propose a Cross-lingual Watermark Removal Attack (CWRA) to bypass watermarking by first obtaining a response from an LLM in a pivot language, which is then translated into the target language. CWRA can effectively remove watermarks, decreasing the AUCs to a random-guessing level without performance loss. Furthermore, we analyze two key factors that contribute to the cross-lingual consistency in text watermarking and propose X-SIR as a defense method against CWRA. Code: https://github.com/zwhe99/X-SIR.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# 多重領域を用いた局所分布シフトの多重ロバスト推定

Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains ( http://arxiv.org/abs/2402.14145v2 )

ライセンス: Link先を確認
Steven Wilkins-Reeves, Xu Chen, Qi Ma, Christine Agarwal, Aude Hofleitner, (参考訳) 分散シフトは、現実世界の機械学習アプリケーションではユビキタスであり、あるデータ分散でトレーニングされたモデルを別のデータに一般化する上での課題である。 データ分布が全人口の複数のセグメントで異なるシナリオに注目し、各セグメント内のトレーニングとテスト(デプロイ)の分布の違いについてのみ局所的な仮定を行う。 グラフデータ解析において,各セグメントのモデル性能を改善するための2段乗算ロバスト推定法を提案する。 この方法は、複数のセグメントから学習したトレーニングデータのクラスタを使用して、ベースモデルの線形結合を組み込む。 本手法は,市販の機械学習モデルを用いて実装されるように設計されている。 テストリスクに関する手法の一般化限界に関する理論的保証を確立する。 合成データセットと実データセットの広範な実験により,提案手法は回帰タスクと分類タスクの両方において,予測精度とロバスト性において,既存の代替手段よりも大幅に改善されていることを示す。 また,その効果をMetaのユーザシティ予測データセットで評価する。

Distribution shifts are ubiquitous in real-world machine learning applications, posing a challenge to the generalization of models trained on one data distribution to another. We focus on scenarios where data distributions vary across multiple segments of the entire population and only make local assumptions about the differences between training and test (deployment) distributions within each segment. We propose a two-stage multiply robust estimation method to improve model performance on each individual segment for tabular data analysis. The method involves fitting a linear combination of the based models, learned using clusters of training data from multiple segments, followed by a refinement step for each segment. Our method is designed to be implemented with commonly used off-the-shelf machine learning models. We establish theoretical guarantees on the generalization bound of the method on the test risk. With extensive experiments on synthetic and real datasets, we demonstrate that the proposed method substantially improves over existing alternatives in prediction accuracy and robustness on both regression and classification tasks. We also assess its effectiveness on a user city prediction dataset from Meta.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# ルール・アンド・ストーリー 大規模言語モデルと対話する上で、より優れたコモンセンス表現は何か?

Rule or Story, Which is a Better Commonsense Expression for Talking with Large Language Models? ( http://arxiv.org/abs/2402.14355v2 )

ライセンス: Link先を確認
Ning Bian, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le Sun, (参考訳) Commonsenseを使ったマシンの構築は、Commonsenseルールの報告バイアスとルールベースのCommonsense推論の露出バイアスにより、NLPの長年にわたる課題である。 対照的に、人間は物語を通して暗黙的にコモンセンスを伝え、伝承する。 本稿では,大規模言語モデル(LLM)がストーリーテリングを通して表現する固有コモンセンス能力について検討する。 LLMにおけるコモンセンスを検索・活用するためのストーリーとルールを体系的に検討・比較する。 28のコモンセンスQAデータセットによる実験結果から,LLMからコモンセンスを抽出するための表現として,ストーリーがルールより優れており,世代信頼性とコモンセンスの精度が向上していることがわかった。 さらに、ストーリーは日々の出来事に関する質問に答えるより効果的なコモンセンス表現であり、ルールは科学的な質問に対してより効果的である。 これはテキストコーパスにおけるコモンセンスのレポートバイアスと一致している。 さらに,コモンセンスストーリーの正しさと関連性は,反復的自己指導による微調整によってさらに向上できることを示す。 これらの知見は、LLMのコモンセンスを表現、検索、活用するために適切な言語を使うことの重要性を強調し、コモンセンスの能力をうまく活用するための有望な方向性を強調した。

Building machines with commonsense has been a longstanding challenge in NLP due to the reporting bias of commonsense rules and the exposure bias of rule-based commonsense reasoning. In contrast, humans convey and pass down commonsense implicitly through stories. This paper investigates the inherent commonsense ability of large language models (LLMs) expressed through storytelling. We systematically investigate and compare stories and rules for retrieving and leveraging commonsense in LLMs. Experimental results on 28 commonsense QA datasets show that stories outperform rules as the expression for retrieving commonsense from LLMs, exhibiting higher generation confidence and commonsense accuracy. Moreover, stories are the more effective commonsense expression for answering questions regarding daily events, while rules are more effective for scientific questions. This aligns with the reporting bias of commonsense in text corpora. We further show that the correctness and relevance of commonsense stories can be further improved via iterative self-supervised fine-tuning. These findings emphasize the importance of using appropriate language to express, retrieve, and leverage commonsense for LLMs, highlighting a promising direction for better exploiting their commonsense abilities.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# ロボティクスにおける形態的対称性

Morphological Symmetries in Robotics ( http://arxiv.org/abs/2402.15552v2 )

ライセンス: Link先を確認
Daniel Ordoñez-Apraez, Giulio Turrisi, Vladimir Kostic, Mario Martin, Antonio Agudo, Francesc Moreno-Noguer, Massimiliano Pontil, Claudio Semini, Carlos Mastalli, (参考訳) 本稿では,ロボットシステムにおける形態的対称性の研究と活用のための包括的枠組みを提案する。 これらは、運動構造の複製と質量の対称分布から生じる動物生物学やロボット工学においてしばしば観察される、ロボットの形態学の本質的な性質である。 これらの対称性がロボットの状態空間にどのように拡張され、ロボットの運動方程式と最適制御ポリシーが等しくなるかを説明する。 そこで本研究では, 形態学の対称性を, ロボット工学におけるモデリング, 制御, 推定, 設計に使用されるデータ駆動型および解析的手法の両方に重要な意味を持つ, 従来未発見の物理インフォームド幾何的先行現象として認識する。 データ駆動型手法では, モデルアーキテクチャに等変・不変制約を適用することにより, 機械学習モデルのサンプル効率と一般化を向上できることを実証する。 解析手法の文脈では、ロボットの力学を低次元独立力学の重ね合わせに分解するために抽象調和解析を用いる。 両足歩行ロボットと四足歩行ロボットの両方で、人工と実世界の両方の実験によって、我々の主張を裏付ける。 最後に,本研究で概説した理論と応用の実践的活用を促進するため,MorphoSymmリポジトリを紹介した。

We present a comprehensive framework for studying and leveraging morphological symmetries in robotic systems. These are intrinsic properties of the robot's morphology, frequently observed in animal biology and robotics, which stem from the replication of kinematic structures and the symmetrical distribution of mass. We illustrate how these symmetries extend to the robot's state space and both proprioceptive and exteroceptive sensor measurements, resulting in the equivariance of the robot's equations of motion and optimal control policies. Thus, we recognize morphological symmetries as a relevant and previously unexplored physics-informed geometric prior, with significant implications for both data-driven and analytical methods used in modeling, control, estimation and design in robotics. For data-driven methods, we demonstrate that morphological symmetries can enhance the sample efficiency and generalization of machine learning models through data augmentation, or by applying equivariant/invariant constraints on the model's architecture. In the context of analytical methods, we employ abstract harmonic analysis to decompose the robot's dynamics into a superposition of lower-dimensional, independent dynamics. We substantiate our claims with both synthetic and real-world experiments conducted on bipedal and quadrupedal robots. Lastly, we introduce the repository MorphoSymm to facilitate the practical use of the theory and applications outlined in this work.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-04
# LLMの採算能力の測定:ベンチマークと買い手エンハンスメント手法

Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method ( http://arxiv.org/abs/2402.15813v3 )

ライセンス: Link先を確認
Tian Xia, Zhiwei He, Tong Ren, Yibo Miao, Zhuosheng Zhang, Yang Yang, Rui Wang, (参考訳) 交渉は、人間同士の交渉において、重要かつユニークな部分である。 LLMを駆使したエージェントは、実際の人間のように交渉し行動することを学ぶため、エージェントの交渉能力を評価する方法が未解決の問題である。 本研究では,バーゲティングタスクを非対称な不完全情報ゲームとして公式に記述し,バイヤーとセラーの利得を複数のバーゲティングプロセスで定義した。 これにより、Bargainタスクにおけるエージェントのパフォーマンスを定量的に評価することができます。 実際の製品価格データセットであるAmazonHistoryPriceを収集し、さまざまなLLMエージェントのバリ取り能力の評価を行った。 その結果,バイヤーの演奏はセラーよりもはるかに難しく,モデルサイズの増加はバイヤーのパフォーマンスを効果的に向上させることができないことがわかった。 そこで本研究では,提案する提案の価格範囲を制御するための決定論的オファージェネレータと,生成した提案に対する自然言語文を生成するLLMナレーターを組み合わせた,OG-Narratorという新しいアプローチを提案する。 実験の結果、OG-Narratorは購入者の取引レートを26.67%から88.88%に改善し、整列していないモデルであっても、すべてのベースラインで利益の10倍の倍増をもたらすことが示された。

Bargaining is an important and unique part of negotiation between humans. As LLM-driven agents learn to negotiate and act like real humans, how to evaluate agents' bargaining abilities remains an open problem. For the first time, we formally described the Bargaining task as an asymmetric incomplete information game, defining the gains of the Buyer and Seller in multiple bargaining processes. It allows us to quantitatively assess an agent's performance in the Bargain task. We collected a real product price dataset, AmazonHistoryPrice, and conducted evaluations of various LLM agents' bargaining abilities. We find that playing a Buyer is much harder than a Seller, and increasing model size can not effectively improve the Buyer's performance. To address the challenge, we propose a novel approach called OG-Narrator that integrates a deterministic Offer Generator to control the price range of Buyer's offers, and an LLM Narrator to create natural language sentences for generated offers. Experimental results show that OG-Narrator improves the buyer's deal rates from 26.67% to 88.88% and brings a ten times multiplication of profits on all baselines, even a model that has not been aligned.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# ASETF: 接尾辞埋め込みによるLDMのジェイルブレイク攻撃の新しい方法

ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings ( http://arxiv.org/abs/2402.16006v2 )

ライセンス: Link先を確認
Hao Wang, Hao Li, Minlie Huang, Lei Sha, (参考訳) 大規模言語モデル(LLM)の安全防御手法は、危険なプロンプトが少数の既知の攻撃タイプに手動でキュレートされるため、まだ限られている。 近年の研究では、有害な指示に接する接尾辞がLSMの防御をハックし、危険な出力につながることが報告されている。 しかし、従来のテキスト敵攻撃と同様に、このアプローチは有効ではあるが、離散トークンの挑戦によって制限される。 この勾配に基づく離散的最適化攻撃は10000 LLM の呼び出しを必要とするが、逆サフィックスの読めないため、パープレキシティフィルタのような一般的な防御手法によって比較的容易に侵入できる。 この課題に対処するため、本稿では、連続的な逆接接尾辞埋め込みをコヒーレントかつ理解可能なテキストに変換することを目的とした、Adversarial Suffix Embedding Translation Framework (ASETF)を提案する。 この手法は攻撃過程における計算オーバーヘッドを大幅に減らし、複数の敵サンプルを自動的に生成し、LLMのセキュリティ防御を強化するデータとして使用できる。 Llama2, Vicuna, および他の著名なLLMに対して, Advbenchデータセットから得られた有害なディレクティブを用いて実験を行った。 その結果,提案手法は,従来の手法に比べて,逆接接尾辞の計算時間を著しく短縮し,攻撃成功率を大幅に向上させるとともに,プロンプトのテキスト流速を著しく向上させることを示した。 さらに,本手法は,ChatGPT や Gemini などのブラックボックス LLM など,複数の LLM を効果的に攻撃できる伝達可能な逆接尾辞を生成するための,より広範な手法に一般化することができる。

The safety defense methods of Large language models(LLMs) stays limited because the dangerous prompts are manually curated to just few known attack types, which fails to keep pace with emerging varieties. Recent studies found that attaching suffixes to harmful instructions can hack the defense of LLMs and lead to dangerous outputs. However, similar to traditional text adversarial attacks, this approach, while effective, is limited by the challenge of the discrete tokens. This gradient based discrete optimization attack requires over 100,000 LLM calls, and due to the unreadable of adversarial suffixes, it can be relatively easily penetrated by common defense methods such as perplexity filters. To cope with this challenge, in this paper, we proposes an Adversarial Suffix Embedding Translation Framework (ASETF), aimed at transforming continuous adversarial suffix embeddings into coherent and understandable text. This method greatly reduces the computational overhead during the attack process and helps to automatically generate multiple adversarial samples, which can be used as data to strengthen LLMs security defense. Experimental evaluations were conducted on Llama2, Vicuna, and other prominent LLMs, employing harmful directives sourced from the Advbench dataset. The results indicate that our method significantly reduces the computation time of adversarial suffixes and achieves a much better attack success rate to existing techniques, while significantly enhancing the textual fluency of the prompts. In addition, our approach can be generalized into a broader method for generating transferable adversarial suffixes that can successfully attack multiple LLMs, even black-box LLMs, such as ChatGPT and Gemini.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# テキスト誘導画像と映像生成のための文脈拡散モデル

Contextualized Diffusion Models for Text-Guided Image and Video Generation ( http://arxiv.org/abs/2402.16627v3 )

ライセンス: Link先を確認
Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui, (参考訳) 条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。 それでも、一般的なテキスト誘導視覚拡散モデルは、主に逆プロセスにのみテキストと視覚の関係を組み込むことに焦点を合わせており、しばしば前処理におけるそれらの関連性を無視している。 この前方プロセスと逆プロセスの矛盾は、視覚合成結果におけるテキスト意味論の正確な伝達を制限する可能性がある。 この問題を解決するために,テキスト条件と視覚サンプル間の相互作用とアライメントを含むクロスモーダルなコンテキストを前処理と逆処理に組み込むことにより,新しいコンテキスト適応拡散モデル(ContextDiff)を提案する。 我々はこの文脈を2つのプロセスのすべての時間ステップに伝播させ、それらの軌道に適応させ、モーダルな条件付きモデリングを容易にする。 DDPMとDDIMの両方への文脈的拡散を理論的導出により一般化し,テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において,本モデルの有効性を実証する。 各タスクにおいて、ContextDiffは、テキスト条件と生成されたサンプルのセマンティックアライメントを大幅に向上させ、定量的および定性的な評価によって証明されるように、新しい最先端のパフォーマンスを実現する。 私たちのコードはhttps://github.com/YangLing0818/ContextDiffで利用可能です。

Conditional diffusion models have exhibited superior performance in high-fidelity text-guided visual generation and editing. Nevertheless, prevailing text-guided visual diffusion models primarily focus on incorporating text-visual relationships exclusively into the reverse process, often disregarding their relevance in the forward process. This inconsistency between forward and reverse processes may limit the precise conveyance of textual semantics in visual synthesis results. To address this issue, we propose a novel and general contextualized diffusion model (ContextDiff) by incorporating the cross-modal context encompassing interactions and alignments between text condition and visual sample into forward and reverse processes. We propagate this context to all timesteps in the two processes to adapt their trajectories, thereby facilitating cross-modal conditional modeling. We generalize our contextualized diffusion to both DDPMs and DDIMs with theoretical derivations, and demonstrate the effectiveness of our model in evaluations with two challenging tasks: text-to-image generation, and text-to-video editing. In each task, our ContextDiff achieves new state-of-the-art performance, significantly enhancing the semantic alignment between text condition and generated samples, as evidenced by quantitative and qualitative evaluations. Our code is available at https://github.com/YangLing0818/ContextDiff
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# セマンティック・エフェクティビティ・チャンネルエラー下での実用的なゴール指向通信

Pragmatic Goal-Oriented Communications under Semantic-Effectiveness Channel Errors ( http://arxiv.org/abs/2402.16858v2 )

ライセンス: Link先を確認
Tomás Hüttebräucker, Mohamed Sana, Emilio Calvanese Strinati, (参考訳) 近日中のAI支援6Gネットワークでは、セマンティック、プラグマティック、ゴール指向のコミュニケーション戦略の統合が必須となる。 この統合により、専用のタスクデータの検出、送信、処理が可能になり、伝達された情報が理解可能で実用的な意味的重要性を持ち、目的地のニーズや目標と整合することを保証する。 間違いなく、コミュニケーションはエラーフリーです。 この文脈内では、典型的な無線通信の力学から生じるエラーに加えて、意味処理能力の制限により、送信者意図と受信者解釈の意味間の潜在的な歪みや、送信者と受信者間の言語と知識表現の相違が生じることがある。 本論文の主な貢献は2つある。 まず、意味的および有効性の両レベルで言語ミスマッチから生じる誤りの数学的モデリングを提案し、詳述する。 第二に、最適な輸送理論を利用するこれらのタイプのエラーに対処するための新しいアルゴリズム的解決策を提供する。 本稿では,言語ミスマッチを補うメカニズムが提案される可能性を示し,ノイズの多い通信環境下での信頼性通信の実現可能性を高める。

In forthcoming AI-assisted 6G networks, integrating semantic, pragmatic, and goal-oriented communication strategies becomes imperative. This integration will enable sensing, transmission, and processing of exclusively pertinent task data, ensuring conveyed information possesses understandable, pragmatic semantic significance, aligning with destination needs and goals. Without doubt, no communication is error free. Within this context, besides errors stemming from typical wireless communication dynamics, potential distortions between transmitter-intended and receiver-interpreted meanings can emerge due to limitations in semantic processing capabilities, as well as language and knowledge representation disparities between transmitters and receivers. The main contribution of this paper is two-fold. First, it proposes and details a novel mathematical modeling of errors stemming from language mismatches at both semantic and effectiveness levels. Second, it provides a novel algorithmic solution to counteract these types of errors which leverages optimal transport theory. Our numerical results show the potential of the proposed mechanism to compensate for language mismatches, thereby enhancing the attainability of reliable communication under noisy communication environments.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# LDB: 実行時実行のステップバイステップ検証による大規模言語モデルデバッガ

LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step ( http://arxiv.org/abs/2402.16906v5 )

ライセンス: Link先を確認
Lily Zhong, Zilong Wang, Jingbo Shang, (参考訳) 大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。 ワンパスコード生成以外にも、近年の作業では、ユニットテストとプログラム検証器をLCMに統合して、生成されたプログラムを反復的に洗練している。 しかし、これらの研究は生成されたプログラムを識別不可能な実体とみなし、特に複雑な論理フローやデータ操作を含む場合、プログラムをデバッグするLLMには不足している。 対照的に、ヒューマン開発者がプログラムをデバッグする場合、通常はブレークポイントを設定し、実行時情報を選択的に検査する。 実行フローと中間変数はデバッグプロセスにおいて重要な役割を果たすが、コード生成に関する既存の文献では利用されていない。 本研究では,Large Language Model Debugger (LDB)を紹介した。LDMが実行時情報を用いて生成されたプログラムを洗練できる新しいデバッグフレームワークである。 具体的には、LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。 これにより、LCMは実行フロー全体においてより単純なコードユニットに集中でき、ブロックによってタスク記述ブロックに対する正当性を検証でき、潜在的なエラーを効率的に特定できる。 実験によると、LDBはHumanEval、MBPP、TransCoderベンチマークで最大9.8%のベースライン性能を継続的に向上し、様々なLLM選択のためのコードデバッグにおける新しい最先端のパフォーマンスをアーカイブしている。

Large language models (LLMs) are leading significant progress in code generation. Beyond one-pass code generation, recent works further integrate unit tests and program verifiers into LLMs to iteratively refine the generated programs. However, these works consider the generated programs as an indivisible entity, which falls short for LLMs in debugging the programs, especially when the programs contain complex logic flows and data operations. In contrast, when human developers debug programs, they typically set breakpoints and selectively examine runtime execution information. The execution flow and the intermediate variables play a crucial role in the debugging process, yet they are underutilized in the existing literature on code generation. In this study, we introduce Large Language Model Debugger (LDB), a novel debugging framework that enables LLMs to refine their generated programs with the runtime execution information. Specifically, LDB segments the programs into basic blocks and tracks the values of intermediate variables after each block throughout the runtime execution. This allows LLMs to concentrate on simpler code units within the overall execution flow, verify their correctness against the task description block by block, and efficiently pinpoint any potential errors. Experiments demonstrate that LDB consistently enhances the baseline performance by up to 9.8% across the HumanEval, MBPP, and TransCoder benchmarks, archiving new state-of-the-art performance in code debugging for various LLM selections.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# メタレビュー生成のための感性統合フレームワーク

A Sentiment Consolidation Framework for Meta-Review Generation ( http://arxiv.org/abs/2402.18005v2 )

ライセンス: Link先を確認
Miao Li, Jey Han Lau, Eduard Hovy, (参考訳) 大規模言語モデル(LLM)を用いた現代自然言語生成システムは,複数の文書のもっともらしい要約を生成する能力を示しているが,特に意見情報のある文書において,要約を生成するための情報統合の能力を持っているかどうかは定かではない。 我々は、科学的領域に対する感情要約の一形態であるメタレビュー生成に焦点を当てる。 科学的感情の要約をより基礎づけるために、人間のメタリビューアは、メタリビューを書くために三層的な感情統合の枠組みに従うことを仮定する。 そこで本研究では,LLMのメタレビュー作成のための新しいプロンプト手法を提案し,メタレビューの質を評価するための評価指標を提案する。 私たちのフレームワークは、単純な命令で LLM をプロンプトするよりも、フレームワークに基づいて LLM をプロンプトする方が、より優れたメタレビューを生成するという経験的な検証がなされています。

Modern natural language generation systems with Large Language Models (LLMs) exhibit the capability to generate a plausible summary of multiple documents; however, it is uncertain if they truly possess the capability of information consolidation to generate summaries, especially on documents with opinionated information. We focus on meta-review generation, a form of sentiment summarisation for the scientific domain. To make scientific sentiment summarization more grounded, we hypothesize that human meta-reviewers follow a three-layer framework of sentiment consolidation to write meta-reviews. Based on the framework, we propose novel prompting methods for LLMs to generate meta-reviews and evaluation metrics to assess the quality of generated meta-reviews. Our framework is validated empirically as we find that prompting LLMs based on the framework -- compared with prompting them with simple instructions -- generates better meta-reviews.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# 医療用大言語モデルのファクチュアル知識と説明能力の編集

Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models ( http://arxiv.org/abs/2402.18099v2 )

ライセンス: Link先を確認
Derong Xu, Ziheng Zhang, Zhihong Zhu, Zhenxi Lin, Qidong Liu, Xian Wu, Tong Xu, Wanyu Wang, Yuyang Ye, Xiangyu Zhao, Yefeng Zheng, Enhong Chen, (参考訳) モデル編集の目的は、大きな言語モデル(LLM)の振る舞いを特定の知識に関連付けて正確に変更することであり、無関係な知識をそのまま残すことである。 このアプローチは、LLMにおける幻覚や時代遅れの情報の問題に対処する上で有効であることが証明されている。 しかし, この領域では, 幻覚の解消が急務であるにもかかわらず, 医学領域における知識の修正にモデル編集を用いる可能性はほとんど解明されていない。 本研究は,医学領域における専門的・複雑な知識を扱う上で,現状の手法が重大な課題に直面していることを示唆する。 そこで我々は,MedLaSAを提案する。MedLaSAは,医療モデル編集のためのレイヤワイド・スケーラブル・アダプタ・ストラテジーである。 MedLaSAは、余分なパラメータの追加と、医療モデル編集のための位置-編集法の両方の長所を利用する。 因果的追跡を用いて、異なる階層にわたるニューロン内の知識の関連を同定し、各知識の関連値から対応する尺度を生成する。 その後、拡張性のあるアダプタをLLMの層に組み込む。 これらのアダプタは、対応する特定の知識に基づいてスケーリング値が割り当てられ、アダプタの重みとランクを調整することができる。 内容が類似すればなるほど、両者のスケールは一貫したものになる。 これは意味的に同一の知識を正確に編集し、無関係な知識に影響を与えないようにする。 LLMの行動に対する編集効果を評価するため,医学領域におけるモデル編集研究として,(1)医療専門化のための事実知識の編集,(2)複雑な知識のための説明能力の編集という2つのモデル編集研究を提案する。 2つの新しい医療ベンチマークデータセットを構築し、一連の挑戦的で包括的なメトリクスを導入します。 医学LLMに関する大規模な実験は、無関係な知識に影響を与えることなく、MedLaSAの編集効率を実証している。

Model editing aims to precisely alter the behaviors of large language models (LLMs) in relation to specific knowledge, while leaving unrelated knowledge intact. This approach has proven effective in addressing issues of hallucination and outdated information in LLMs. However, the potential of using model editing to modify knowledge in the medical field remains largely unexplored, even though resolving hallucination is a pressing need in this area. Our observations indicate that current methods face significant challenges in dealing with specialized and complex knowledge in medical domain. Therefore, we propose MedLaSA, a novel Layer-wise Scalable Adapter strategy for medical model editing. MedLaSA harnesses the strengths of both adding extra parameters and locate-then-edit methods for medical model editing. We utilize causal tracing to identify the association of knowledge in neurons across different layers, and generate a corresponding scale set from the association value for each piece of knowledge. Subsequently, we incorporate scalable adapters into the dense layers of LLMs. These adapters are assigned scaling values based on the corresponding specific knowledge, which allows for the adjustment of the adapter's weight and rank. The more similar the content, the more consistent the scale between them. This ensures precise editing of semantically identical knowledge while avoiding impact on unrelated knowledge. To evaluate the editing impact on the behaviours of LLMs, we propose two model editing studies for medical domain: (1) editing factual knowledge for medical specialization and (2) editing the explanatory ability for complex knowledge. We build two novel medical benchmarking datasets and introduce a series of challenging and comprehensive metrics. Extensive experiments on medical LLMs demonstrate the editing efficiency of MedLaSA, without affecting unrelated knowledge.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# 雑音ロバスト音声認識用適応器の探索

Exploration of Adapter for Noise Robust Automatic Speech Recognition ( http://arxiv.org/abs/2402.18275v3 )

ライセンス: Link先を確認
Hao Shi, Tatsuya Kawahara, (参考訳) 音声認識システム(ASR)を未確認ノイズ環境に適用することは重要である。 ニューラルネットワークへのアダプタの統合は、トランスファーラーニングの強力なテクニックとして現れている。 本研究は, 雑音環境下でのアダプタに基づくASR適応について, 徹底的に検討する。 我々はCHiME--4データセットを用いて実験を行った。 その結果, 浅い層にアダプタを挿入すると, 優れた効果が得られ, 浅い層にのみ適応することと, 全ての層に適応することとの間に有意な差は認められなかった。 シミュレーションデータにより,実雑音下での性能が向上する。 それでも、データの量が同じである場合、実データはシミュレーションデータよりも効果的である。 マルチコンディショントレーニングはアダプタトレーニングにも有用である。 さらに、音声強調に基づくASRシステムにアダプタを組み込むことにより、大幅な改善がもたらされる。

Adapting an automatic speech recognition (ASR) system to unseen noise environments is crucial. Integrating adapters into neural networks has emerged as a potent technique for transfer learning. This study thoroughly investigates adapter-based ASR adaptation in noisy environments. We conducted experiments using the CHiME--4 dataset. The results show that inserting the adapter in the shallow layer yields superior effectiveness, and there is no significant difference between adapting solely within the shallow layer and adapting across all layers. The simulated data helps the system to improve its performance under real noise conditions. Nonetheless, when the amount of data is the same, the real data is more effective than the simulated data. Multi-condition training is still useful for adapter training. Furthermore, integrating adapters into speech enhancement-based ASR systems yields substantial improvements.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# 微細拡散:1万のクラスで微細な画像生成のための拡散モデルのスケールアップ

FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes ( http://arxiv.org/abs/2402.18331v3 )

ライセンス: Link先を確認
Ziying Pan, Kun Wang, Gang Li, Feihong He, Yongxuan Lai, (参考訳) 拡散モデルに基づくクラス条件画像生成は高品質で多様な画像を生成することで有名である。 しかし、これまでのほとんどの取り組みは、イメージNet-1kの1000のクラスなど、一般的なカテゴリのイメージ生成に重点を置いていた。 より困難なタスク、大規模なきめ細かい画像生成は、探索すべき境界のままである。 本研究では,1万カテゴリの大規模きめ細かな画像生成にスケールする大規模事前学習拡散モデルに対して,ファインディフュージョン(FinDiffusion)と呼ばれるパラメータ効率のよい手法を提案する。 FineDiffusionは、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによって、トレーニングを著しく加速し、ストレージオーバーヘッドを低減する。 細粒度分類の画質向上を図るため,特に細粒度分類に特化しているスーパークラス条件付きガイダンスを用いて,従来の分類器不要のガイダンスを代替する,微細粒度画像生成のための新しいサンプリング手法を提案する。 フル微調整と比較すると、ファインディフュージョンは1.56倍のトレーニングスピードアップを達成し、総モデルのパラメータの1.77%しか保存せず、1万クラスの画像生成で9.776の最先端のFIDを達成する必要がある。 大規模定性的および定量的実験は,他のパラメータ効率の良い微調整法と比較して,本手法の優位性を示した。 コードとより生成された結果は、プロジェクトのWebサイト(https://finediffusion.github.io/)で公開されています。

The class-conditional image generation based on diffusion models is renowned for generating high-quality and diverse images. However, most prior efforts focus on generating images for general categories, e.g., 1000 classes in ImageNet-1k. A more challenging task, large-scale fine-grained image generation, remains the boundary to explore. In this work, we present a parameter-efficient strategy, called FineDiffusion, to fine-tune large pre-trained diffusion models scaling to large-scale fine-grained image generation with 10,000 categories. FineDiffusion significantly accelerates training and reduces storage overhead by only fine-tuning tiered class embedder, bias terms, and normalization layers' parameters. To further improve the image generation quality of fine-grained categories, we propose a novel sampling method for fine-grained image generation, which utilizes superclass-conditioned guidance, specifically tailored for fine-grained categories, to replace the conventional classifier-free guidance sampling. Compared to full fine-tuning, FineDiffusion achieves a remarkable 1.56x training speed-up and requires storing merely 1.77% of the total model parameters, while achieving state-of-the-art FID of 9.776 on image generation of 10,000 classes. Extensive qualitative and quantitative experiments demonstrate the superiority of our method compared to other parameter-efficient fine-tuning methods. The code and more generated results are available at our project website: https://finediffusion.github.io/.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# 未確認領域における微調整機械翻訳メトリクスのゆらぎ

Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains ( http://arxiv.org/abs/2402.18747v2 )

ライセンス: Link先を確認
Vilém Zouhar, Shuoyang Ding, Anna Currey, Tatyana Badeka, Jenyuan Wang, Brian Thompson, (参考訳) バイオメディカル領域における11の言語対をカバーする新しい多次元品質指標(MQM)アノテートデータセットを導入する。 このデータセットを用いて、人為的なMT品質判断に基づいて微調整された機械翻訳(MT)メトリクスが、トレーニングと推論の間のドメインシフトに対して堅牢であるかどうかを調べる。 微調整されたメトリクスは、表面形状に依存するメトリクスと、MT品質判断に基づいて微調整されていない事前訓練されたメトリクスとに対して、目に見えない領域シナリオにおいて、かなりのパフォーマンス低下を示す。

We introduce a new, extensive multidimensional quality metrics (MQM) annotated dataset covering 11 language pairs in the biomedical domain. We use this dataset to investigate whether machine translation (MT) metrics which are fine-tuned on human-generated MT quality judgements are robust to domain shifts between training and inference. We find that fine-tuned metrics exhibit a substantial performance drop in the unseen domain scenario relative to metrics that rely on the surface form, as well as pre-trained metrics which are not fine-tuned on MT quality judgments.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# Dr.戦略:ストラテジックドリームを持つモデルベースジェネリストエージェント

Dr. Strategy: Model-Based Generalist Agents with Strategic Dreaming ( http://arxiv.org/abs/2402.18866v2 )

ライセンス: Link先を確認
Hany Hamed, Subin Kim, Dongyeong Kim, Jaesik Yoon, Sungjin Ahn, (参考訳) モデルベース強化学習(MBRL)は、サンプル効率問題を改善し、ジェネラリストエージェントを作るための主要なアプローチである。 しかし、夢を夢見る戦略の強化にはあまり努力がかからない。 したがって、エージェントがより構造化され戦略的な方法で「より良く振る舞う」ことができるかどうかという問題である。 本稿では,人間が空間分割戦略を計画に用いていることを示唆する認知科学の観察に触発されて,新しいMBRLエージェントであるDr. Strategyを提案する。 提案するエージェントは,ドリームにおける配当型戦略のバージョンを実現する。 これは、潜在するランドマークの集合を学習し、それを利用してランドマーク条件のハイウェイポリシーを学ぶことで達成される。 高速道路のポリシーでは、エージェントはまずランドマークに移動する夢から学び、そこからより焦点を絞った方法で探索と達成に取り組みます。 実験により,提案手法は様々な視覚的かつ部分的に観察可能なナビゲーションタスクにおいて,画素ベースのMBRL法よりも優れた性能を示すことが示された。

Model-based reinforcement learning (MBRL) has been a primary approach to ameliorating the sample efficiency issue as well as to make a generalist agent. However, there has not been much effort toward enhancing the strategy of dreaming itself. Therefore, it is a question whether and how an agent can "dream better" in a more structured and strategic way. In this paper, inspired by the observation from cognitive science suggesting that humans use a spatial divide-and-conquer strategy in planning, we propose a new MBRL agent, called Dr. Strategy, which is equipped with a novel Dreaming Strategy. The proposed agent realizes a version of divide-and-conquer-like strategy in dreaming. This is achieved by learning a set of latent landmarks and then utilizing these to learn a landmark-conditioned highway policy. With the highway policy, the agent can first learn in the dream to move to a landmark, and from there it tackles the exploration and achievement task in a more focused way. In experiments, we show that the proposed model outperforms prior pixel-based MBRL methods in various visually complex and partially observable navigation tasks.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# RAM-EHR:Retrieval Augmentationは、電子健康記録に臨床予測をもたらす

RAM-EHR: Retrieval Augmentation Meets Clinical Predictions on Electronic Health Records ( http://arxiv.org/abs/2403.00815v2 )

ライセンス: Link先を確認
Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Bowen Jin, May D. Wang, Joyce C. Ho, Carl Yang, (参考訳) 本稿では,Electronic Health Records(EHRs)における臨床予測を改善するために,検索AugMentationパイプラインであるRAM-EHRを提案する。 RAM-EHRはまず複数の知識ソースを収集し、それらをテキスト形式に変換し、密度の高い検索を用いて医療概念に関する情報を取得する。 この戦略は、概念の複雑な名前に関する困難に対処する。 RAM-EHRは、患者の訪問や要約された知識から補完的な情報を取得するために、一貫性の規則化とともに訓練されたローカルEHR予測モデルを増強する。 2つのEHRデータセットの実験は、RAM-EHRが従来の知識強化ベースライン(AUROCでは3.4%、AUPRでは7.2%)よりも有効であることを示し、臨床予測タスクにおいてRAM-EHRから要約された知識の有効性を強調した。 コードは \url{https://github.com/ritaranx/RAM-EHR} で公開される。

We present RAM-EHR, a Retrieval AugMentation pipeline to improve clinical predictions on Electronic Health Records (EHRs). RAM-EHR first collects multiple knowledge sources, converts them into text format, and uses dense retrieval to obtain information related to medical concepts. This strategy addresses the difficulties associated with complex names for the concepts. RAM-EHR then augments the local EHR predictive model co-trained with consistency regularization to capture complementary information from patient visits and summarized knowledge. Experiments on two EHR datasets show the efficacy of RAM-EHR over previous knowledge-enhanced baselines (3.4% gain in AUROC and 7.2% gain in AUPR), emphasizing the effectiveness of the summarized knowledge from RAM-EHR for clinical prediction tasks. The code will be published at \url{https://github.com/ritaranx/RAM-EHR}.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# LLMCRIT: 大規模言語モデルに基準の使用を教える

LLMCRIT: Teaching Large Language Models to Use Criteria ( http://arxiv.org/abs/2403.01069v2 )

ライセンス: Link先を確認
Weizhe Yuan, Pengfei Liu, Matthias Gallé, (参考訳) 人間はタスクの実行時に基準に従い、これらの基準はタスク完了の質を評価するために直接使用される。 したがって、モデルがフィードバックを提供するために基準を使うことを学ぶことは、人間やモデルがより良いタスクを実行するのに役立つ。 しかし、この分野での既存の研究は、限られた基準や品質評価の側面のみを考慮する傾向にある。 このギャップを埋めるために,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるような汎用フレームワークを提案する。 特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。 私たちは、このアイデアを運用するために、実際のシナリオから3つのタスクを選択します。ペーパー導入、Pythonのコード記述、Redditのポスト書き込み、そして異なるLLMを使用してフィードバック生成フレームワークの評価です。 その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。

Humans follow criteria when they execute tasks, and these criteria are directly used to assess the quality of task completion. Therefore, having models learn to use criteria to provide feedback can help humans or models to perform tasks better. However, existing research in this field tends to consider only a limited set of criteria or quality assessment aspects. To fill this gap, we propose a general framework that enables large language models (LLMs) to use comprehensive criteria for a task in delivering natural language feedback on task execution. In particular, we present a model-in-the-loop framework that semi-automatically derives criteria from collected guidelines for different writing tasks and constructs in-context demonstrations for each criterion. We choose three tasks from real-world scenarios to operationalize this idea: paper introduction writing, Python code writing, and Reddit post writing, and evaluate our feedback generation framework using different LLMs. The results reveal the fine-grained effects of incorporating criteria and demonstrations and provide valuable insights on how to teach LLMs to use criteria more effectively.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-04
# ICC:マルチモーダルデータセットキュレーションのための画像キャプションコンクリートの定量化

ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation ( http://arxiv.org/abs/2403.01306v2 )

ライセンス: Link先を確認
Moran Yanuka, Morris Alper, Hadar Averbuch-Elor, Raja Giryes, (参考訳) ペア化されたテキストイメージデータに対するWebスケールのトレーニングは、ますますマルチモーダルな学習の中心になりつつある。 標準的なデータフィルタリングアプローチは、ミスマッチしたテキストイメージペアを削除することに成功しているが、セマンティックな関連性はあるものの、非常に抽象的で主観的なテキストを許可する。 これらのアプローチには、ノイズの多いデータセットで学習するための最も強力な信号を提供する最も具体的なサンプルを分離する、きめ細かい機能がない。 そこで本研究では,画像参照のない字幕テキストを評価可能な新しい指標である画像キャプション具体性を提案し,その具体性や関連性をマルチモーダル学習に用いた。 提案手法は,マルチモーダル表現における視覚的セマンティック情報損失を測定するために,強力な基礎モデルを利用する。 本研究は, 単語・文レベルの両文の具体性評価に強く関連していることを示す。 さらに、ICCを用いたキュレーションは、既存のアプローチを補完するものとして、マルチモーダルなWebスケールデータセットから高品質なサンプルを選択することに成功し、リソース制約のある設定での効率的なトレーニングを可能にした。

Web-scale training on paired text-image data is becoming increasingly central to multimodal learning, but is challenged by the highly noisy nature of datasets in the wild. Standard data filtering approaches succeed in removing mismatched text-image pairs, but permit semantically related but highly abstract or subjective text. These approaches lack the fine-grained ability to isolate the most concrete samples that provide the strongest signal for learning in a noisy dataset. In this work, we propose a new metric, image caption concreteness, that evaluates caption text without an image reference to measure its concreteness and relevancy for use in multimodal learning. Our approach leverages strong foundation models for measuring visual-semantic information loss in multimodal representations. We demonstrate that this strongly correlates with human evaluation of concreteness in both single-word and sentence-level texts. Moreover, we show that curation using ICC complements existing approaches: It succeeds in selecting the highest quality samples from multimodal web-scale datasets to allow for efficient training in resource-constrained settings.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# Wukong: 大規模レコメンデーションのスケーリング法を目指して

Wukong: Towards a Scaling Law for Large-Scale Recommendation ( http://arxiv.org/abs/2403.02545v4 )

ライセンス: Link先を確認
Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen, (参考訳) スケーリング法則はモデル品質の持続的な改善に重要な役割を果たしている。 残念ながら、現在のレコメンデーションモデルは、大規模な言語モデルのドメインで見られるような法則を示さない。 この制限は、これらのモデルをより複雑な現実世界のデータセットに適応させる上で大きな課題となる。 本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案し,推薦領域におけるスケーリング法則を確立する。 Wukongのユニークな設計により、より高層でより広い層を通して、多様な、あらゆる順序の相互作用をキャプチャできる。 我々は,6つの公開データセットに対して広範囲な評価を行い,その結果から,Wukongが常に最先端のモデルよりも品質的に優れていることを示した。 さらに、内部の大規模データセット上でのWukongのスケーラビリティを評価した。 その結果、Wukongは最先端のモデルよりも品質が優れている一方で、モデルの複雑さの2桁にわたるスケーリング法則を保ち、100 GFLOP/例を超えて、先行芸術が不足していることを示している。

Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 GFLOP/example, where prior arts fall short.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# マルチピラミド変換器とコントラスト学習を用いた顕微鏡デフォーカスデブロの統一化

A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive Learning ( http://arxiv.org/abs/2403.02611v3 )

ライセンス: Link先を確認
Yuelin Zhang, Pengyu Zheng, Wanquan Yan, Chengyu Fang, Shing Shin Cheng, (参考訳) Defocus blurは、顕微鏡画像における永続的な問題であり、細胞顕微鏡および顕微鏡手術における病理学的解釈と医学的介入に害を与える。 この問題に対処するため,マルチピラミド変換器 (MPT) と拡張周波数コントラスト正規化 (EFCR) を含む統合フレームワークを提案し,顕微鏡設計における2つの課題に対処する。 MPTは、ネットワークの各段階で明示的なピラミッド構造を採用しており、長距離の空間的相互作用とグローバルなチャネルコンテキストを捉えるために、CSWA、ISCA、FEFNといった機能強化フィードフォワードネットワークを統合している。 EFCRは、異なる周波数帯域からの潜時遅延信号を探索することで、データ不足の問題に対処する。 また、余分なデータからドメイン間の情報を学習し、ラベル付きおよびラベルなしデータの遅延性能を向上させることができる。 大規模な実験とダウンストリームタスク検証は、フレームワークが複数のデータセットにわたって最先端のパフォーマンスを達成することを示している。 プロジェクトページ: https://github.com/PieceZhang/MPT-CataBlur.com

Defocus blur is a persistent problem in microscope imaging that poses harm to pathology interpretation and medical intervention in cell microscopy and microscope surgery. To address this problem, a unified framework including the multi-pyramid transformer (MPT) and extended frequency contrastive regularization (EFCR) is proposed to tackle two outstanding challenges in microscopy deblur: longer attention span and data deficiency. The MPT employs an explicit pyramid structure at each network stage that integrates the cross-scale window attention (CSWA), the intra-scale channel attention (ISCA), and the feature-enhancing feed-forward network (FEFN) to capture long-range cross-scale spatial interaction and global channel context. The EFCR addresses the data deficiency problem by exploring latent deblur signals from different frequency bands. It also enables deblur knowledge transfer to learn cross-domain information from extra data, improving deblur performance for labeled and unlabeled data. Extensive experiments and downstream task validation show the framework achieves state-of-the-art performance across multiple datasets. Project page: https://github.com/PieceZhang/MPT-CataBlur.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 片側情報による状態制約ゼロサム差分ゲーム

State-Constrained Zero-Sum Differential Games with One-Sided Information ( http://arxiv.org/abs/2403.02741v2 )

ライセンス: Link先を確認
Mukesh Ghimire, Lei Zhang, Zhe Xu, Yi Ren, (参考訳) 状態制約のあるゼロサム差分ゲームと、情報提供者(プレイヤ1)が非インフォームドプレイヤー(プレイヤ2)に対してカテゴリ的なペイオフ型を未知とする一方的な情報について検討する。 プレイヤー1のゴールは、制限を犯さずに支払いを最小化することであり、プレイヤー2のゴールは、可能であれば国家の制約に違反したり、その他の場合の支払いを最大化することである。 試合の1つの例は、サッカーにおける対人試合である。 国家の制約がなければ、カーデリアゲット (2007) はそのようなゲームの価値が存在しており、プレイヤーの共通の信念と接していることを示した。 我々の理論的貢献は、状態制約のあるゲームに対するこの結果の拡張であり、行動戦略の計算に必要な原始的および双対的準力学原理の導出である。 離散力学を持つゲームにおける非回帰学習のスケーラビリティに関する既存の研究と異なり、情報非対称性と状態制約から生じる信念操作のための戦略の基盤構造を明らかにする。 この構造は、継続的なアクションと長時間のウィンドウを持つゲームにおいて、スケーラブルな学習のために必要となる。 そこでは,攻撃者が情報非対称性を活かすために,特定のランダムな詐欺行為をすべき(あるいはすべきでない)プレイヤーの位置と信念状態を明らかにし,ディフェンダーがどう対応すべきかを計算する。

We study zero-sum differential games with state constraints and one-sided information, where the informed player (Player 1) has a categorical payoff type unknown to the uninformed player (Player 2). The goal of Player 1 is to minimize his payoff without violating the constraints, while that of Player 2 is to violate the state constraints if possible, or to maximize the payoff otherwise. One example of the game is a man-to-man matchup in football. Without state constraints, Cardaliaguet (2007) showed that the value of such a game exists and is convex to the common belief of players. Our theoretical contribution is an extension of this result to games with state constraints and the derivation of the primal and dual subdynamic principles necessary for computing behavioral strategies. Different from existing works that are concerned about the scalability of no-regret learning in games with discrete dynamics, our study reveals the underlying structure of strategies for belief manipulation resulting from information asymmetry and state constraints. This structure will be necessary for scalable learning on games with continuous actions and long time windows. We use a simplified football game to demonstrate the utility of this work, where we reveal player positions and belief states in which the attacker should (or should not) play specific random deceptive moves to take advantage of information asymmetry, and compute how the defender should respond.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# ENOT:ニューラル・オプティカル・トランスポートの高速かつ高精度トレーニングのための予備正則化

ENOT: Expectile Regularization for Fast and Accurate Training of Neural Optimal Transport ( http://arxiv.org/abs/2403.03777v2 )

ライセンス: Link先を確認
Nazar Buzun, Maksim Bobrin, Dmitry V. Dylov, (参考訳) 本稿では,2つのカントロビッチポテンシャルの特定正規化による最適輸送計画の正確かつ効率的に推定が可能なニューラル最適輸送(NOT)訓練手法を提案する。 既存のNOTソルバの主なボトルネックは、共役作用素(すなわちc-変換)の近似を、非凸最大値の目的を最適化するか、あるいは初期近似予測を計算的に集中的に微調整することによって行う手順に関連付けられている。 両問題を、二重ポテンシャルの学習過程における結合条件を強制する期待正規化という形で、理論上正当化された新たな損失を提案することによって解決する。 このような正規化は、可能な共役ポテンシャルの分布に関する上限推定を提供し、学習を安定にし、追加の広範囲な微調整の必要性を完全に排除する。 expectedile-Regularized Neural Optimal Transport (ENOT)と呼ばれる提案された手法は、確立されたWasserstein-2ベンチマークタスクにおける従来の最先端のアプローチを、大きなマージン(最大3倍の品質改善と10倍のランタイム改善)で上回っている。 さらに、画像生成などの様々なタスクにおけるコスト関数の変動に対するENOTの性能を示すとともに、提案アルゴリズムの堅牢性を示す。

We present a new approach for Neural Optimal Transport (NOT) training procedure, capable of accurately and efficiently estimating optimal transportation plan via specific regularization on dual Kantorovich potentials. The main bottleneck of existing NOT solvers is associated with the procedure of finding a near-exact approximation of the conjugate operator (i.e., the c-transform), which is done either by optimizing over non-convex max-min objectives or by the computationally intensive fine-tuning of the initial approximated prediction. We resolve both issues by proposing a new, theoretically justified loss in the form of expectile regularisation which enforces binding conditions on the learning process of dual potentials. Such a regularization provides the upper bound estimation over the distribution of possible conjugate potentials and makes the learning stable, completely eliminating the need for additional extensive fine-tuning. Proposed method, called Expectile-Regularised Neural Optimal Transport (ENOT), outperforms previous state-of-the-art approaches on the established Wasserstein-2 benchmark tasks by a large margin (up to a 3-fold improvement in quality and up to a 10-fold improvement in runtime). Moreover, we showcase performance of ENOT for varying cost functions on different tasks such as image generation, showing robustness of proposed algorithm.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 自己回帰表現学習の認知

Denoising Autoregressive Representation Learning ( http://arxiv.org/abs/2403.05196v2 )

ライセンス: Link先を確認
Yazhe Li, Jorg Bornschein, Ting Chen, (参考訳) 本稿では,視覚表現を学習するための新しい生成的アプローチについて検討する。 DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。 Mean Squared Error (MSE) によるトレーニングだけでも,強い表現につながることが分かっています。 画像生成能力を向上するため、デノナイジングパッチデコーダを用いてMSE損失を拡散目標に置き換える。 提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。 特に、最適なスケジュールは、標準画像拡散モデルで使用される典型的なスケジュールと大きく異なる。 全体としては、単純なアーキテクチャにもかかわらず、DARLは微調整プロトコルの下で、最先端のマスク付き予測モデルに非常に近いパフォーマンスを提供する。 このことは、視覚知覚と生成の両方が可能な統一モデルへの重要なステップであり、自己回帰的および認知的拡散モデルの強みを効果的に組み合わせている。

In this paper, we explore a new generative approach for learning visual representations. Our method, DARL, employs a decoder-only Transformer to predict image patches autoregressively. We find that training with Mean Squared Error (MSE) alone leads to strong representations. To enhance the image generation ability, we replace the MSE loss with the diffusion objective by using a denoising patch decoder. We show that the learned representation can be improved by using tailored noise schedules and longer training in larger models. Notably, the optimal schedule differs significantly from the typical ones used in standard image diffusion models. Overall, despite its simple architecture, DARL delivers performance remarkably close to state-of-the-art masked prediction models under the fine-tuning protocol. This marks an important step towards a unified model capable of both visual perception and generation, effectively combining the strengths of autoregressive and denoising diffusion models.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# コンパイルされたXORゲームと$d$-outcome CHSHゲームに対する量子境界

Quantum bounds for compiled XOR games and $d$-outcome CHSH games ( http://arxiv.org/abs/2403.05502v2 )

ライセンス: Link先を確認
Matilde Baroni, Quoc-Huy Vu, Boris Bourdoncle, Eleni Diamanti, Damian Markham, Ivan Šupić, (参考訳) 非局所ゲームは量子情報理論において重要な役割を担い、認証や暗号プロトコルに多くの応用がある。 Kalai et al (STOC 2023) は、量子同型暗号スキームを用いて、非局所的なゲームを単一プロデューサの対話的証明にコンパイルする手順を導入し、それらのコンパイル方法がゲームの古典的境界を保存することを示した。 Natarajan and Zhang (FOCS 2023) はCHSHゲームの特定のケースに対して量子境界が保存されていることを示した。 ナタラジャンと張の証明手法を拡張して、カライらによるコンパイル手順は、XORゲームとd-outcome CHSHゲームという2種類のゲームの量子境界を保存することを示す。 また、任意の量子ビット測度に対して、その最適な勝利確率が特定の測度対の自己テストとなるような XOR ゲームが存在することも確認した。

Nonlocal games play a crucial role in quantum information theory and have numerous applications in certification and cryptographic protocols. Kalai et al. (STOC 2023) introduced a procedure to compile a nonlocal game into a single-prover interactive proof, using a quantum homomorphic encryption scheme, and showed that their compilation method preserves the classical bound of the game. Natarajan and Zhang (FOCS 2023) then showed that the quantum bound is preserved for the specific case of the CHSH game. Extending the proof techniques of Natarajan and Zhang, we show that the compilation procedure of Kalai et al. preserves the quantum bound for two classes of games: XOR games and d-outcome CHSH games. We also establish that, for any pair of qubit measurements, there exists an XOR game such that its optimal winning probability serves as a self-test for that particular pair of measurements.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 人間とLLMにおける視覚オブジェクトの命名・記述・定量化

Naming, Describing, and Quantifying Visual Objects in Humans and LLMs ( http://arxiv.org/abs/2403.06935v3 )

ライセンス: Link先を確認
Alberto Testoni, Juell Sprott, Sandro Pezzelle, (参考訳) 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のビジョン&言語大言語モデル(VLLM)がこの言語使用の重要な特徴を模倣できる範囲は、オープンな疑問である。 これは一般的な日常的な対象に当てはまるが、カテゴリーラベルが欠落したりファジィになるような、珍しい、あるいは新しい対象には特に興味深い。 さらに、人間の話者の間では「fw」や「most」といった、文脈に敏感な表現のための類似した変化パターンが観察されている。 本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて, 可塑性ラベル上の分布に関する大きな主観的変動を示す。 いくつかのモデルでは、名詞や属性の人間の分布を模倣するのが得意であるが、これらは全て、より正確で高レベルの推論を必要とするタスクである量化子を割り当てることに失敗している。

While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision & Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, similar patterns of variation are observed among human speakers for highly context-sensitive expressions, such as the quantifiers 'few' or 'most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences at generation time: while some models are good at mimicking human distributions for nouns and attributes, all of them fail to assign quantifiers, a task that requires more accurate, high-level reasoning.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# COMQ:ポストトレーニング量子化のためのバックプロパゲーションフリーアルゴリズム

COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization ( http://arxiv.org/abs/2403.07134v2 )

ライセンス: Link先を確認
Aozhong Zhang, Zi Yang, Naigang Wang, Yingyong Qin, Jack Xin, Xin Li, Penghang Yin, (参考訳) トレーニング後の量子化(PTQ)は、大規模なニューラルネットワークを圧縮する実践的なアプローチとして現れ、デプロイに非常に効率的である。 しかし、これらのモデルを元の精度を損なうことなく、効果的にロービットのモデルに還元することは重要な課題である。 本稿では,階層的再構成誤りの座標最小化を逐次行う,COMQと呼ばれる革新的なPTQアルゴリズムを提案する。 広く使われている整数量子化では、全ての量子化重量を共有浮動小数点スカラーと整数ビットコードに分解することができる。 固定層内では、COMQはすべてのスケーリング係数とビットコードを再構成エラーの変数として扱います。 各イテレーションは、このエラーを1つの座標に沿って改善し、他のすべての変数を一定に保つ。 COMQは使いやすく、ハイパーパラメータチューニングを必要としない。 ドット製品と丸め操作のみを対象とする。 我々はこれらの変数を慎重に設計したグリード順に更新し、精度を大幅に向上させる。 COMQは、4ビットのVision Transformerを量子化し、Top-1の精度で1%未満の損失を無視できる。 畳み込みニューラルネットワークの4ビットINT量子化では、COMQはTop-1の精度がわずか0.3%の最小値で、ほぼロスレスの精度を維持している。

Post-training quantization (PTQ) has emerged as a practical approach to compress large neural networks, making them highly efficient for deployment. However, effectively reducing these models to their low-bit counterparts without compromising the original accuracy remains a key challenge. In this paper, we propose an innovative PTQ algorithm termed COMQ, which sequentially conducts coordinate-wise minimization of the layer-wise reconstruction errors. We consider the widely used integer quantization, where every quantized weight can be decomposed into a shared floating-point scalar and an integer bit-code. Within a fixed layer, COMQ treats all the scaling factor(s) and bit-codes as the variables of the reconstruction error. Every iteration improves this error along a single coordinate while keeping all other variables constant. COMQ is easy to use and requires no hyper-parameter tuning. It instead involves only dot products and rounding operations. We update these variables in a carefully designed greedy order, significantly enhancing the accuracy. COMQ achieves remarkable results in quantizing 4-bit Vision Transformers, with a negligible loss of less than 1% in Top-1 accuracy. In 4-bit INT quantization of convolutional neural networks, COMQ maintains near-lossless accuracy with a minimal drop of merely 0.3% in Top-1 accuracy.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 非線形薄膜における光子対生成

Entangled Photon-pair Generation in Nonlinear Thin-films ( http://arxiv.org/abs/2403.08633v2 )

ライセンス: Link先を確認
Elkin A. Santos, Maximilian A. Weissflog, Thomas Pertsch, Frank Setzpfandt, Sina Saravi, (参考訳) 非線形薄膜における自発パラメトリックダウンコンバージョンを記述するために, 完全ベクトルおよび非パラ軸形式を開発した。 この形式主義は、スラブをサブ波長の厚さで処理し、関連するファブリ・ペロト効果を記述し、吸収性非線形材料も扱うことができる。 この定式化により、非線形薄膜における光子対生成のダイナミックスを詳細に研究し、近年光子対の源として多くの実験的関心を集めているシステムに対して、必要な理論的理解を提供する。 重要な例として,Zinc-Blende構造を有する高屈折率非線形薄膜から生成する光子対の遠磁場放射特性について検討した。 特に,Fabry-P'erot干渉の厚さ依存性が光子対の遠方界放射パターンに及ぼす影響について検討した。 また, エンタングルメント生成の研究にも注意を払っており, このような非線形薄膜において, 最大偏光対を生成・検出できる条件を見出した。

We develop a fully vectorial and non-paraxial formalism to describe spontaneous parametric down-conversion in nonlinear thin films. The formalism is capable of treating slabs with a sub-wavelength thickness, describe the associated Fabry-P\'erot effects, and even treat absorptive nonlinear materials. With this formalism, we perform an in-depth study of the dynamics of entangled photon-pair generation in nonlinear thin films, to provide a needed theoretical understanding for such systems that have recently attracted much experimental attention as sources of photon pairs. As an important example, we study the far-field radiation properties of photon pairs generated from a high-refractive-index nonlinear thin-film with Zinc-Blende structure, that is deposited on a linear low-refractive-index substrate. In particular, we study the thickness-dependent effect of Fabry-P\'erot interferences on the far-field radiation pattern of the photon pairs. We also pay special attention to study of entanglement generation, and find the conditions under which maximally polarization-entangled photon pairs can be generated and detected in such nonlinear thin-films.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# Deep Limit Order Book Forecasting

Deep Limit Order Book Forecasting ( http://arxiv.org/abs/2403.09267v4 )

ライセンス: Link先を確認
Antonio Briola, Silvia Bartolucci, Tomaso Aste, (参考訳) 我々は最先端の深層学習手法を利用してNASDAQ取引所で取引された異種株の高頻度リミットオーダーブックの中間価格変動の予測可能性を探る。 そこで我々は,大規模リミットオーダーブックデータを効率的に処理し,最先端のディープラーニングモデルの予測能力を定量的に評価するオープンソースコードベースである 'LOBFrame' をリリースする。 私たちの結果は2倍です。 本研究は,株の微細構造特性が深層学習の有効性に影響を及ぼし,その高い予測能力が必ずしも実行可能な取引信号に対応していないことを実証する。 従来の機械学習のメトリクスは、リミットオーダーブックのコンテキストにおける予測の質を適切に評価できない。 代替として、完全トランザクションを正確に予測する確率に着目して、予測の実用性を評価する革新的な運用フレームワークを提案する。 この研究は、深層学習技術の応用、その範囲と限界について情報的かつ堅牢な決定を行うための、学者や実践者に道のりを与え、限界秩序書の創発的な統計的性質を効果的に活用する。

We exploit cutting-edge deep learning methodologies to explore the predictability of high-frequency Limit Order Book mid-price changes for a heterogeneous set of stocks traded on the NASDAQ exchange. In so doing, we release `LOBFrame', an open-source code base to efficiently process large-scale Limit Order Book data and quantitatively assess state-of-the-art deep learning models' forecasting capabilities. Our results are twofold. We demonstrate that the stocks' microstructural characteristics influence the efficacy of deep learning methods and that their high forecasting power does not necessarily correspond to actionable trading signals. We argue that traditional machine learning metrics fail to adequately assess the quality of forecasts in the Limit Order Book context. As an alternative, we propose an innovative operational framework that evaluates predictions' practicality by focusing on the probability of accurately forecasting complete transactions. This work offers academics and practitioners an avenue to make informed and robust decisions on the application of deep learning techniques, their scope and limitations, effectively exploiting emergent statistical properties of the Limit Order Book.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 信頼より2倍早く考える: 包括的回答反射による大規模言語モデルの自己検出

Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection ( http://arxiv.org/abs/2403.09972v2 )

ライセンス: Link先を確認
Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua, (参考訳) 大規模言語モデルのための自己検出(LLM)は、LLMの能力を活用し、出力幻覚の問題を緩和し、LCMの出力信頼性を評価する。 しかし、既存の自己検出アプローチは、LLMが生み出した回答を振り返ってのみ評価する。 この制限に対処するために,LLM生成解を超える包括的解答空間を考慮した新たな自己検出パラダイムを提案する。 複数の候補回答の信頼性を徹底的に比較し、LLM生成の不正確な回答における過剰信頼を軽減する。 このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補回答の正当性を反映させ、それから総合的な目標回答評価のための正当性を集約するように指示する。 このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。 3つのタスクにまたがる6つのデータセットに関する大規模な実験は、提案フレームワークの有効性を実証している。

Self-detection for Large Language Model (LLM) seeks to evaluate the LLM output trustability by leveraging LLM's own capabilities, alleviating the output hallucination issue. However, existing self-detection approaches only retrospectively evaluate answers generated by LLM, typically leading to the over-trust in incorrectly generated answers. To tackle this limitation, we propose a novel self-detection paradigm that considers the comprehensive answer space beyond LLM-generated answers. It thoroughly compares the trustability of multiple candidate answers to mitigate the over-trust in LLM-generated incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each candidate answer, and then aggregates the justifications for comprehensive target answer evaluation. This framework can be seamlessly integrated with existing approaches for superior self-detection. Extensive experiments on six datasets spanning three tasks demonstrate the effectiveness of the proposed framework.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# Repoformer: Repository-Levelコード補完のための選択的な検索

Repoformer: Selective Retrieval for Repository-Level Code Completion ( http://arxiv.org/abs/2403.10059v2 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Dejiao Zhang, Murali Krishna Ramanathan, Xiaofei Ma, (参考訳) 検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。 しかし、既存の手法における検索の不変な使用は、効率性と堅牢性の両方の問題を明らかにし、検索されたコンテキストの大部分が、コード言語モデル(コードLM)に有害または有害であることを示す。 本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。 このフレームワークを活用するために、コードLMが、検索が出力品質を向上させることができるかどうかを正確に自己評価し、潜在的にノイズの多い検索コンテキストをしっかりと活用できるように、自己教師付き学習アプローチを設計する。 このLMを選択的RAGポリシと生成モデルの両方として使用することにより,RepoEval,CrossCodeEval,CrossCodeLongEvalなど,さまざまなベンチマーク上で,最先端のリポジトリレベルのコード補完性能を実現する。 一方、分析の結果、オンラインサービス環境では、パフォーマンスを損なうことなく、最大70%の推論スピードアップが得られることがわかった。 さらに、我々のフレームワークは、異なる世代モデル、検索者、プログラミング言語に対応可能であることを実証する。 これらの進歩は、より正確で効率的なリポジトリレベルのコード補完に向けた重要なステップとして、私たちのフレームワークを位置づけています。

Recent advances in retrieval-augmented generation (RAG) have initiated a new era in repository-level code completion. However, the invariable use of retrieval in existing methods exposes issues in both efficiency and robustness, with a large proportion of the retrieved contexts proving unhelpful or harmful to code language models (code LMs). In this paper, we propose a selective RAG framework to avoid retrieval when unnecessary. To power this framework, we design a self-supervised learning approach to enable a code LM to accurately self-evaluate whether retrieval can improve its output quality and robustly leverage the potentially noisy retrieved contexts. Using this LM as both the selective RAG policy and the generation model, our framework achieves state-of-the-art repository-level code completion performance on diverse benchmarks including RepoEval, CrossCodeEval, and CrossCodeLongEval, a new long-form code completion benchmark. Meanwhile, our analyses show that selectively retrieving brings as much as 70% inference speedup in the online serving setting without harming the performance. We further demonstrate that our framework is able to accommodate different generation models, retrievers, and programming languages. These advancements position our framework as an important step towards more accurate and efficient repository-level code completion.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# スピンの動的平均場理論によるNMR信号の微視的理解

Microscopic understanding of NMR signals by dynamic mean-field theory for spins ( http://arxiv.org/abs/2403.10465v2 )

ライセンス: Link先を確認
Timo Gräßer, Thomas Hahn, Götz S. Uhrig, (参考訳) 最近開発された不規則スピン(spinDMFT)の動的平均場理論は、核スピンのスピンダイナミクスをうまく捉えている。 主要な量はスピン自己相関である。 自由帰納減衰 (FID) を計算するためには, 対相関も必要である。 これらは、スピンDMFTによって第1ステップで決定された動的平均場に結合された中程度の大きさのスピンクラスター上で計算することができる。 非局所スピンDMFT (nl-spinDMFT) を用いた。 Nl-spinDMFTの特定の資産であり、FIDステムへの寄与がどこから来ているかを知っている。 本研究では,CaF$_2$の実験データと比較し,nl-spinDMFTの強度について述べる。 さらに、スピンDMFTは、アダマンタンにおける$^{13}$Cの核スピンのFIDをいくつかの静的ノイズまで説明する動的平均場を提供する。 アダマンタンのスピンハーンエコーは静音の影響を受けず、さらに適合することなくスピンDMFT結果と良好に一致する。

A recently developed dynamic mean-field theory for disordered spins (spinDMFT) is shown to capture the spin dynamics of nuclear spins very well. The key quantities are the spin autocorrelations. In order to compute the free induction decay (FID), pair correlations are needed in addition. They can be computed on spin clusters of moderate size which are coupled to the dynamic mean fields determined in a first step by spinDMFT. We dub this versatile approach non-local spinDMFT (nl-spinDMFT). It is a particular asset of nl-spinDMFT that one knows from where the contributions to the FID stem. We illustrate the strengths of nl-spinDMFT in comparison to experimental data for CaF$_2$. Furthermore, spinDMFT provides the dynamic mean fields explaining the FID of the nuclear spins of $^{13}$C in adamantane up to some static noise. The spin Hahn echo in adamantane is free from effects of static noise and agrees excellently with the spinDMFT results without further fitting.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# 基礎モデルを用いたセマンティックセグメンテーションのための能動ラベル補正

Active Label Correction for Semantic Segmentation with Foundation Models ( http://arxiv.org/abs/2403.10820v2 )

ライセンス: Link先を確認
Hoyoung Kim, Sehyun Hwang, Suha Kwak, Jungseul Ok, (参考訳) セマンティックセグメンテーションのためのモデルのトレーニングと検証には、ピクセル単位のアノテーションを持つデータセットが必要である。 ファンデーションモデルやクラウドソースデータセットなどの有用な事前情報は利用可能だが、エラーが発生しやすい。 そこで我々は,画素の擬似ラベルを補正するための補正クエリの設計に基づいて,能動的ラベル補正(ALC)の有効なフレームワークを提案する。 具体的には、擬似ラベルとスーパーピクセルに有用なゼロショット予測を提供する基礎モデルを活用し、本手法は2つの重要な手法からなる。 一 擬似ラベルによる訂正クエリの注釈に親しみやすい設計、及び (ii)スーパーピクセルに基づくラベル展開を目指す取得関数。 PASCAL,Cityscapes,Kvasir-SEGデータセットによる実験結果から,ALCフレームワークの有効性が示された。 特に,本手法を用いて,PASCALデータセット中の260万画素の誤りを補正し,PASCALの修正データセットを得た。

Training and validating models for semantic segmentation require datasets with pixel-wise annotations, which are notoriously labor-intensive. Although useful priors such as foundation models or crowdsourced datasets are available, they are error-prone. We hence propose an effective framework of active label correction (ALC) based on a design of correction query to rectify pseudo labels of pixels, which in turn is more annotator-friendly than the standard one inquiring to classify a pixel directly according to our theoretical analysis and user study. Specifically, leveraging foundation models providing useful zero-shot predictions on pseudo labels and superpixels, our method comprises two key techniques: (i) an annotator-friendly design of correction query with the pseudo labels, and (ii) an acquisition function looking ahead label expansions based on the superpixels. Experimental results on PASCAL, Cityscapes, and Kvasir-SEG datasets demonstrate the effectiveness of our ALC framework, outperforming prior methods for active semantic segmentation and label correction. Notably, utilizing our method, we obtained a revised dataset of PASCAL by rectifying errors in 2.6 million pixels in PASCAL dataset.
翻訳日:2024-06-06 12:28:47 公開日:2024-06-04
# CantonMT: 合成バックトランスレーションデータを用いた微調整モデルによる英語NMTプラットフォーム

CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data ( http://arxiv.org/abs/2403.11346v2 )

ライセンス: Link先を確認
Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic, (参考訳) 低リソース言語のためのニューラルマシン翻訳(NMT)は、NLP研究者の前ではまだ難しい課題である。 そこで本研究では,Cantonese-to- English への逆翻訳による標準データ拡張手法を新たに導入する。 実データの限られた量を用いて微調整したモデルと,OpusMT,NLLB,mBARTを含むバックトランスレーションを用いて生成した合成データについて述べる。 語彙ベースや埋め込みベースなど,さまざまな指標を用いて自動評価を行った。 さらに。 私たちは this\textsc{ CantonMT} 研究プロジェクトに含まれるモデルのユーザフレンドリなインターフェースを作成し、Cantonese-to- English MT 研究を促進するために利用します。 このプラットフォームには、オープンソースの\textsc{ CantonMT}ツールキットである \url{https://github.com/kenrickkung/CantoneseTranslation} を通じて、より多くのモデルを追加できます。

Neural Machine Translation (NMT) for low-resource languages is still a challenging task in front of NLP researchers. In this work, we deploy a standard data augmentation methodology by back-translation to a new language translation direction Cantonese-to-English. We present the models we fine-tuned using the limited amount of real data and the synthetic data we generated using back-translation including OpusMT, NLLB, and mBART. We carried out automatic evaluation using a range of different metrics including lexical-based and embedding-based. Furthermore. we create a user-friendly interface for the models we included in this\textsc{ CantonMT} research project and make it available to facilitate Cantonese-to-English MT research. Researchers can add more models into this platform via our open-source\textsc{ CantonMT} toolkit \url{https://github.com/kenrickkung/CantoneseTranslation}.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 非滑らかなインシシデント差:決定論的および確率的収束率

Nonsmooth Implicit Differentiation: Deterministic and Stochastic Convergence Rates ( http://arxiv.org/abs/2403.11687v3 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo, (参考訳) パラメトリックな非微分可縮写像の固定点の微分を効率よく計算する問題について検討する。 この問題は、ハイパーパラメータ最適化、メタラーニング、データ中毒攻撃など、機械学習に広く応用されている。 我々は,反復的分化 (ITD) と近似的暗黙的分化 (AID) の2つの一般的なアプローチを分析した。 非滑らかな設定の鍵となる課題は、チェーンルールがもはや保たないことだ。 我々はBolte et al (2022) の業績に基づいて、リプシッツのスムーズな仮定の下で非滑らかな ITD の線型収束を証明した。 決定論的な場合、AIDの線形レートとITDの線形レートを改良し、スムーズな設定でそれらと密に一致させる。 さらに、縮尺写像が外部マップの合成として定義されるとき、暗黙の微分を計算するための新しい確率的手法NSIDと、確率的不偏推定器を通してのみアクセス可能な内マップを紹介する。 我々はNSIDの収束率を確立し、スムーズな環境での最良の利用率を含む。 また,本分析の実証実験を行った。

We study the problem of efficiently computing the derivative of the fixed-point of a parametric nondifferentiable contraction map. This problem has wide applications in machine learning, including hyperparameter optimization, meta-learning and data poisoning attacks. We analyze two popular approaches: iterative differentiation (ITD) and approximate implicit differentiation (AID). A key challenge behind the nonsmooth setting is that the chain rule does not hold anymore. We build upon the work by Bolte et al. (2022), who prove linear convergence of nonsmooth ITD under a piecewise Lipschitz smooth assumption. In the deterministic case, we provide a linear rate for AID and an improved linear rate for ITD which closely match the ones for the smooth setting. We further introduce NSID, a new stochastic method to compute the implicit derivative when the contraction map is defined as the composition of an outer map and an inner map which is accessible only through a stochastic unbiased estimator. We establish rates for the convergence of NSID, encompassing the best available rates in the smooth setting. We also present illustrative experiments confirming our analysis.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 決定論的に生成されたフォトニックグラフ状態の融合

Fusion of deterministically generated photonic graph states ( http://arxiv.org/abs/2403.11950v2 )

ライセンス: Link先を確認
Philip Thomas, Leonardo Ruscio, Olivier Morin, Gerhard Rempe, (参考訳) 絡み合いは、量子物理学の謎的な概念から、量子技術の鍵となる要素へと進化してきた。 これは古典物理学と矛盾する測定結果の相関を説明し、個々の量子ビットの小さな集合で広く研究されてきた。 ゲートベースの量子計算プロトコルで構築されたマルチパーティの絡み合った状態と、より広い視点から見れば$\unicode{x2013}$が、測定ベースの量子情報処理の主資源として提案された。 後者は、グラフによって記述された多ビットの絡み合った状態の元アンテ生成を必要とする。 ベル状態や線形クラスタ状態のような小さなグラフ状態は光子で生成されているが、提案された量子コンピューティングと量子ネットワークアプリケーションでは、プログラム可能な方法でそのような状態がより大きくより強力な状態に融合する必要がある。 ここでは、2つの個別に対応可能な原子を含む光共振器を用いることで、この目標を達成する。 最大8キュービットのリングおよびツリーグラフ状態は、絡み合いトポロジーを反映した名前であり、個々の原子によって放出されるフォトニック状態から効率的に融合する。 融合過程自体は、2つの原子の間に空洞補助ゲートを用いる。 我々の技術は原則として、より多くの量子ビットに対してスケーラブルであり、例えば将来の量子インターネットにおけるメモリレス量子リピータへの決定的なステップである。

Entanglement has evolved from an enigmatic concept of quantum physics to a key ingredient of quantum technology. It explains correlations between measurement outcomes that contradict classical physics, and has been widely explored with small sets of individual qubits. Multi-partite entangled states build up in gate-based quantum-computing protocols, and $\unicode{x2013}$ from a broader perspective $\unicode{x2013}$ were proposed as the main resource for measurement-based quantum-information processing. The latter requires the ex-ante generation of a multi-qubit entangled state described by a graph. Small graph states such as Bell or linear cluster states have been produced with photons, but the proposed quantum computing and quantum networking applications require fusion of such states into larger and more powerful states in a programmable fashion. Here we achieve this goal by employing an optical resonator containing two individually addressable atoms. Ring and tree graph states with up to eight qubits, with the names reflecting the entanglement topology, are efficiently fused from the photonic states emitted by the individual atoms. The fusion process itself employs a cavity-assisted gate between the two atoms. Our technique is in principle scalable to even larger numbers of qubits, and is the decisive step towards, for instance, a memory-less quantum repeater in a future quantum internet.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# エントロピーに基づくテキスト透かし検出法

An Entropy-based Text Watermarking Detection Method ( http://arxiv.org/abs/2403.13485v3 )

ライセンス: Link先を確認
Yijian Lu, Aiwei Liu, Dianzhi Yu, Jingjing Li, Irwin King, (参考訳) 現在、大規模言語モデル(LLM)用のテキスト透かしアルゴリズムは、LLMが生成したテキストに隠れた特徴を埋め込んで、後続の検出を容易にするため、LLMの誤用の問題を軽減することができる。 現在のテキスト透かしアルゴリズムは、ほとんどの高エントロピーシナリオでよく機能するが、低エントロピーシナリオでの性能は改善する必要がある。 本研究では, 透かし検出過程において, トークンエントロピーの影響を十分に考慮し, 透かし検出時のトークンの重量を, 従来の方法と同じ値に設定するのではなく, そのエントロピーに応じてカスタマイズすることが提案された。 具体的には,エントロピーに基づくテキスト透かし検出(EWD)を提案し,高いエントロピートークンが透かし検出時の重みを高くし,透かしの程度をよりよく反映する。 さらに、提案する検出プロセスは、トレーニング不要で、完全に自動化されている。 実験の結果,低エントロピーのシナリオでは検出性能が向上し,また,異なるエントロピー分布を持つテキストにも適用可能であることがわかった。 我々のコードとデータは \url{https://github.com/luyijian3/EWD} で利用可能です。 さらに、我々のアルゴリズムはMarkLLM\url{https://github.com/THU-BPM/MarkLLM}を通じてアクセスすることができる。

Currently, text watermarking algorithms for large language models (LLMs) can embed hidden features to texts generated by LLMs to facilitate subsequent detection, thus alleviating the problem of misuse of LLMs. Although the current text watermarking algorithms perform well in most high-entropy scenarios, its performance in low-entropy scenarios still needs to be improved. In this work, we proposed that the influence of token entropy should be fully considered in the watermark detection process, that is, the weight of each token during watermark detection should be customized according to its entropy, rather than setting the weights of all tokens to the same value as in previous methods. Specifically, we proposed an Entropy-based Text Watermark Detection (EWD) that gives higher-entropy tokens higher influence weights during watermark detection, so as to better reflect the degree of watermarking. Furthermore, the proposed detection process is training-free and fully automated. In the experiment, we found that our method can achieve better detection performance in low-entropy scenarios, and our method is also general and can be applied to texts with different entropy distributions. Our code and data is available on \url{https://github.com/luyijian3/EWD}. Additionally, our algorithm could be accessed through MarkLLM\url{https://github.com/THU-BPM/MarkLLM}.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# ChebMixer: MLP Mixerによる効率的なグラフ表現学習

ChebMixer: Efficient Graph Representation Learning with MLP Mixer ( http://arxiv.org/abs/2403.16358v2 )

ライセンス: Link先を確認
Xiaoyan Kui, Haonan Yan, Qinsong Li, Liming Chen, Beiji Zou, (参考訳) グラフニューラルネットワークはグラフ表現、特にグラフトランスフォーマーの学習において顕著な成功を収めている。 しかし、グラフ変換器は一般的にノードをトークンとして扱い、自己アテンション計算のノード数に関して二次的な複雑さをもたらす。 グラフ MLP Mixer はコンピュータビジョンからの効率的な MLP Mixer 技術を用いてこの問題に対処する。 しかし、グラフトークンを抽出する時間を要するプロセスは、その性能を制限している。 本稿では,ChebMixerという新しいアーキテクチャを提案する。ChebMixerは高速なChebyshev多項式を用いたスペクトルフィルタを用いてトークン列を抽出する新しいグラフMLPミキサーである。 まず,高速なチェビシェフ多項式に基づくスペクトルフィルタリングにより,グラフノードのマルチスケール表現を生成する。 次に,各ノードのマルチスケール表現をトークン列とみなし,有効なMLPミキサーを用いてノード表現を洗練する。 最後に、チェビシェフ補間を通してノードのマルチスケール表現を集約する。 MLP Mixerの強力な表現能力と高速な計算特性により、より情報性の高いノード表現を素早く抽出し、下流タスクの性能を向上させることができる。 実験の結果,グラフノード分類から医用画像セグメント化まで,さまざまなシナリオにおいて大きな改善が見られた。

Graph neural networks have achieved remarkable success in learning graph representations, especially graph Transformer, which has recently shown superior performance on various graph mining tasks. However, graph Transformer generally treats nodes as tokens, which results in quadratic complexity regarding the number of nodes during self-attention computation. The graph MLP Mixer addresses this challenge by using the efficient MLP Mixer technique from computer vision. However, the time-consuming process of extracting graph tokens limits its performance. In this paper, we present a novel architecture named ChebMixer, a newly graph MLP Mixer that uses fast Chebyshev polynomials-based spectral filtering to extract a sequence of tokens. Firstly, we produce multiscale representations of graph nodes via fast Chebyshev polynomial-based spectral filtering. Next, we consider each node's multiscale representations as a sequence of tokens and refine the node representation with an effective MLP Mixer. Finally, we aggregate the multiscale representations of nodes through Chebyshev interpolation. Owing to the powerful representation capabilities and fast computational properties of MLP Mixer, we can quickly extract more informative node representations to improve the performance of downstream tasks. The experimental results prove our significant improvements in a variety of scenarios ranging from graph node classification to medical image segmentation.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# データポジショニング攻撃時の数値属性に対するLPPプロトコルのロバスト性について

On the Robustness of LDP Protocols for Numerical Attributes under Data Poisoning Attacks ( http://arxiv.org/abs/2403.19510v2 )

ライセンス: Link先を確認
Xiaoguang Li, Zitao Li, Ninghui Li, Wenhai Sun, (参考訳) 近年の研究では、LDP(ローカルディファレンシャルプライバシ)プロトコルは、LDPの特性を活用して、少数の制御されたローカルクライアントから慎重にデータを送信することで、攻撃者がサーバ上で最終的な見積を操作できるデータ中毒攻撃に対して脆弱であることが示されている。 この脆弱性は、敵対的環境におけるLDPの堅牢性と信頼性に関する懸念を引き起こす。 本稿では,数値特性,すなわち分類周波数オーラクル(CFO)の結合と整合性,分布再構成に対する最新式LDPプロトコルの堅牢性について,系統的に検討する。 攻撃駆動方式を用いてプロトコルのロバスト性を評価し,クロスプロトコール攻撃ゲイン測定のための新しい指標を提案する。 その結果,サーバ設定におけるSquare WaveとCFOベースのプロトコルは,ユーザ設定におけるCFOベースのプロトコルと比較して,攻撃に対してより堅牢であることが示唆された。 また, LDP のセキュリティと設計選択の新たな関連性についても検討した。 ローカルハッシュベースのLDPにおけるハッシュドメインサイズは、ユーティリティに対するよく知られた影響を超えて、プロトコルの堅牢性に大きな影響を及ぼすことがわかった。 さらに,リッチな再構成分布情報を利用したゼロショット攻撃検出を提案する。 実験の結果,既存の手法を大幅に改善し,挑戦的なシナリオにおけるデータ操作を効果的に識別できることがわかった。

Recent studies reveal that local differential privacy (LDP) protocols are vulnerable to data poisoning attacks where an attacker can manipulate the final estimate on the server by leveraging the characteristics of LDP and sending carefully crafted data from a small fraction of controlled local clients. This vulnerability raises concerns regarding the robustness and reliability of LDP in hostile environments. In this paper, we conduct a systematic investigation of the robustness of state-of-the-art LDP protocols for numerical attributes, i.e., categorical frequency oracles (CFOs) with binning and consistency, and distribution reconstruction. We evaluate protocol robustness through an attack-driven approach and propose new metrics for cross-protocol attack gain measurement. The results indicate that Square Wave and CFO-based protocols in the Server setting are more robust against the attack compared to the CFO-based protocols in the User setting. Our evaluation also unfolds new relationships between LDP security and its inherent design choices. We found that the hash domain size in local-hashing-based LDP has a profound impact on protocol robustness beyond the well-known effect on utility. Further, we propose a zero-shot attack detection by leveraging the rich reconstructed distribution information. The experiment show that our detection significantly improves the existing methods and effectively identifies data manipulation in challenging scenarios.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 大規模言語モデルを用いた多分野教材科学における教材知識グラフの構築と応用

Construction and Application of Materials Knowledge Graph in Multidisciplinary Materials Science via Large Language Model ( http://arxiv.org/abs/2404.03080v2 )

ライセンス: Link先を確認
Yanpeng Ye, Jie Ren, Shaozhou Wang, Yuwei Wan, Haofen Wang, Imran Razzak, Tong Xie, Wenjie Zhang, (参考訳) 材料科学の知識は幅広い科学文献に広く分散しており、新素材の効率的な発見と統合のための重要な課題となっている。 伝統的な手法は、しばしばコストと時間を要する実験的なアプローチに依存し、急激なイノベーションをさらに複雑にする。 これらの課題に対処するため、人工知能と材料科学の統合は発見プロセスを加速するための道を開いたが、正確なアノテーション、データ抽出、情報のトレーサビリティも要求されている。 これらの課題に対処するため,本論文では,高度な自然言語処理技術を活用し,大規模言語モデルと統合され,構造化三重項に対する10年分の高品質な研究の抽出と体系化を行うMaterial Knowledge Graph(MKG)について紹介する。 MKGは、情報を名前、フォーミュラ、アプリケーションなどの包括的ラベルに分類する。 ネットワークベースのアルゴリズムを実装することで、MKGは効率的なリンク予測を容易にするだけでなく、従来の実験手法への依存を著しく低減する。 この構造的アプローチは、材料研究の合理化だけでなく、より洗練された科学知識グラフの基盤となる。

Knowledge in materials science is widely dispersed across extensive scientific literature, posing significant challenges for efficient discovery and integration of new materials. Traditional methods, often reliant on costly and time-consuming experimental approaches, further complicate rapid innovation. Addressing these challenges, the integration of artificial intelligence with materials science has opened avenues for accelerating the discovery process, though it also demands precise annotation, data extraction, and traceability of information. To tackle these issues, this article introduces the Materials Knowledge Graph (MKG), which utilizes advanced natural language processing techniques, integrated with large language models to extract and systematically organize a decade's worth of high-quality research into structured triples, contains 162,605 nodes and 731,772 edges. MKG categorizes information into comprehensive labels such as Name, Formula, and Application, structured around a meticulously designed ontology, thus enhancing data usability and integration. By implementing network-based algorithms, MKG not only facilitates efficient link prediction but also significantly reduces reliance on traditional experimental methods. This structured approach not only streamlines materials research but also lays the groundwork for more sophisticated science knowledge graphs.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 潜伏拡散モデルにおける異種著作権侵害

Disguised Copyright Infringement of Latent Diffusion Models ( http://arxiv.org/abs/2404.06737v4 )

ライセンス: Link先を確認
Yiwei Lu, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu, (参考訳) 著作権侵害は、生成モデルがトレーニング期間中にアクセスしたいくつかの著作権データと実質的に類似したサンプルを生成するときに起こりうる。 アクセスの概念は、通常、トレーニングデータセットに直接著作権のあるサンプルを含めることを指す。 このような視覚的な監査は、著作権が隠された著作権侵害をほとんど見落としていると我々は主張する。そこでは、著作権サンプルと大きく異なるように見える偽装を構築するが、それでも遅延拡散モデルを訓練する効果を誘導する。 このような偽装は著作権のある資料への間接アクセスしか必要とせず、視覚的に区別できないため、現在の監査ツールを簡単に回避できる。 本稿では, 偽装生成アルゴリズム, 偽装の啓示, および, 既存のツールボックスの強化方法を明らかにすることにより, このような偽装著作権侵害の理解を深める。 さらに、このような間接的アクセスを理解するための、より広範な知識の概念を導入する。 私たちのコードはhttps://github.com/watml/disguised_copyright_infringement.comで利用可能です。

Copyright infringement may occur when a generative model produces samples substantially similar to some copyrighted data that it had access to during the training phase. The notion of access usually refers to including copyrighted samples directly in the training dataset, which one may inspect to identify an infringement. We argue that such visual auditing largely overlooks a concealed copyright infringement, where one constructs a disguise that looks drastically different from the copyrighted sample yet still induces the effect of training Latent Diffusion Models on it. Such disguises only require indirect access to the copyrighted material and cannot be visually distinguished, thus easily circumventing the current auditing tools. In this paper, we provide a better understanding of such disguised copyright infringement by uncovering the disguises generation algorithm, the revelation of the disguises, and importantly, how to detect them to augment the existing toolbox. Additionally, we introduce a broader notion of acknowledgment for comprehending such indirect access. Our code is available at https://github.com/watml/disguised_copyright_infringement.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 開語彙セグメンテーションにおける伝達性と原理的効率性

Transferable and Principled Efficiency for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2404.07448v2 )

ライセンス: Link先を確認
Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei, (参考訳) 事前学習された基礎視覚言語モデルの最近の成功は、Open-Vocabulary Segmentation (OVS)を可能にする。 有望な性能にもかかわらず、このアプローチは2つの課題に対して重い計算オーバーヘッドをもたらす。 1) 背骨の大型モデルサイズ 2)微調整の際にはコストがかかる。 これらの課題は、現実世界のシナリオにおいて、このOVS戦略が広く適用可能で手頃な価格であることを妨げる。 モデル圧縮や効率的な微調整といった従来の手法はこれらの課題に対処できるが、しばしばヒューリスティックに頼っている。 つまり、それらのソリューションは簡単に移行できず、コストがかかる異なるモデルで再トレーニングする必要がなくなる。 効率的なOVSの文脈では、トレーニングコストを下げるより小さなモデルを利用することで、大きなビジョン言語基盤モデルに基づいて、OVSが以前のOVSと同等かそれ以上の性能を達成することを目標としています。 コア戦略は、我々の効率を原則化し、従って、さらなるカスタマイズなしに、あるOVSフレームワークから他のフレームワークにシームレスに転送できるようにすることです。 多様なOVSベンチマークに関する総合的な実験では、セグメント化精度と計算コストのトレードオフが従来よりも優れていることが示されている。 私たちのコードはhttps://github.com/Xujxyang/OpenTransで利用可能です。

Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# ODA: LLMと知識グラフの統合のための観察駆動エージェント

ODA: Observation-Driven Agent for integrating LLMs and Knowledge Graphs ( http://arxiv.org/abs/2404.07677v2 )

ライセンス: Link先を確認
Lei Sun, Zhengwei Tao, Youdi Li, Hiroshi Arakawa, (参考訳) 大規模言語モデル(LLM)と知識グラフ(KG)の統合は、様々な自然言語処理タスクにおいて顕著な成功を収めた。 しかしながら、LLMとKGを統合する既存の方法論は、KGにカプセル化されている膨大な知識に固有の豊かな認知可能性を見越して、LCMの分析に基づいてタスク解決プロセスをナビゲートすることが多い。 この問題に対処するため、我々は、KGsに関わるタスクに適した、新しいAIエージェントフレームワークであるObservatory-Driven Agent (ODA)を紹介した。 織田氏はKG推論能力をグローバルな観察を通じて取り入れており、観察・行動・反射の循環的パラダイムを通じて推論能力を高める。 観察中に知識が爆発的に爆発するのに対して,我々は再帰的な観察機構を革新的に設計する。 その後、観察された知識をアクション・リフレクション・モジュールに統合する。 広範な実験を通じて、Odaはいくつかのデータセットで最先端のパフォーマンスを示し、特に12.87%と8.9%の精度向上を実現している。

The integration of Large Language Models (LLMs) and knowledge graphs (KGs) has achieved remarkable success in various natural language processing tasks. However, existing methodologies that integrate LLMs and KGs often navigate the task-solving process solely based on the LLM's analysis of the question, overlooking the rich cognitive potential inherent in the vast knowledge encapsulated in KGs. To address this, we introduce Observation-Driven Agent (ODA), a novel AI agent framework tailored for tasks involving KGs. ODA incorporates KG reasoning abilities via global observation, which enhances reasoning capabilities through a cyclical paradigm of observation, action, and reflection. Confronting the exponential explosion of knowledge during observation, we innovatively design a recursive observation mechanism. Subsequently, we integrate the observed knowledge into the action and reflection modules. Through extensive experiments, ODA demonstrates state-of-the-art performance on several datasets, notably achieving accuracy improvements of 12.87% and 8.9%.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 階段を滑り降りる:ニューラルネットワークによる学習の相関性

Sliding down the stairs: how correlated latent variables accelerate learning with neural networks ( http://arxiv.org/abs/2404.08602v2 )

ライセンス: Link先を確認
Lorenzo Bardone, Sebastian Goldt, (参考訳) ニューラルネットワークは確率勾配勾配(SGD)を用いたデータから特徴を抽出する。 特に、高次入力累積器(HOC)はその性能に不可欠である。 しかし、$d$-dimensional 入力の$p$th cumulantから情報を抽出するのは計算が困難であり、オンライン SGD を用いた注文$p$tensor (tensor PCA) から単一方向を復元するのに必要なサンプルの数は $d^{p-1}$ として増加し、高次元入力は禁じられている。 この結果は、ニューラルネットワークが入力のHOCからどのように関連する方向を効率的に抽出するかという問題を提起する。 ここでは,異なる入力累積で符号化された方向に沿った潜伏変数間の相関が,高次相関から学習を高速化することを示す。 単一ニューロンが高次元のランダムスタートからオンラインSGDを用いてこれらの方向を弱く復元するために必要なサンプル数に対して、ほぼ鋭い閾値を導出することにより、この効果を解析的に示す。 我々の分析結果は、2層ニューラルネットワークのシミュレーションで確認され、ニューラルネットワークにおける階層学習の新しいメカニズムが明らかにされる。

Neural networks extract features from data using stochastic gradient descent (SGD). In particular, higher-order input cumulants (HOCs) are crucial for their performance. However, extracting information from the $p$th cumulant of $d$-dimensional inputs is computationally hard: the number of samples required to recover a single direction from an order-$p$ tensor (tensor PCA) using online SGD grows as $d^{p-1}$, which is prohibitive for high-dimensional inputs. This result raises the question of how neural networks extract relevant directions from the HOCs of their inputs efficiently. Here, we show that correlations between latent variables along the directions encoded in different input cumulants speed up learning from higher-order correlations. We show this effect analytically by deriving nearly sharp thresholds for the number of samples required by a single neuron to weakly-recover these directions using online SGD from a random start in high dimensions. Our analytical results are confirmed in simulations of two-layer neural networks and unveil a new mechanism for hierarchical learning in neural networks.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# Wasserstein Wormhole: 変圧器を用いたスケーラブルな最適輸送距離

Wasserstein Wormhole: Scalable Optimal Transport Distance with Transformers ( http://arxiv.org/abs/2404.09411v4 )

ライセンス: Link先を確認
Doron Haviv, Russell Zhang Kunes, Thomas Dougherty, Cassandra Burdziak, Tal Nawy, Anna Gilbert, Dana Pe'er, (参考訳) 最適輸送(OT)と関連するワッサーシュタイン計量(W)は、分布を比較するための強力でユビキタスなツールである。 しかし、コホートサイズが大きくなるにつれて、ペアワイズワッサースタイン距離の計算は急速に困難になる。 魅力的な選択肢は、標準多次元スケーリング(MDS)と同様、ユークリッド距離をOT距離にペアでマッピングする埋め込み空間を見つけることである。 我々は、変圧器をベースとした自己エンコーダであるワッサーシュタイン・ワームホール(Wasserstein Wormhole)を、ユークリッド距離がOT距離に近似する潜在空間に経験的分布を埋める。 MDS理論を拡張して、目的関数は非ユークリッド距離を埋め込む際に発生する誤差の有界性を示すことを示す。 実験的に、ワームホール埋め込み間の距離はワッサーシュタイン距離と密接に一致し、OT距離の線形時間計算を可能にした。 Wasserstein Wormholeは、分散を埋め込みにマッピングするエンコーダとともに、埋め込みを分布にマッピングするデコーダを含み、埋め込み空間内の操作をWasserstein Barycenter EstimationやOT補間といったOT空間に一般化することができる。 スケーラビリティと解釈可能性をOTアプローチに貸すことで、Wasserstein Wormholeは計算幾何学と単細胞生物学の分野におけるデータ解析の新たな道を開く。

Optimal transport (OT) and the related Wasserstein metric (W) are powerful and ubiquitous tools for comparing distributions. However, computing pairwise Wasserstein distances rapidly becomes intractable as cohort size grows. An attractive alternative would be to find an embedding space in which pairwise Euclidean distances map to OT distances, akin to standard multidimensional scaling (MDS). We present Wasserstein Wormhole, a transformer-based autoencoder that embeds empirical distributions into a latent space wherein Euclidean distances approximate OT distances. Extending MDS theory, we show that our objective function implies a bound on the error incurred when embedding non-Euclidean distances. Empirically, distances between Wormhole embeddings closely match Wasserstein distances, enabling linear time computation of OT distances. Along with an encoder that maps distributions to embeddings, Wasserstein Wormhole includes a decoder that maps embeddings back to distributions, allowing for operations in the embedding space to generalize to OT spaces, such as Wasserstein barycenter estimation and OT interpolation. By lending scalability and interpretability to OT approaches, Wasserstein Wormhole unlocks new avenues for data analysis in the fields of computational geometry and single-cell biology.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 社会選択はAIのアライメントをガイドするべきだ

Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback ( http://arxiv.org/abs/2404.10271v2 )

ライセンス: Link先を確認
Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs, Nathan Lambert, Milan Mossé, Eric Pacuit, Stuart Russell, Hailey Schoelkopf, Emanuel Tewolde, William S. Zwicker, (参考訳) GPT-4のような基礎的なモデルは、犯罪を犯したり、人種差別的なテキストを作るのを助けるなど、安全でない、あるいは問題のない行為を避けるために微調整されている。 人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。 もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。 しかし、人間からの潜在的な入力をどう扱えばいいのか? の好みに関する一貫性のあるデータにどのようにインプットを集約するか、そうでなければモデル行動に関する集合的な選択にそれを使うのか? そこで本稿では,2023年12月にカリフォルニア州バークレーで開催されたAI倫理・安全のための社会選択ワークショップにおいて,社会選択の分野がこれらの課題に対処するための適切な位置にあることを論じ,今後の課題について論じる。

Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
翻訳日:2024-06-06 12:19:03 公開日:2024-06-04
# 無音トークンによる大規模言語モデルに対するジェイルブレイク攻撃の強化

Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens ( http://arxiv.org/abs/2405.20653v2 )

ライセンス: Link先を確認
Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu, Wenbo Guo, Han Liu, Xinyu Xing, (参考訳) 言語モデルの顕著な成功に加えて、最近の研究は、脱獄攻撃を含むLLMのセキュリティ脅威の調査も開始した。 攻撃者は、標的のLSMが有害な質問に応答するように、ジェイルブレイクのプロンプトを慎重に作成する。 既存のジェイルブレイク攻撃では、人間の専門家か複雑なアルゴリズムを使ってジェイルブレイクのプロンプトを作らなければならない。 本稿では,eosトークンのみを利用する単純な攻撃であるBOOSTを紹介する。 我々は、複雑なジェイルブレイクプロンプトを構築する代わりに、攻撃者は有害な質問の最後にいくつかのeosトークンを追加するだけでよいことを示した。 LLMの安全アライメントを回避し、脱獄攻撃を成功させる。 さらに, BOOST を 4 つの代表的なjailbreak 手法に適用し, プロンプトに eos トークンを追加するだけで, 攻撃成功率を大幅に向上できることを示す。 この単純だが斬新な現象を理解するために、我々は経験的分析を行う。 分析の結果、eosトークンを追加することで、ターゲットのLSMは入力がより有害であると信じ、eosトークンは注意値が低く、有害な質問に対するLLMの理解に影響を与えないことが明らかとなり、モデルが実際に質問に答える結果となった。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。

Along with the remarkable successes of Language language models, recent research also started to explore the security threats of LLMs, including jailbreaking attacks. Attackers carefully craft jailbreaking prompts such that a target LLM will respond to the harmful question. Existing jailbreaking attacks require either human experts or leveraging complicated algorithms to craft jailbreaking prompts. In this paper, we introduce BOOST, a simple attack that leverages only the eos tokens. We demonstrate that rather than constructing complicated jailbreaking prompts, the attacker can simply append a few eos tokens to the end of a harmful question. It will bypass the safety alignment of LLMs and lead to successful jailbreaking attacks. We further apply BOOST to four representative jailbreak methods and show that the attack success rates of these methods can be significantly enhanced by simply adding eos tokens to the prompt. To understand this simple but novel phenomenon, we conduct empirical analyses. Our analysis reveals that adding eos tokens makes the target LLM believe the input is much less harmful, and eos tokens have low attention values and do not affect LLM's understanding of the harmful questions, leading the model to actually respond to the questions. Our findings uncover how fragile an LLM is against jailbreak attacks, motivating the development of strong safety alignment approaches.
翻訳日:2024-06-06 12:09:17 公開日:2024-06-04
# 制御可能な長ビデオ生成によるエンド・ツー・エンド自律運転の解き放つ一般化

Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation ( http://arxiv.org/abs/2406.01349v2 )

ライセンス: Link先を確認
Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, Di Lin, Kaicheng Yu, (参考訳) 生成モデルを使用して新しいデータを合成することは、データ不足問題に対処する自律運転におけるデファクトスタンダードとなっている。 既存の手法は知覚モデルを向上させることができるが、生成したビデオは通常8フレーム未満であり、空間的および時間的矛盾は無視できないため、エンド・ツー・エンドの自律走行モデルの設計性能を向上できない。 この目的のために,空間的整合性を高めるために多視点で共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法であるDelphiと,正確な制御性と時間的整合性を両立する特徴整合モジュールを提案する。 本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。 我々は、新しいデータをランダムに生成する代わりに、サンプル効率を改善するために、これらの障害ケースに類似した新しいデータをDelphiが生成できるようにサンプリングポリシーを設計する。 これは、事前トレーニングされたビジュアル言語モデルの助けを借りて、フェールケース駆動フレームワークを構築することで実現される。 我々の大規模な実験は、Delphiが従来の最先端の手法を超越した、より高品質な長編ビデオを生成することを示した。 結果として、トレーニングデータセットの4%しか生成できないため、私たちのフレームワークは、認識と予測タスクを越えて、私たちの知る限りでは初めて、エンドツーエンドの自動運転モデルの計画性能を25%向上することが可能になります。

Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover that these approaches fail to improve the performance of planning of end-to-end autonomous driving models as the generated videos are usually less than 8 frames and the spatial and temporal inconsistencies are not negligible. To this end, we propose Delphi, a novel diffusion-based long video generation method with a shared noise modeling mechanism across the multi-views to increase spatial consistency, and a feature-aligned module to achieves both precise controllability and temporal consistency. Our method can generate up to 40 frames of video without loss of consistency which is about 5 times longer compared with state-of-the-art methods. Instead of randomly generating new data, we further design a sampling policy to let Delphi generate new data that are similar to those failure cases to improve the sample efficiency. This is achieved by building a failure-case driven framework with the help of pre-trained visual language models. Our extensive experiment demonstrates that our Delphi generates a higher quality of long videos surpassing previous state-of-the-art methods. Consequentially, with only generating 4% of the training dataset size, our framework is able to go beyond perception and prediction tasks, for the first time to the best of our knowledge, boost the planning performance of the end-to-end autonomous driving model by a margin of 25%.
翻訳日:2024-06-06 11:59:09 公開日:2024-06-04
# TENG: マシンの精度向上に向けた深部ニューラルネットワークによるPDEの解法

TENG: Time-Evolving Natural Gradient for Solving PDEs With Deep Neural Nets Toward Machine Precision ( http://arxiv.org/abs/2404.10771v2 )

ライセンス: Link先を確認
Zhuo Chen, Jacob McCarran, Esteban Vizcaino, Marin Soljačić, Di Luo, (参考訳) 偏微分方程式 (Partial differential equation, PDE) は、科学や工学における力学系をモデル化するための道具である。 ニューラルネットワークの出現は、特に初期値問題において、精度の課題は持続するが、これらの複雑さに取り組むための大きな変化を引き起こしている。 本稿では、時間依存の変動原理と最適化に基づく時間積分を一般化し、自然勾配最適化を活用し、ニューラルネットワークベースのPDEソリューションで高い精度を得るための$\textit{Time-Evolving Natural Gradient (TENG)$を紹介する。 私たちの包括的開発には、TENG-Eulerのようなアルゴリズムと、TENG-Heunのような高階の亜種が含まれています。 TENGの有効性は、現在の先行法を超え、熱方程式、アレン・カーン方程式、バーガースの方程式を含むPDEのスペクトルをステップバイステップで最適化する$\textit{machine precision}$を達成することでさらに検証される。

Partial differential equations (PDEs) are instrumental for modeling dynamical systems in science and engineering. The advent of neural networks has initiated a significant shift in tackling these complexities though challenges in accuracy persist, especially for initial value problems. In this paper, we introduce the $\textit{Time-Evolving Natural Gradient (TENG)}$, generalizing time-dependent variational principles and optimization-based time integration, leveraging natural gradient optimization to obtain high accuracy in neural-network-based PDE solutions. Our comprehensive development includes algorithms like TENG-Euler and its high-order variants, such as TENG-Heun, tailored for enhanced precision and efficiency. TENG's effectiveness is further validated through its performance, surpassing current leading methods and achieving $\textit{machine precision}$ in step-by-step optimizations across a spectrum of PDEs, including the heat equation, Allen-Cahn equation, and Burgers' equation.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# EuSQuAD: バスク語の自動翻訳およびアライメントSQuAD2.0

EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque ( http://arxiv.org/abs/2404.12177v2 )

ライセンス: Link先を確認
Aitor García-Pablos, Naiara Perez, Montse Cuadros, Jaione Bengoetxea, (参考訳) 質問応答(QA)データセットが英語で広く利用できるようになったことで、自然言語処理(NLP)分野の進歩が大いに促進された。 しかしバスク語のような少数言語に対するそのような資源の不足は、これらのコミュニティにとって重大な課題となっている。 この文脈では、既存のQAデータセットの翻訳とアライメントがこの技術的ギャップを狭める上で重要な役割を果たす。 この研究は、SQuAD2.0をバスク語に自動翻訳しアライメントするための最初のイニシアチブであるEuSQuADを提示する。 我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。 これらの実験は、新しい人間の注釈付きデータセットを用いて評価される。

The widespread availability of Question Answering (QA) datasets in English has greatly facilitated the advancement of the Natural Language Processing (NLP) field. However, the scarcity of such resources for minority languages, such as Basque, poses a substantial challenge for these communities. In this context, the translation and alignment of existing QA datasets plays a crucial role in narrowing this technological gap. This work presents EuSQuAD, the first initiative dedicated to automatically translating and aligning SQuAD2.0 into Basque, resulting in more than 142k QA examples. We demonstrate EuSQuAD's value through extensive qualitative analysis and QA experiments supported with EuSQuAD as training data. These experiments are evaluated with a new human-annotated dataset.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 動画フレーム補間のための動き認識潜時拡散モデル

Motion-aware Latent Diffusion Models for Video Frame Interpolation ( http://arxiv.org/abs/2404.13534v2 )

ライセンス: Link先を確認
Zhilin Huang, Yijie Yu, Ling Yang, Chujun Qin, Bing Zheng, Xiawu Zheng, Zikun Zhou, Yaowei Wang, Wenming Yang, (参考訳) AIGCの進歩に伴い、ビデオフレーム補間(VFI)は既存のビデオ生成フレームワークにおいて重要な要素となり、幅広い研究の関心を集めている。 VFIタスクでは、隣接するフレーム間の動き推定が、動きのあいまいさを避ける上で重要な役割を果たす。 しかし、既存のVFI手法は連続するフレーム間の動き情報を正確に予測するのに常に苦労しており、この不正確な推定は曖昧で視覚的に不整合なフレームに繋がる。 本稿では,VFIタスクに特化して設計された新しい拡散フレームワークである動き認識潜在拡散モデル(MADiff)を提案する。 拡散サンプリング手順を通じて予測される目標補間フレームと条件付き隣接フレーム間の動作先を組み込むことで、MADiffは中間結果を徐々に洗練し、視覚的に滑らかでリアルな結果の両方を生成する。 特に複雑な動きを伴う動的テクスチャを含む難解なシナリオにおいて,提案手法が既存手法よりも優れた性能を発揮することを示す。

With the advancement of AIGC, video frame interpolation (VFI) has become a crucial component in existing video generation frameworks, attracting widespread research interest. For the VFI task, the motion estimation between neighboring frames plays a crucial role in avoiding motion ambiguity. However, existing VFI methods always struggle to accurately predict the motion information between consecutive frames, and this imprecise estimation leads to blurred and visually incoherent interpolated frames. In this paper, we propose a novel diffusion framework, motion-aware latent diffusion models (MADiff), which is specifically designed for the VFI task. By incorporating motion priors between the conditional neighboring frames with the target interpolated frame predicted throughout the diffusion sampling procedure, MADiff progressively refines the intermediate outcomes, culminating in generating both visually smooth and realistic results. Extensive experiments conducted on benchmark datasets demonstrate that our method achieves state-of-the-art performance significantly outperforming existing approaches, especially under challenging scenarios involving dynamic textures with complex motion.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 簡潔な相関に対する群ロバスト性の改善には精密な群推論が必要である

Improving Group Robustness on Spurious Correlation Requires Preciser Group Inference ( http://arxiv.org/abs/2404.13815v2 )

ライセンス: Link先を確認
Yujin Han, Difan Zou, (参考訳) 標準経験的リスク最小化(ERM)モデルは、スプリアス特徴と真のラベルの間の学習の急激な相関を優先し、これらの相関が持たないグループでは精度が低下する可能性がある。 この問題を緩和するには、しばしば高価なスプリアス属性(グループ)ラベルを必要とするか、あるいはグループ情報が利用できない場合にグループラベルを推測するために訓練されたEMMモデルに依存する。 しかし, 擬似グループラベルの使用とオラクルグループラベルの使用との間には, 最悪のグループ精度の差が顕著であり, 精度の高いグループ推論によるグループロバスト性の向上が期待できる。 そこで本研究では,グループラベルを正確に推測する新しい手法であるGICを提案する。 GICはスプリアス相関の2つの重要な特性に基づいてスプリアス属性分類器を訓練し、(1)スプリアス属性と真のラベルの高相関と(2)群分布の異なるデータセット間の相関のばらつきについて検討した。 複数のデータセットに関する実証的研究は、グループラベルの推論におけるGICの有効性を示し、GICと様々な下流不変学習手法を組み合わせることにより、最悪のグループ精度が向上し、その強力な柔軟性が示される。 さらに, GICの誤分類を解析することにより, セマンティック一貫性という興味深い現象を同定し, 突発的属性とラベルの関連性をよりよく分離し, 突発的相関を緩和する。 GICのコードはhttps://github.com/yujinhanml/GICで公開されている。

Standard empirical risk minimization (ERM) models may prioritize learning spurious correlations between spurious features and true labels, leading to poor accuracy on groups where these correlations do not hold. Mitigating this issue often requires expensive spurious attribute (group) labels or relies on trained ERM models to infer group labels when group information is unavailable. However, the significant performance gap in worst-group accuracy between using pseudo group labels and using oracle group labels inspires us to consider further improving group robustness through preciser group inference. Therefore, we propose GIC, a novel method that accurately infers group labels, resulting in improved worst-group performance. GIC trains a spurious attribute classifier based on two key properties of spurious correlations: (1) high correlation between spurious attributes and true labels, and (2) variability in this correlation between datasets with different group distributions. Empirical studies on multiple datasets demonstrate the effectiveness of GIC in inferring group labels, and combining GIC with various downstream invariant learning methods improves worst-group accuracy, showcasing its powerful flexibility. Additionally, through analyzing the misclassifications in GIC, we identify an interesting phenomenon called semantic consistency, which may contribute to better decoupling the association between spurious attributes and labels, thereby mitigating spurious correlation. The code for GIC is available at https://github.com/yujinhanml/GIC.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 有効ブラックホール幾何を用いた最適揺らぎキラルスピン鎖

Optimally scrambling chiral spin-chain with effective black hole geometry ( http://arxiv.org/abs/2404.14473v2 )

ライセンス: Link先を確認
Aiden Daniel, Andrew Hallam, Matthew D. Horner, Jiannis K. Pachos, (参考訳) 現在、凝縮物質モデルを用いて、ホーキング放射や最適な衝突挙動などのブラックホールの本質的な特性をエミュレートすることに重要な関心がある。 本稿では,ブラックホールの時空幾何学におけるディラックフェルミオンの挙動を,平均場理論が効果的に捉えるカイラルスピン鎖について検討する。 ブラックホールの内部を記述した鎖の領域では、強い相関関係が強くなり、多体カオス力学がもたらされる。 時間外相関を診断ツールとして用い,関連するリャプノフ指数を数値計算する。 興味深いことに、最適な揺動挙動を示すため、ブラックホール内部の温度が低いリアプノフ指数の線形増加を観測した。 これは、ブラックホールの外の領域でスピン鎖によって示される二次温度依存性とは対照的である。 我々の発見は、ブラックホールの幾何学と量子カオスの相互作用の深い理解に寄与し、量子重力の基本的な側面に関する洞察を提供する。

There is currently significant interest in emulating the essential characteristics of black holes, such as their Hawking radiation or their optimal scrambling behavior, using condensed matter models. In this article, we investigate a chiral spin-chain, whose mean field theory effectively captures the behavior of Dirac fermions in the curved spacetime geometry of a black hole. We find that within the region of the chain that describe the interior of the black hole, strong correlations prevail giving rise to many-body chaotic dynamics. Employing out-of-time-order correlations as a diagnostic tool, we numerically compute the associated Lyapunov exponent. Intriguingly, we observe a linear increase in the Lyapunov exponent with temperature within the black hole's interior at low temperatures, indicative of optimal scrambling behavior. This contrasts with the quadratic temperature dependence exhibited by the spin-chain on the region outside the black hole. Our findings contribute to a deeper understanding of the interplay between black hole geometry and quantum chaos, offering insights into fundamental aspects of quantum gravity.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 大規模言語モデル(LLM)時代のグラフ機械学習

Graph Machine Learning in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2404.14928v2 )

ライセンス: Link先を確認
Wenqi Fan, Shijie Wang, Jiani Huang, Zhikai Chen, Yu Song, Wenzhuo Tang, Haitao Mao, Hui Liu, Xiaorui Liu, Dawei Yin, Qing Li, (参考訳) グラフは、ソーシャルネットワーク、知識グラフ、分子発見など、さまざまな領域における複雑な関係を表現する上で重要な役割を果たす。 ディープラーニングの出現に伴い、グラフニューラルネットワーク(GNN)はグラフ機械学習(Graph ML)の基盤として現れ、グラフ構造の表現と処理を容易にする。 近年、LLMは言語タスクにおいて前例のない能力を示し、コンピュータビジョンやレコメンデータシステムなど様々なアプリケーションで広く採用されている。 この顕著な成功は、グラフ領域にLSMを適用することにも興味を惹き付けている。 グラフMLの一般化、転送可能性、少数ショット学習能力の進歩において、LLMの可能性を探求する努力が増加している。 一方、グラフ、特に知識グラフは信頼性のある事実知識に富んでいるため、LCMの推論能力を高め、幻覚や説明可能性の欠如といった制限を緩和することができる。 この研究方向性の急速な進展を踏まえ、研究者や実践者に深い理解を提供するためには、LLM時代のグラフMLの最新の進歩を要約した体系的なレビューが必要である。 そこで本研究では,Graph MLの最近の開発状況について概説する。 次に,LLMを用いてグラフの特徴の質を高め,ラベル付きデータへの依存を緩和し,グラフの不均一性やアウト・オブ・ディストリビューション(OOD)の一般化といった課題に対処する方法について検討する。 その後、グラフがLLMを強化し、LLMの事前学習と推論を強化する能力を強調した。 さらに,様々な応用について検討し,将来の可能性について検討する。

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# LACS:不確実な需要を伴うカーボンアウェアリソーススケーリングのための学習強化アルゴリズム

LACS: Learning-Augmented Algorithms for Carbon-Aware Resource Scaling with Uncertain Demand ( http://arxiv.org/abs/2404.15211v2 )

ライセンス: Link先を確認
Roozbeh Bostandoost, Adam Lechowicz, Walid A. Hanafy, Noman Bashir, Prashant Shenoy, Mohammad Hajiesmaili, (参考訳) 本論文は,クラウドデータセンタの二酸化炭素排出量削減を目標として,未知のジョブ長(OCSU)によるオンライン炭素対応リソーススケーリング問題を調査し,計算処理を実行するための炭素対応リソーススケーリングに適用する。 タスクは、作業負荷を実行する際の二酸化炭素排出量を減らすことを目的として、期限前に完了するように、未知の長さのジョブに割り当てられたリソース(例えばサーバ数)を動的にスケールすることである。 ジョブを実行する総炭素排出量は、ジョブの実行の排出と異なるスケール(例えばチェックポイントと再開のため)を切り替えながら放出される余剰炭素に由来する。 炭素を意識した資源スケーリングに関する以前の研究は、正確なジョブ長情報を前提としていたが、他のアプローチでは、切り替え損失を無視し、炭素強度の予測を必要としている。 これらの仮定は、スケーラブルなコンピューティングワークロードのオンラインカーボンアウェア実行に対する事前作業の実践的展開を禁止している。 我々は,論理的に堅牢な学習拡張アルゴリズムであるLACSを提案し,OCSUを解く。 LACSは、実際の平均ケース性能を改善するために、機械学習によるジョブ長予測を統合している。 確固とした理論的性能を達成するため、LACSは、ジョブの長さが不明なシナリオを扱うために、オンライン変換の最近の理論的進歩を切り替えコストで拡張した。 実験により, LACSの炭素フットプリントはオンラインベースラインの1.2%以内であり, ジョブ長に加えて, 正確な炭素強度予測を必要とするオフラインベースラインの16%以内であることがわかった。 さらに、LACSは、仕事の納期を意識した炭素非依存の実行と比較して、炭素フットプリントの32%の削減を実現している。

Motivated by an imperative to reduce the carbon emissions of cloud data centers, this paper studies the online carbon-aware resource scaling problem with unknown job lengths (OCSU) and applies it to carbon-aware resource scaling for executing computing workloads. The task is to dynamically scale resources (e.g., the number of servers) assigned to a job of unknown length such that it is completed before a deadline, with the objective of reducing the carbon emissions of executing the workload. The total carbon emissions of executing a job originate from the emissions of running the job and excess carbon emitted while switching between different scales (e.g., due to checkpoint and resume). Prior work on carbon-aware resource scaling has assumed accurate job length information, while other approaches have ignored switching losses and require carbon intensity forecasts. These assumptions prohibit the practical deployment of prior work for online carbon-aware execution of scalable computing workload. We propose LACS, a theoretically robust learning-augmented algorithm that solves OCSU. To achieve improved practical average-case performance, LACS integrates machine-learned predictions of job length. To achieve solid theoretical performance, LACS extends the recent theoretical advances on online conversion with switching costs to handle a scenario where the job length is unknown. Our experimental evaluations demonstrate that, on average, the carbon footprint of LACS lies within 1.2% of the online baseline that assumes perfect job length information and within 16% of the offline baseline that, in addition to the job length, also requires accurate carbon intensity forecasts. Furthermore, LACS achieves a 32% reduction in carbon footprint compared to the deadline-aware carbon-agnostic execution of the job.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 未知の精度で電子メールを抽出する大規模言語モデル:性能の比較分析

Large Language Models Spot Phishing Emails with Surprising Accuracy: A Comparative Analysis of Performance ( http://arxiv.org/abs/2404.15485v2 )

ライセンス: Link先を確認
Het Patel, Umair Rehman, Farkhund Iqbal, (参考訳) 何十年にもわたるサイバー犯罪戦術であるフィッシングは、今日のデジタル世界において大きな脅威となっている。 巧妙な社会工学的要素と近代技術を活用することで、サイバー犯罪は多くの個人、企業、組織が信頼とセキュリティを利用することを狙う。 これらのサイバー攻撃者は、正統な情報源として現れる多くの信頼できる形で偽装されることが多い。 緊急性、恐怖、社会的証明、その他の操作戦略といった心理的要素を巧みに利用することで、フィッシングは個人を誘惑して、機密でパーソナライズされた情報を明らかにすることができる。 本論文は,現代技術におけるこの広範囲な課題に基づいて,フィッシングの試みを検出するための15のLarge Language Models (LLMs) の有効性を解析することを目的としており,特にランダム化された419 ScamのEメールに焦点をあてている。 本研究の目的は、予め定義された基準に基づいて、メールメタデータを含むテキストファイルを解析することにより、どのLLMがフィッシングメールを正確に検出できるかを判断することである。 実験の結果、以下のモデル(ChatGPT 3.5、GPT-3.5-Turbo-Instruct、ChatGPT)がフィッシングメールの検出に最も有効であることが判明した。

Phishing, a prevalent cybercrime tactic for decades, remains a significant threat in today's digital world. By leveraging clever social engineering elements and modern technology, cybercrime targets many individuals, businesses, and organizations to exploit trust and security. These cyber-attackers are often disguised in many trustworthy forms to appear as legitimate sources. By cleverly using psychological elements like urgency, fear, social proof, and other manipulative strategies, phishers can lure individuals into revealing sensitive and personalized information. Building on this pervasive issue within modern technology, this paper aims to analyze the effectiveness of 15 Large Language Models (LLMs) in detecting phishing attempts, specifically focusing on a randomized set of "419 Scam" emails. The objective is to determine which LLMs can accurately detect phishing emails by analyzing a text file containing email metadata based on predefined criteria. The experiment concluded that the following models, ChatGPT 3.5, GPT-3.5-Turbo-Instruct, and ChatGPT, were the most effective in detecting phishing emails.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# 遠赤外反射による3次元ガウス散乱

3D Gaussian Splatting with Deferred Reflection ( http://arxiv.org/abs/2404.18454v2 )

ライセンス: Link先を確認
Keyang Ye, Qiming Hou, Kun Zhou, (参考訳) ニューラルおよびガウスに基づく放射場法の出現は、新しいビュー合成の分野において大きな成功を収めた。 しかし、高周波放射場は安定かつ正確に適合することが難しいことで知られているため、スペクトル反射は非自明なままである。 本稿では,ガウススプラッティングによる鏡面反射を効果的に描画する遅延シェーディング法を提案する。 主な課題は環境マップの反射モデルであり、これは正確な表面正規化を必要とする一方で、不連続勾配による正規推定をボトルネックにしている。 遅延シェーディングによって生成される画素ごとの反射勾配を利用して、隣接するガウスの最適化プロセスを橋渡しし、ほぼ正確な正規推定が徐々に伝播し、最終的にはすべての反射対象に広がる。 提案手法は,バニラ・ガウス版とほぼ同一のフレームレートで実行しながら,合成シーンと実シーンの両方において,ピーク信号-雑音比(PSNR)が一貫した改善を示すことによって,高品質な反射効果の合成における最先端技術と同時処理を著しく上回っている。

The advent of neural and Gaussian-based radiance field methods have achieved great success in the field of novel view synthesis. However, specular reflection remains non-trivial, as the high frequency radiance field is notoriously difficult to fit stably and accurately. We present a deferred shading method to effectively render specular reflection with Gaussian splatting. The key challenge comes from the environment map reflection model, which requires accurate surface normal while simultaneously bottlenecks normal estimation with discontinuous gradients. We leverage the per-pixel reflection gradients generated by deferred shading to bridge the optimization process of neighboring Gaussians, allowing nearly correct normal estimations to gradually propagate and eventually spread over all reflective objects. Our method significantly outperforms state-of-the-art techniques and concurrent work in synthesizing high-quality specular reflection effects, demonstrating a consistent improvement of peak signal-to-noise ratio (PSNR) for both synthetic and real-world scenes, while running at a frame rate almost identical to vanilla Gaussian splatting.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# トポロジカルな表現の分類のための階数分解

A rank decomposition for the topological classification of neural representations ( http://arxiv.org/abs/2404.19710v3 )

ライセンス: Link先を確認
Kosio Beshkov, Gaute T. Einevoll, (参考訳) ニューラルネットワークは入力データセットに変換を適用するものだと考えることができる。 このようなデータセットのトポロジを変更する方法は、多くのタスク、特に分類問題のような最適解に対する非同型写像を必要とするタスクにおいて、実際的な意味を持つことが多い。 本研究では,ニューラルネットワークが連続的なピースワイズアフィン写像と等価であるという事実を利用して,非同相変換を行う入力空間の領域をピンポイントすることで,入力データセットのトポロジ的構造の変化をもたらす。 このアプローチは相対ホモロジー列を利用することができ、そこでは多様体 $\mathcal{M}$ と部分集合 $A$ の商のホモロジー群を、これらの空間上のいくつかの最小の性質を仮定して研究することができる。 原理の証明として,ネットワーク幅と平均重量の関数として,低ランク(位相変化)アフィンマップの存在を実証的に検討する。 ランダムに初期化された狭いネットワークでは、データ多様体の(コ)ホモロジー群が変化する領域が存在することを示す。 幅が大きくなると、入力多様体のホモロジー群はより保存されやすくなる。 我々は、この特性を持たない非常に非ランダムな広義のネットワークを構築し、この非ランダムな体制を、生物学的ニューラルネットワークの定義的特徴であるデールの原理に関連付けることで、我々の研究のこの部分を終える。 最後に,MNISTで訓練された単純なフィードフォワードネットワークと,おもちゃの分類と回帰タスクについて検討し,トレーニング対象のタスクの連続性に応じて,ネットワークがデータのトポロジを異なる方法で操作することを示す。

Neural networks can be thought of as applying a transformation to an input dataset. The way in which they change the topology of such a dataset often holds practical significance for many tasks, particularly those demanding non-homeomorphic mappings for optimal solutions, such as classification problems. In this work, we leverage the fact that neural networks are equivalent to continuous piecewise-affine maps, whose rank can be used to pinpoint regions in the input space that undergo non-homeomorphic transformations, leading to alterations in the topological structure of the input dataset. Our approach enables us to make use of the relative homology sequence, with which one can study the homology groups of the quotient of a manifold $\mathcal{M}$ and a subset $A$, assuming some minimal properties on these spaces. As a proof of principle, we empirically investigate the presence of low-rank (topology-changing) affine maps as a function of network width and mean weight. We show that in randomly initialized narrow networks, there will be regions in which the (co)homology groups of a data manifold can change. As the width increases, the homology groups of the input manifold become more likely to be preserved. We end this part of our work by constructing highly non-random wide networks that do not have this property and relating this non-random regime to Dale's principle, which is a defining characteristic of biological neural networks. Finally, we study simple feedforward networks trained on MNIST, as well as on toy classification and regression tasks, and show that networks manipulate the topology of data differently depending on the continuity of the task they are trained on.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# Triadic-OCD: 確率ロバスト性、最適性、収束性を備えた非同期オンライン変更検出

Triadic-OCD: Asynchronous Online Change Detection with Provable Robustness, Optimality, and Convergence ( http://arxiv.org/abs/2405.02372v2 )

ライセンス: Link先を確認
Yancheng Huang, Kai Yang, Zelin Zhu, Leian Chen, (参考訳) オンライン変更検出(OCD)の主な目標は、データストリームの変更を迅速に識別することだ。 OCD問題は、スマートグリッドにおけるセキュリティ検出や通信ネットワークにおける侵入検出など、さまざまな分野における幅広い応用を見出す。 先行研究は通常、システムパラメータの正確な知識を仮定する。 それでもこの推定は,推定エラーやシステム更新などの要因によって,現実的なシナリオでは不可能であることがしばしば証明される。 本稿では,証明可能な堅牢性,証明可能な最適性,保証された収束性を備えた3進OCDフレームワークの開発を初めて試みる。 さらに、提案アルゴリズムは、完全に非同期な分散方式で実現でき、単一のサーバにデータを送信する必要がなくなる。 この非同期メカニズムは、従来の同期アルゴリズムが直面するストラグラーの問題を軽減することもできる。 さらに、トライadic-OCD の非漸近収束特性を理論的に解析し、その反復複雑性を$\epsilon$-Optimal 点とする。 提案手法の有効性を明らかにするため, 広範囲な実験を行った。

The primary goal of online change detection (OCD) is to promptly identify changes in the data stream. OCD problem find a wide variety of applications in diverse areas, e.g., security detection in smart grids and intrusion detection in communication networks. Prior research usually assumes precise knowledge of the system parameters. Nevertheless, this presumption often proves unattainable in practical scenarios due to factors such as estimation errors, system updates, etc. This paper aims to take the first attempt to develop a triadic-OCD framework with certifiable robustness, provable optimality, and guaranteed convergence. In addition, the proposed triadic-OCD algorithm can be realized in a fully asynchronous distributed manner, easing the necessity of transmitting the data to a single server. This asynchronous mechanism could also mitigate the straggler issue that faced by traditional synchronous algorithm. Moreover, the non-asymptotic convergence property of Triadic-OCD is theoretically analyzed, and its iteration complexity to achieve an $\epsilon$-optimal point is derived. Extensive experiments have been conducted to elucidate the effectiveness of the proposed method.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# シーケンス圧縮は強化学習におけるクレジット割り当てを高速化する

Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning ( http://arxiv.org/abs/2405.03878v2 )

ライセンス: Link先を確認
Aditya A. Ramesh, Kenny Young, Louis Kirsch, Jürgen Schmidhuber, (参考訳) 強化学習における時間的クレジット割り当ては、遅れた確率的な結果のために困難である。 モンテカルロの標的は行動と結果の間の長い遅延を橋渡しすることができるが、確率性によって高い分散目標につながる。 時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。 TD($\lambda$)は、このバイアス分散トレードオフをスムーズにナビゲートするメカニズムを提供する。 適切な$\lambda$を選択すると、パフォーマンスが大幅に向上する。 本稿では,Chunked-TDを提案する。これは,$\lambda$-returnターゲットを計算するためのモデルからトランジションの予測確率を利用する。 他のモデルベースの信用代入ソリューションとは異なり、Chunked-TDはモデルの不正確さに弱い。 本手法は,従来のTD学習における履歴圧縮と「チャンク」軌道の原理に動機付けられている。 学習された世界モデルによるチャンキングは、環境と政治の相互作用のほぼ決定論的領域を圧縮し、必要に応じてブートストラップしながらクレジット割り当てを高速化する。 我々は,オンラインで実装可能なアルゴリズムを提案し,従来のTD($\lambda$)よりもはるかに高速に解決できることを示す。

Temporal credit assignment in reinforcement learning is challenging due to delayed and stochastic outcomes. Monte Carlo targets can bridge long delays between action and consequence but lead to high-variance targets due to stochasticity. Temporal difference (TD) learning uses bootstrapping to overcome variance but introduces a bias that can only be corrected through many iterations. TD($\lambda$) provides a mechanism to navigate this bias-variance tradeoff smoothly. Appropriately selecting $\lambda$ can significantly improve performance. Here, we propose Chunked-TD, which uses predicted probabilities of transitions from a model for computing $\lambda$-return targets. Unlike other model-based solutions to credit assignment, Chunked-TD is less vulnerable to model inaccuracies. Our approach is motivated by the principle of history compression and 'chunks' trajectories for conventional TD learning. Chunking with learned world models compresses near-deterministic regions of the environment-policy interaction to speed up credit assignment while still bootstrapping when necessary. We propose algorithms that can be implemented online and show that they solve some problems much faster than conventional TD($\lambda$).
翻訳日:2024-06-06 11:37:14 公開日:2024-06-04
# ノイズ付加のない個人的フェデレーション学習はいつ可能か?

Differentially Private Federated Learning without Noise Addition: When is it Possible? ( http://arxiv.org/abs/2405.04551v2 )

ライセンス: Link先を確認
Jiang Zhang, Konstantinos Psounis, (参考訳) セキュアアグリゲーション(SA)を備えたフェデレートラーニング(FL)は、マシンラーニングモデルをトレーニングするためのプライバシ保護フレームワークとして注目され、サーバが個々の暗号化モデル更新からユーザのデータに関する情報を学習するのを防ぐ。 最近の研究は、他のユーザの更新から"ノイズ"を活用することで、複数のトレーニングラウンドで集約モデルを通じて情報漏洩をバウンドすることで、FLとSAのプライバシー保証を拡張している。 しかし、その作業で使われるプライバシー基準(ミューチュアル情報)は、最悪の場合のプライバシー保証を提供することなく、平均的なプライバシー漏洩を測定する。 この問題に対処するため、本研究では、FLとSAが最悪の場合の差分プライバシー保証を提供できる条件について検討する。 具体的には,SA が付加ノイズを伴わずに DP を提供するために必要な条件を正式に同定する。 次に、集約されたモデル更新のランダム性が非特異な共分散行列を持つガウス的であるとき、SAは共分散行列の最小固有値の逆数によって、プライバシーレベル$\epsilon$の差分プライバシー保証を提供することができることを証明した。 しかし、実際にはこれらの条件はほとんど維持できないため、FLにおけるSAがDPを達成するためには、モデル更新に付加されるノイズが依然として必要であることを示す。 最後に、DP保証に必要な加算雑音の量を削減するために、集約されたモデル更新の内部に固有のランダム性を活用する可能性について論じる。

Federated Learning (FL) with Secure Aggregation (SA) has gained significant attention as a privacy preserving framework for training machine learning models while preventing the server from learning information about users' data from their individual encrypted model updates. Recent research has extended privacy guarantees of FL with SA by bounding the information leakage through the aggregate model over multiple training rounds thanks to leveraging the "noise" from other users' updates. However, the privacy metric used in that work (mutual information) measures the on-average privacy leakage, without providing any privacy guarantees for worse-case scenarios. To address this, in this work we study the conditions under which FL with SA can provide worst-case differential privacy guarantees. Specifically, we formally identify the necessary condition that SA can provide DP without addition noise. We then prove that when the randomness inside the aggregated model update is Gaussian with non-singular covariance matrix, SA can provide differential privacy guarantees with the level of privacy $\epsilon$ bounded by the reciprocal of the minimum eigenvalue of the covariance matrix. However, we further demonstrate that in practice, these conditions are almost unlikely to hold and hence additional noise added in model updates is still required in order for SA in FL to achieve DP. Lastly, we discuss the potential solution of leveraging inherent randomness inside aggregated model update to reduce the amount of addition noise required for DP guarantee.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# モノのインターネットのためのブロックチェーン - 基本、アプリケーション、課題

Blockchains for Internet of Things: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2405.04803v4 )

ライセンス: Link先を確認
Yusen Wu, Ye Hu, Mingzhe Chen, Yelena Yesha, Mérouane Debbah, (参考訳) IoT(Internet of Things)サービスは、推論、自律性、制御のために、さまざまなデータのストレージ、送信、分析を必要とする。 ブロックチェーンは、分散化とセキュリティの固有の特性を持ち、コンセンサスベースのデータ共有を通じて、これらのデバイスに効率的なデータベースソリューションを提供する。 しかしながら、すべてのブロックチェーンシステムが特定のIoTアプリケーションに適している訳ではなく、プライバシの懸念から除外された方がメリットがある、という認識が不可欠です。 例えば、パブリックブロックチェーンは機密データを格納するのに適していない。 本稿では,IoTアプリケーションの拡張に適した3つのブロックチェーンについて,詳細なレビューを行う。 最初は3つのブロックチェーンシステムの基盤的な側面を掘り下げて、その強み、制限、実装ニーズを強調しました。 さらに、異なるブロックチェーンにおけるセキュリティ問題についても論じる。 その後、エッジAI、通信、ヘルスケアの3つの重要なIoT領域でブロックチェーンのアプリケーションを調査する。 さまざまなブロックチェーンをIoTに統合する上で、潜在的な課題と今後の方向性について述べています。 最終的に、この論文はブロックチェーンとIoTエコシステムのシナジーに関する包括的な視点を提供することを目的としており、関連する機会と複雑さを強調している。

Internet of Things (IoT) services necessitate the storage, transmission, and analysis of diverse data for inference, autonomy, and control. Blockchains, with their inherent properties of decentralization and security, offer efficient database solutions for these devices through consensus-based data sharing. However, it's essential to recognize that not every blockchain system is suitable for specific IoT applications, and some might be more beneficial when excluded with privacy concerns. For example, public blockchains are not suitable for storing sensitive data. This paper presents a detailed review of three distinct blockchains tailored for enhancing IoT applications. We initially delve into the foundational aspects of three blockchain systems, highlighting their strengths, limitations, and implementation needs. Additionally, we discuss the security issues in different blockchains. Subsequently, we explore the blockchain's application in three pivotal IoT areas: edge AI, communications, and healthcare. We underscore potential challenges and the future directions for integrating different blockchains in IoT. Ultimately, this paper aims to offer a comprehensive perspective on the synergies between blockchains and the IoT ecosystem, highlighting the opportunities and complexities involved.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 車線検出におけるロバストな物理世界バックドア攻撃に向けて

Towards Robust Physical-world Backdoor Attacks on Lane Detection ( http://arxiv.org/abs/2405.05553v2 )

ライセンス: Link先を確認
Xinwei Zhang, Aishan Liu, Tianyuan Zhang, Siyuan Liang, Xianglong Liu, (参考訳) ディープラーニングに基づく車線検出(LD)は、適応クルーズ制御のような自律走行システムにおいて重要な役割を果たす。 しかし、バックドア攻撃には弱い。 既存のLDのバックドア攻撃手法は、運転視点(例えば、視点変換)や環境条件(例えば、天気や照明の変化)の変化など、動的なシーン要因を考慮できないため、動的現実のシナリオにおいて限られた効果を示す。 本稿では,現実の動的シーン要因の変化に対処するために,LDの動的シーン適応バックドアアタックであるBadLANEを紹介する。 運転視点を変えることで生じる課題に対処するため,無形画素からなる非晶質トリガパターンを提案する。 このトリガー設計により、バックドアは道路やレンズ上の泥点や汚染の様々な形態や形状によって活性化され、運転中の車両の視界の変化に適応することができる。 環境変化の影響を軽減するため,異なる環境条件に合わせたメタジェネレータを訓練するためのメタ学習フレームワークを設計する。 これらの発電機は、バックドア注入のためのトリガーパターンの初期化として、気象や照明条件などの多様な環境情報を組み込んだメタトリガーを生成し、動的環境への適応を可能にする。 デジタルドメインと物理ドメインの両方で広く使われているLDモデルに対する大規模な実験は、攻撃の有効性を検証し、他のベースラインを著しく上回っている(アタック成功率では、平均25.15%)。 私たちのコードは新聞で公開されます。

Deep learning-based lane detection (LD) plays a critical role in autonomous driving systems, such as adaptive cruise control. However, it is vulnerable to backdoor attacks. Existing backdoor attack methods on LD exhibit limited effectiveness in dynamic real-world scenarios, primarily because they fail to consider dynamic scene factors, including changes in driving perspectives (e.g., viewpoint transformations) and environmental conditions (e.g., weather or lighting changes). To tackle this issue, this paper introduces BadLANE, a dynamic scene adaptation backdoor attack for LD designed to withstand changes in real-world dynamic scene factors. To address the challenges posed by changing driving perspectives, we propose an amorphous trigger pattern composed of shapeless pixels. This trigger design allows the backdoor to be activated by various forms or shapes of mud spots or pollution on the road or lens, enabling adaptation to changes in vehicle observation viewpoints during driving. To mitigate the effects of environmental changes, we design a meta-learning framework to train meta-generators tailored to different environmental conditions. These generators produce meta-triggers that incorporate diverse environmental information, such as weather or lighting conditions, as the initialization of the trigger patterns for backdoor implantation, thus enabling adaptation to dynamic environments. Extensive experiments on various commonly used LD models in both digital and physical domains validate the effectiveness of our attacks, outperforming other baselines significantly (+25.15% on average in Attack Success Rate). Our codes will be available upon paper publication.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# エントロピー不確実性関係による量子電池の抽出性評価

Evaluating extractable work of quantum batteries via entropic uncertainty relations ( http://arxiv.org/abs/2405.07185v2 )

ライセンス: Link先を確認
Meng-Long Song, Xue-Ke Song, Liu Ye, Dong Wang, (参考訳) 本研究では,バッテリチャージャーフィールドをモデルとした量子電池(QB)のボソニックおよびフェルミオン系貯水池存在下でのエネルギー変動に対するエントロピー不確実性関係(EURs)の有効性について検討した。 以上の結果から,抽出可能な作業(エクセルギーとエルゴトロピー)は異なるシナリオで多種多様であり,厳密性と抽出可能な作業との間には複雑な関係があることが示唆された。 エントロピー不確実性の低い境界の厳密性は、充電QBにおけるエネルギー変換効率のよい指標となることは注目に値する。 さらに,不確実性および低拘束性を含むEURがQBシステムのエネルギー変換効率にどのように寄与するかを明らかにする。 これらの知見は、量子電池の性能を評価する上での量子不確実性の役割をよりよく理解するために有用であると考えられている。

In this study, we investigate the effectiveness of entropic uncertainty relations (EURs) in discerning the energy variation in quantum batteries (QBs) modelled by battery-charger-field in the presence of bosonic and fermionic reservoirs. Our results suggest that the extractable works (exergy and ergotropy) have versatile characteristics in different scenarios, resulting in a complex relationship between tightness and extractable work. It is worth noting that the tightness of the lower bound of entropic uncertainty can be a good indicator for energy conversion efficiency in charging QBs. Furthermore, we disclose how the EUR including uncertainty and lower bound contributes to energy conversion efficiency in the QB system. It is believed that these findings will be beneficial for better understanding the role of quantum uncertainty in evaluating quantum battery performance.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# スパース入力による神経放射場改善のためのコーディネートネットワークとテンソル特徴の相乗的統合

Synergistic Integration of Coordinate Network and Tensorial Feature for Improving Neural Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2405.07857v2 )

ライセンス: Link先を確認
Mingyu Kim, Jun-Seong Kim, Se-Young Yun, Jin-Hwa Kim, (参考訳) マルチプレーン表現は、静的および動的神経放射場を横断する高速な訓練と推論のために強調されている。 このアプローチは、学習可能な格子上に投影し、隣接する頂点を補間することで関連する特徴を構築する。 しかし、低周波の詳細の取得には限界があり、マルチ解像度の概念にもかかわらず、細部への偏りのため、低周波の特徴のパラメータを過剰に使用する傾向がある。 この現象は、トレーニングのポーズがスパースであるときに不安定さと非効率性をもたらす。 本研究では,低周波信号に対する強いバイアスで知られる座標ベースMLPネットワークと,多面表現を相乗的に統合する手法を提案する。 座標に基づくネットワークは低周波の詳細を捉え、マルチプレーン表現は細かな詳細を捉えることに重点を置いている。 それらの間の残余接続は、その固有の特性をシームレスに保存することを示した。 さらに,提案手法は,これら2つの特徴の絡み合いを促進させる。 提案手法は,スパース入力を持つ静的および動的NeRFのベースラインモデルよりも優れており,パラメータが少なく,同等の結果が得られることを実証的に実証した。

The multi-plane representation has been highlighted for its fast training and inference across static and dynamic neural radiance fields. This approach constructs relevant features via projection onto learnable grids and interpolating adjacent vertices. However, it has limitations in capturing low-frequency details and tends to overuse parameters for low-frequency features due to its bias toward fine details, despite its multi-resolution concept. This phenomenon leads to instability and inefficiency when training poses are sparse. In this work, we propose a method that synergistically integrates multi-plane representation with a coordinate-based MLP network known for strong bias toward low-frequency signals. The coordinate-based network is responsible for capturing low-frequency details, while the multi-plane representation focuses on capturing fine-grained details. We demonstrate that using residual connections between them seamlessly preserves their own inherent properties. Additionally, the proposed progressive training scheme accelerates the disentanglement of these two features. We demonstrate empirically that our proposed method outperforms baseline models for both static and dynamic NeRFs with sparse inputs, achieving comparable results with fewer parameters.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 動的に構成可能なマルチヘッドアテンションによる変圧器の改良

Improving Transformers with Dynamically Composable Multi-Head Attention ( http://arxiv.org/abs/2405.08553v2 )

ライセンス: Link先を確認
Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan, (参考訳) MHA(Multi-Head Attention)はTransformerの重要なコンポーネントである。 MHAでは、アテンションヘッドは独立して動作し、アテンションスコア行列の低ランクボトルネックやヘッド冗長といった問題を引き起こす。 本稿では、MHAの欠点に対処し、動的にアテンションヘッドを構成することでモデルの表現力を高めるパラメータと計算効率のよいアテンションアーキテクチャである動的構成可能マルチヘッドアテンション(DCMHA)を提案する。 DCMHAの中核には$\it{Compose}$関数があり、入力依存の方法で注目点と重み行列を変換する。 DCMHAは、任意のトランスアーキテクチャにおけるMHAのドロップイン置換として使用することができ、対応するDCFormerを得ることができる。 DCFormerはトランスフォーマーを言語モデリングにおける異なるアーキテクチャやモデルスケールで大きく上回り、モデルの性能を1.7x-2.0x計算と比較した。 例えば、DCPythia-6.9Bは、事前訓練されたパープレキシティと下流タスク評価の両方で、オープンソースのPythia-12Bを上回っている。 コードとモデルはhttps://github.com/Caiyun-AI/DCFormer.comで入手できる。

Multi-Head Attention (MHA) is a key component of Transformer. In MHA, attention heads work independently, causing problems such as low-rank bottleneck of attention score matrices and head redundancy. We propose Dynamically Composable Multi-Head Attention (DCMHA), a parameter and computation efficient attention architecture that tackles the shortcomings of MHA and increases the expressive power of the model by dynamically composing attention heads. At the core of DCMHA is a $\it{Compose}$ function that transforms the attention score and weight matrices in an input-dependent way. DCMHA can be used as a drop-in replacement of MHA in any transformer architecture to obtain the corresponding DCFormer. DCFormer significantly outperforms Transformer on different architectures and model scales in language modeling, matching the performance of models with ~1.7x-2.0x compute. For example, DCPythia-6.9B outperforms open source Pythia-12B on both pretraining perplexity and downstream task evaluation. The code and models are available at https://github.com/Caiyun-AI/DCFormer.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# マスクによる物体検出における見えないバックドア攻撃

Mask-based Invisible Backdoor Attacks on Object Detection ( http://arxiv.org/abs/2405.09550v3 )

ライセンス: Link先を確認
Jeongjin Shin, (参考訳) ディープラーニングモデルは、オブジェクト検出の領域で前例のないパフォーマンスを達成し、自律運転やセキュリティなどの領域で突破する結果となった。 しかし、ディープラーニングモデルはバックドア攻撃に弱い。 これらの攻撃は、モデルがトリガーなしで標準モデルと同じように振る舞うように促すが、事前に定義されたトリガーを検出すると悪意ある振る舞いをする。 画像分類におけるバックドア攻撃に関する広範な研究にもかかわらず、物体検出への応用はいまだに未調査である。 重要な現実世界のシナリオでオブジェクト検出が広く適用されていることを考えると、これらの脆弱性の感度と潜在的な影響は過大評価できない。 本研究では,マスクベースのアプローチを用いて,物体検出に対する効果的な視覚的バックドア攻撃を提案する。 オブジェクト検出には、オブジェクトの消失、オブジェクトの誤分類、オブジェクト生成攻撃という、3つの異なる攻撃シナリオが検討された。 広範囲にわたる実験を通じて,これらの攻撃の有効性を包括的に検証し,有効対策を決定するための特定の防御方法を検討した。 コードはhttps://github.com/jeongjin0/invisible-backdoor-object-detectionで利用可能になる。

Deep learning models have achieved unprecedented performance in the domain of object detection, resulting in breakthroughs in areas such as autonomous driving and security. However, deep learning models are vulnerable to backdoor attacks. These attacks prompt models to behave similarly to standard models without a trigger; however, they act maliciously upon detecting a predefined trigger. Despite extensive research on backdoor attacks in image classification, their application to object detection remains relatively underexplored. Given the widespread application of object detection in critical real-world scenarios, the sensitivity and potential impact of these vulnerabilities cannot be overstated. In this study, we propose an effective invisible backdoor attack on object detection utilizing a mask-based approach. Three distinct attack scenarios were explored for object detection: object disappearance, object misclassification, and object generation attack. Through extensive experiments, we comprehensively examined the effectiveness of these attacks and tested certain defense methods to determine effective countermeasures. Code will be available at https://github.com/jeongjin0/invisible-backdoor-object-detection
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 多項ロジスティック帯域に対する極小最小レグレット

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit ( http://arxiv.org/abs/2405.09831v3 )

ライセンス: Link先を確認
Joongkyu Lee, Min-hwan Oh, (参考訳) 本稿では,学習エージェントがコンテキスト情報に基づいて順にアソシエーションを選択し,ユーザからのフィードバックがMNL選択モデルに従うという,コンテキスト多項ロジット(MNL)バンディット問題について検討する。 特に特徴次元$d$と最大配置サイズ$K$については、下限と上限の差が顕著である。 さらに、これらの境界の間の報酬構造の変化は、最適性の探求を複雑にする。 すべてのアイテムが同じ期待される報酬を持つ一様報酬の下で、後悔の少ない$\Omega(d\sqrt{\smash[b]{T/K}})$を確立し、一致する上限の$\tilde{O}(d\sqrt{\smash[b]{T/K}})$を達成する定数時間アルゴリズム OFU-MNL+を提案する。 非一様報酬の下では、$\Omega(d\sqrt{T})$の下位境界と$\tilde{O}(d\sqrt{T})$の上限を証明し、OFU-MNL+によっても達成できる。 我々の実証研究はこれらの理論的な発見を支持している。 我々の知る限りでは、これは文脈的 MNL バンディット文学において、一様あるいは一様でない報酬設定に対して最小の最適性を証明し、この最適性を対数的要因まで達成する計算効率の良いアルゴリズムを提案する最初の作品である。

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the feature dimension $d$ and the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $\Omega(d\sqrt{\smash[b]{T/K}})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{\smash[b]{T/K}})$. Under non-uniform rewards, we prove a lower bound of $\Omega(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 行列積作用素ノルムを持つ格子上の相互作用キラルフェルミオン

Interacting chiral fermions on the lattice with matrix product operator norms ( http://arxiv.org/abs/2405.10285v2 )

ライセンス: Link先を確認
Jutho Haegeman, Laurens Lootens, Quinten Mortier, Alexander Stottmeister, Atsushi Ueda, Frank Verstraete, (参考訳) 格子上の相互作用するキラルフェルミオンをシミュレートするハミルトニアン形式を、一様性や局所性を保ちながら、キラル対称性を破ることなく発展させる。 フェルミオン倍問題(fermion doubleling problem)は、半定ノルムを持つフォック空間を構成することによって回避される。 単粒子セクターの理論を投影する際には、ステーシーフェルミオンの枠組みを復元し、フリーモデルのスケーリング限界がカイラルフェルミオン場を回復することを示した。 技術的には、行列積作用素ノルムを用いて、高次元位相理論の境界を模倣する。 原理の証明として、ハバード型近傍相互作用を持つ周期環上の1つのワイルフェルミオンを考察し、変分一般化DMRG符号を構築し、大規模システムサイズの基底状態が効率的に決定可能であることを示す。 テンソルネットワークアプローチには目立った問題がないため、化学ポテンシャルを付加し、リアルタイム進化を研究することができる。

We develop a Hamiltonian formalism for simulating interacting chiral fermions on the lattice while preserving unitarity and locality and without breaking the chiral symmetry. The fermion doubling problem is circumvented by constructing a Fock space endowed with a semi-definite norm. When projecting our theory on the the single-particle sector, we recover the framework of Stacey fermions, and we demonstrate that the scaling limit of the free model recovers the chiral fermion field. Technically, we make use of a matrix product operator norm to mimick the boundary of a higher dimensional topological theory. As a proof of principle, we consider a single Weyl fermion on a periodic ring with Hubbard-type nearest-neighbor interactions and construct a variational generalized DMRG code to demonstrate that the ground state for large system sizes can be determined efficiently. As our tensor network approach does not exhibit any sign problem, we can add a chemical potential and study real-time evolution.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 大規模言語モデルの効率的な推論のための層凝縮KVキャッシュ

Layer-Condensed KV Cache for Efficient Inference of Large Language Models ( http://arxiv.org/abs/2405.10637v2 )

ライセンス: Link先を確認
Haoyi Wu, Kewei Tu, (参考訳) 大規模なメモリ消費は、現実世界のアプリケーションに高スループットの大規模言語モデルをデプロイする上で、大きなボトルネックとなっている。 多数のパラメータに加えて、トランスフォーマーアーキテクチャにおけるアテンション機構のためのキー値(KV)キャッシュは、特にディープ言語モデルの場合、かなりの量のメモリを消費する。 本稿では,少数のレイヤのKVのみを計算・キャッシュし,メモリ消費を大幅に削減し,推論スループットを向上する手法を提案する。 大規模言語モデルを用いた実験により,本手法は標準変圧器よりも最大26$\times$高いスループットを達成でき,言語モデリングや下流タスクにおける競合性能が向上することが示された。 また,本手法はトランスフォーマーのメモリ節約技術と直交しているため,モデルと統合しやすく,推論効率の向上が図られている。 私たちのコードはhttps://github.com/whyNLP/LCKVで公開されています。

Huge memory consumption has been a major bottleneck for deploying high-throughput large language models in real-world applications. In addition to the large number of parameters, the key-value (KV) cache for the attention mechanism in the transformer architecture consumes a significant amount of memory, especially when the number of layers is large for deep language models. In this paper, we propose a novel method that only computes and caches the KVs of a small number of layers, thus significantly saving memory consumption and improving inference throughput. Our experiments on large language models show that our method achieves up to 26$\times$ higher throughput than standard transformers and competitive performance in language modeling and downstream tasks. In addition, our method is orthogonal to existing transformer memory-saving techniques, so it is straightforward to integrate them with our model, achieving further improvement in inference efficiency. Our code is available at https://github.com/whyNLP/LCKV.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 因果発見のための適応型オンライン実験設計

Adaptive Online Experimental Design for Causal Discovery ( http://arxiv.org/abs/2405.11548v2 )

ライセンス: Link先を確認
Muhammad Qasim Elahi, Lai Wei, Murat Kocaoglu, Mahsa Ghasemi, (参考訳) 因果発見は、観察データ、介入データ、またはそれらの組み合わせを利用して因果グラフに符号化された因果関係を明らかにすることを目的としている。 既存の因果発見法の大部分は、無限の介入データを想定して開発されている。 我々は、データ介入効率に重点を置き、オンライン学習の観点から因果発見を形式化し、バンドイット問題における純粋な探索から着想を得た。 グラフのすべてのエッジを少なくとも一度は切断する介入からなるグラフ分離システムは、最悪の場合であっても無限の介入データが利用できる場合に因果グラフを学習するのに十分である。 本稿では,グラフ分離システムからの介入をアロケーションマッチングにより適応的に選択し,サンプリング履歴に基づいて因果グラフを学習するトラック・アンド・ストップ因果探索アルゴリズムを提案する。 任意の信頼度が与えられた場合、アルゴリズムは終了条件を決定し、それを満たすまで実行させる。 本稿では,提案アルゴリズムを解析し,必要な介入サンプルの期待数に基づいて問題依存上界を確立する。 提案アルゴリズムは,様々なランダムに生成した因果グラフのシミュレーションにおいて,既存の手法よりも優れている。 学習した因果グラフと地上の真理の間の構造的ハミング距離(SHD)によって測定され、試料は著しく少ない。

Causal discovery aims to uncover cause-and-effect relationships encoded in causal graphs by leveraging observational, interventional data, or their combination. The majority of existing causal discovery methods are developed assuming infinite interventional data. We focus on data interventional efficiency and formalize causal discovery from the perspective of online learning, inspired by pure exploration in bandit problems. A graph separating system, consisting of interventions that cut every edge of the graph at least once, is sufficient for learning causal graphs when infinite interventional data is available, even in the worst case. We propose a track-and-stop causal discovery algorithm that adaptively selects interventions from the graph separating system via allocation matching and learns the causal graph based on sampling history. Given any desired confidence value, the algorithm determines a termination condition and runs until it is met. We analyze the algorithm to establish a problem-dependent upper bound on the expected number of required interventional samples. Our proposed algorithm outperforms existing methods in simulations across various randomly generated causal graphs. It achieves higher accuracy, measured by the structural hamming distance (SHD) between the learned causal graph and the ground truth, with significantly fewer samples.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 大規模言語モデルにおける記憶のマルチパースペクティブ解析

A Multi-Perspective Analysis of Memorization in Large Language Models ( http://arxiv.org/abs/2405.11577v4 )

ライセンス: Link先を確認
Bowen Chen, Namgi Han, Yusuke Miyao, (参考訳) 数十億のパラメータを持つ巨大なコーパスで訓練された大規模言語モデル(LLM)は、様々な分野で前例のない性能を示している。 優れた性能には驚きましたが、研究者たちはこれらのLSMの特別な振る舞いにも気づきました。 これらの行動の1つは記憶であり、LLMはそれらをトレーニングするのと同じ内容を生成することができる。 過去の研究では暗記について論じられていたが、LLMの暗記は、特に暗記の原因とそれらを生成するダイナミックスについての説明を欠いている。 本研究では,様々な視点から記憶を包括的に議論し,議論対象を記憶されたコンテンツだけでなく,記憶されていないコンテンツにも拡張した。 実験により, モデルサイズ, 継続サイズ, 文脈サイズの関係を明らかにすることができた。 さらに,暗記文が暗記文にどのように移行するかを示した。 2) 組込み解析により, 暗記スコアの異なる文の埋め込み空間において, モデルサイズにまたがる分布と復号化のダイナミクスを示した。 n-gram統計解析では, モデルが暗記文や暗記文を生成し始めると, n-gramおよびエントロピー復号力学の解析により境界効果が発見された。 (4) 異なるモデルの暗記を予測するためにトランスフォーマーモデルを訓練し, 文脈による暗記の予測が可能であった。

Large Language Models (LLMs), trained on massive corpora with billions of parameters, show unprecedented performance in various fields. Though surprised by their excellent performances, researchers also noticed some special behaviors of those LLMs. One of those behaviors is memorization, in which LLMs can generate the same content used to train them. Though previous research has discussed memorization, the memorization of LLMs still lacks explanation, especially the cause of memorization and the dynamics of generating them. In this research, we comprehensively discussed memorization from various perspectives and extended the discussion scope to not only just the memorized content but also less and unmemorized content. Through various studies, we found that: (1) Through experiments, we revealed the relation of memorization between model size, continuation size, and context size. Further, we showed how unmemorized sentences transition to memorized sentences. (2) Through embedding analysis, we showed the distribution and decoding dynamics across model size in embedding space for sentences with different memorization scores. The n-gram statistics analysis presents d (3) An analysis over n-gram and entropy decoding dynamics discovered a boundary effect when the model starts to generate memorized sentences or unmemorized sentences. (4)We trained a Transformer model to predict the memorization of different models, showing that it is possible to predict memorizations by context.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 時系列特徴駆動に基づく適応畳み込み予測ネットワーク

Adaptive Convolutional Forecasting Network Based on Time Series Feature-Driven ( http://arxiv.org/abs/2405.12038v2 )

ライセンス: Link先を確認
Dandan Zhang, Zhiqiang Zhang, Nanguang Chen, Yun Wang, (参考訳) 実世界のシナリオにおける時系列データには、かなりの量の非線形情報が含まれており、モデルのトレーニングプロセスに著しく干渉し、予測性能が低下する。 したがって、時系列予測過程において、局所的およびグローバルな時系列パターンを抽出し、異なる時間観測における潜在的非線形特徴を理解することは極めて重要である。 この課題に対処するために、マルチレゾリューション畳み込みと変形可能な畳み込み演算を導入する。 異なる拡張因子を持つ畳み込みカーネルを用いて受容領域を拡大し、異なる解像度で時間相関情報を捕捉し、追加のオフセットベクトルによってサンプリング位置を適応的に調整することにより、時間観測における潜在的な非線形特徴を捕捉するネットワークの能力を高める。 そこで我々は, 局所的および大域的時間依存性と, 多変量時系列における観測間の非線形特徴を効果的にモデル化する適応畳み込みネットワークACNetを提案する。 具体的には、時系列の特徴を異なる解像度で抽出し、融合することにより、時系列における局所的な文脈情報とグローバルなパターンの両方をキャプチャする。 設計された非線形特徴適応抽出モジュールは、時系列内の異なる時間観測における非線形特徴をキャプチャする。 実世界の12のデータセットを対象としたACNetの性能評価を行った。 以上の結果から,ACNetは短期・長期の予測タスクにおいて,実行効率が良好に向上することを示す。

Time series data in real-world scenarios contain a substantial amount of nonlinear information, which significantly interferes with the training process of models, leading to decreased prediction performance. Therefore, during the time series forecasting process, extracting the local and global time series patterns and understanding the potential nonlinear features among different time observations are highly significant. To address this challenge, we introduce multi-resolution convolution and deformable convolution operations. By enlarging the receptive field using convolution kernels with different dilation factors to capture temporal correlation information at different resolutions, and adaptively adjusting the sampling positions through additional offset vectors, we enhance the network's ability to capture potential nonlinear features among time observations. Building upon this, we propose ACNet, an adaptive convolutional network designed to effectively model the local and global temporal dependencies and the nonlinear features between observations in multivariate time series. Specifically, by extracting and fusing time series features at different resolutions, we capture both local contextual information and global patterns in the time series. The designed nonlinear feature adaptive extraction module captures the nonlinear features among different time observations in the time series. We evaluated the performance of ACNet across twelve real-world datasets. The results indicate that ACNet consistently achieves state-of-the-art performance in both short-term and long-term forecasting tasks with favorable runtime efficiency.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-04
# 顔認識システムの脆弱性を再考する:実践的視点から

Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective ( http://arxiv.org/abs/2405.12786v2 )

ライセンス: Link先を確認
Jiahao Chen, Zhiqiang Shen, Yuwen Pu, Chunyi Zhou, Changjiang Li, Ting Wang, Shouling Ji, (参考訳) 顔認識システム(FRS)は、監視やユーザ認証を含む重要なアプリケーションに統合され、現代のセキュリティシステムにおける彼らの重要な役割を強調している。 最近の研究では、FRSの脆弱性(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練など)が明らかにされており、信頼性と信頼性に関する重大な懸念が提起されている。 従来の研究は主に伝統的な敵対的攻撃やバックドア攻撃に焦点をあてており、そのような脅威の資源集約的あるいは特権的支配的な性質を見越して、その実践的な一般化、盗み、普遍性、堅牢さを制限していた。 本論文では,ユーザ研究と予備調査を通じて,FRSの固有の脆弱性を掘り下げる。 これらの脆弱性を悪用することで、FIBAと呼ばれる顔認証バックドア攻撃という新たな攻撃を特定できる。 FIBAは従来の攻撃の限界を回避し、攻撃者が特定のトリガーを寄付してシステムをバイパスすることで広範囲の破壊を可能にする。 これは、データベースに1つの有毒な例が挿入された後、対応するトリガーが攻撃者がFRSを偽造するための普遍的なキーとなることを意味する。 この戦略は基本的に、入学段階で開始することで従来の攻撃に挑戦し、トレーニングデータではなく、特徴データベースを汚染することで脅威の景観を劇的に変える。

Face Recognition Systems (FRS) have increasingly integrated into critical applications, including surveillance and user authentication, highlighting their pivotal role in modern security systems. Recent studies have revealed vulnerabilities in FRS to adversarial (e.g., adversarial patch attacks) and backdoor attacks (e.g., training data poisoning), raising significant concerns about their reliability and trustworthiness. Previous studies primarily focus on traditional adversarial or backdoor attacks, overlooking the resource-intensive or privileged-manipulation nature of such threats, thus limiting their practical generalization, stealthiness, universality and robustness. Correspondingly, in this paper, we delve into the inherent vulnerabilities in FRS through user studies and preliminary explorations. By exploiting these vulnerabilities, we identify a novel attack, facial identity backdoor attack dubbed FIBA, which unveils a potentially more devastating threat against FRS:an enrollment-stage backdoor attack. FIBA circumvents the limitations of traditional attacks, enabling broad-scale disruption by allowing any attacker donning a specific trigger to bypass these systems. This implies that after a single, poisoned example is inserted into the database, the corresponding trigger becomes a universal key for any attackers to spoof the FRS. This strategy essentially challenges the conventional attacks by initiating at the enrollment stage, dramatically transforming the threat landscape by poisoning the feature database rather than the training data.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# Ada-HGNN: スケーラブルハイパーグラフニューラルネットワークの適応サンプリング

Ada-HGNN: Adaptive Sampling for Scalable Hypergraph Neural Networks ( http://arxiv.org/abs/2405.13372v2 )

ライセンス: Link先を確認
Shuai Wang, David W. Zhang, Jia-Hong Huang, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring, (参考訳) ハイパーグラフは、社会的から生物学的ネットワークに至るまで、様々な現実世界のシナリオにおける複雑な接続を描写するための効果的なモデルとして機能する。 ハイパーグラフニューラルネットワーク(HGNN)の開発は、メモリ制限のためにスケーラビリティが顕著な課題であるが、データ内の複雑な関連を管理する貴重な方法として登場した。 本研究では,ハイパーグラフに特化して設計された新しい適応サンプリング手法を提案する。 また,RHA(Random Hyperedge Augmentation)技術とMLP(Multilayer Perceptron)モジュールを付加して,提案手法の堅牢性と一般化性を向上させる。 実世界のデータセットを用いた詳細な実験により,従来のHGNNなどのベースラインモデルに類似した性能を維持しつつ,計算とメモリの要求を著しく低減し,本手法の有効性が証明された。 本研究は,大規模アプリケーションにおけるHGNNのスケーラビリティと有効性を両立させる方法である。 また、コードベースの公開も行います。

Hypergraphs serve as an effective model for depicting complex connections in various real-world scenarios, from social to biological networks. The development of Hypergraph Neural Networks (HGNNs) has emerged as a valuable method to manage the intricate associations in data, though scalability is a notable challenge due to memory limitations. In this study, we introduce a new adaptive sampling strategy specifically designed for hypergraphs, which tackles their unique complexities in an efficient manner. We also present a Random Hyperedge Augmentation (RHA) technique and an additional Multilayer Perceptron (MLP) module to improve the robustness and generalization capabilities of our approach. Thorough experiments with real-world datasets have proven the effectiveness of our method, markedly reducing computational and memory demands while maintaining performance levels akin to conventional HGNNs and other baseline models. This research paves the way for improving both the scalability and efficacy of HGNNs in extensive applications. We will also make our codebase publicly accessible.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# セマンティックチャネル等化のための潜時空間アライメント

Latent Space Alignment for Semantic Channel Equalization ( http://arxiv.org/abs/2405.13511v2 )

ライセンス: Link先を確認
Tomás Hüttebräucker, Mohamed Sana, Emilio Calvanese Strinati, (参考訳) 我々は,分散タスク解決における言語ミスマッチの効果を探るため,セマンティックおよびゴール指向のコミュニケーションシステムにおけるエージェント間の共用言語の制約を緩和する。 本稿では,エージェントが異なる言語を使用する場合のコミュニケーションで導入された意味的歪みのモデル化と尺度を提供する数学的枠組みを提案する。 そこで我々は, 数値評価により, 有効性を証明した意味チャネル等化手法を提案する。

We relax the constraint of a shared language between agents in a semantic and goal-oriented communication system to explore the effect of language mismatch in distributed task solving. We propose a mathematical framework, which provides a modelling and a measure of the semantic distortion introduced in the communication when agents use distinct languages. We then propose a new approach to semantic channel equalization with proven effectiveness through numerical evaluations.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# LIRE:リコメンデーションアライメントのためのリストワイド報酬強化

LIRE: listwise reward enhancement for preference alignment ( http://arxiv.org/abs/2405.13516v2 )

ライセンス: Link先を確認
Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo, Zhendong Mao, (参考訳) 近年,Large Language Models (LLMs) の生成と人的価値の整合を図り,有害な内容や不健康な内容の緩和に努めている。 人間のフィードバックからの強化学習(RLHF)の活用は有効であることが証明され、研究者によって広く採用されている。 しかし、RLHFの実装は複雑であり、ハイパーパラメータに対する感度は安定した性能とスケーラビリティを達成する。 さらに、選好アライメントに対する一般的なアプローチは、主にペアワイズ比較に焦点を合わせ、マルチレスポンスシナリオを限定的に探索することで、候補プール内の潜在的リッチネスを見越すことができる。 リストワイド・リワード・エンハンスメント・フォー・プライス・アライメント(LIRE)は、複数の応答のオフライン報酬を合理化されたリストワイド・フレームワークに組み込んだ、勾配に基づく報酬最適化手法である。 LIREは実装が簡単で、最小限のパラメータチューニングが必要であり、自然にマルチレスポンスシナリオに拡張しながらペアワイズパラダイムとシームレスに整合する。 さらに、トレーニング中に報酬を反復的に精算することを目的とした自己改善アルゴリズムを導入する。 実験の結果、LIREは対話タスクや要約タスクのベンチマークにおいて既存の手法よりも優れており、プロキシ報酬モデルと人間のアノテーションを用いて評価されたアウト・オブ・ディストリビューションデータへの転送性が良好であることがわかった。

Recently, tremendous strides have been made to align the generation of Large Language Models (LLMs) with human values to mitigate toxic or unhelpful content. Leveraging Reinforcement Learning from Human Feedback (RLHF) proves effective and is widely adopted by researchers. However, implementing RLHF is complex, and its sensitivity to hyperparameters renders achieving stable performance and scalability challenging. Furthermore, prevailing approaches to preference alignment primarily concentrate on pairwise comparisons, with limited exploration into multi-response scenarios, thereby overlooking the potential richness within the candidate pool. For the above reasons, we propose a new approach: Listwise Reward Enhancement for Preference Alignment (LIRE), a gradient-based reward optimization approach that incorporates the offline rewards of multiple responses into a streamlined listwise framework, thus eliminating the need for online sampling during training. LIRE is straightforward to implement, requiring minimal parameter tuning, and seamlessly aligns with the pairwise paradigm while naturally extending to multi-response scenarios. Moreover, we introduce a self-enhancement algorithm aimed at iteratively refining the reward during training. Our experiments demonstrate that LIRE consistently outperforms existing methods across several benchmarks on dialogue and summarization tasks, with good transferability to out-of-distribution data, assessed using proxy reward models and human annotators.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# ViHateT5:統一テキスト・テキスト・トランスモデルによるベトナムにおけるヘイトスピーチ検出の強化

ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model ( http://arxiv.org/abs/2405.14141v2 )

ライセンス: Link先を確認
Luan Thanh Nguyen, (参考訳) 近年のベトナムにおけるヘイトスピーチ検出(HSD)の進歩は、主にトランスフォーマーベースの事前訓練言語モデル、特にBERTアーキテクチャを基盤としたモデルが出現したことに起因する。 しかし、特殊な微調整モデルの必要性は、マルチタスク型HSDシステムの開発の複雑さと断片化をもたらしている。 さらに、現在の方法論のほとんどは、オンラインプラットフォーム上での人間の振る舞いを正確に捉えないWikipediaのような形式的なテキストデータセットに基づいてトレーニングされた、微調整された一般的な事前訓練モデルに焦点を当てている。 本研究では,提案する大規模ドメイン固有データセット VOZ-HSD を事前学習した T5 ベースのモデルである ViHateT5 を紹介する。 ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。 また,本実験は,モデルの有効性に関する事前学習データにおけるラベル分布の重要性も明らかにした。 我々は、VOZ-HSDデータセット、事前訓練されたチェックポイント、統合されたHSD-multitask ViHateT5モデル、GitHub上の関連ソースコードなど、研究目的で実験資料を提供しています。

Recent advancements in hate speech detection (HSD) in Vietnamese have made significant progress, primarily attributed to the emergence of transformer-based pre-trained language models, particularly those built on the BERT architecture. However, the necessity for specialized fine-tuned models has resulted in the complexity and fragmentation of developing a multitasking HSD system. Moreover, most current methodologies focus on fine-tuning general pre-trained models, primarily trained on formal textual datasets like Wikipedia, which may not accurately capture human behavior on online platforms. In this research, we introduce ViHateT5, a T5-based model pre-trained on our proposed large-scale domain-specific dataset named VOZ-HSD. By harnessing the power of a text-to-text architecture, ViHateT5 can tackle multiple tasks using a unified model and achieve state-of-the-art performance across all standard HSD benchmarks in Vietnamese. Our experiments also underscore the significance of label distribution in pre-training data on model efficacy. We provide our experimental materials for research purposes, including the VOZ-HSD dataset, pre-trained checkpoint, the unified HSD-multitask ViHateT5 model, and related source code on GitHub publicly.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# ソフトリビジョン下における一般ベイズ規則による半教師付き学習

Semi-Supervised Learning guided by the Generalized Bayes Rule under Soft Revision ( http://arxiv.org/abs/2405.15294v2 )

ライセンス: Link先を確認
Stefan Dietrich, Julian Rodemann, Christoph Jansen, (参考訳) 半教師付き学習における擬似ラベル選択(PLS)のロバストな基準として最近提案されたソフトリビジョンを用いたガンマ・マキシミン法の理論的・計算的研究を行った。 PLS の従来の手法に反し、先駆体のクレダルセット(一般化ベイズ)を用いて、てんかんのモデリングの不確実性を表す。 後者はGamma-Maximin法によるソフトリビジョンによって更新される。 最終的に、更新された干潟集合から最も好ましくない分布に照らして、擬似ラベル付きデータを選択する。 我々は,最適化問題としてソフトリビジョンを用いたガンマ・マキシミン法を用いて,最適な擬似ラベル付きデータを求めるタスクを定式化する。 そこで,ロジスティックモデルのクラスに対する具体的な実装により,提案手法の予測能力と競合するアプローチを比較することができる。 特にラベル付きデータの比率が低い場合, ソフトリビジョンによるガンマ・マキシミン法は非常に有望な結果が得られることが観察された。

We provide a theoretical and computational investigation of the Gamma-Maximin method with soft revision, which was recently proposed as a robust criterion for pseudo-label selection (PLS) in semi-supervised learning. Opposed to traditional methods for PLS we use credal sets of priors ("generalized Bayes") to represent the epistemic modeling uncertainty. These latter are then updated by the Gamma-Maximin method with soft revision. We eventually select pseudo-labeled data that are most likely in light of the least favorable distribution from the so updated credal set. We formalize the task of finding optimal pseudo-labeled data w.r.t. the Gamma-Maximin method with soft revision as an optimization problem. A concrete implementation for the class of logistic models then allows us to compare the predictive power of the method with competing approaches. It is observed that the Gamma-Maximin method with soft revision can achieve very promising results, especially when the proportion of labeled data is low.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# FedCal: 集約パラメータスケーラによるフェデレーション学習における局所的およびグローバルな校正の実現

FedCal: Achieving Local and Global Calibration in Federated Learning via Aggregated Parameterized Scaler ( http://arxiv.org/abs/2405.15458v2 )

ライセンス: Link先を確認
Hongyi Peng, Han Yu, Xiaoli Tang, Xiaoxiao Li, (参考訳) フェデレートラーニング(FL)は、分散データオーナ間で協調的な機械学習を可能にするが、データの均一性はモデルのキャリブレーションに課題をもたらす。 以前の作業では、非IDデータの精度向上に重点を置いていたが、キャリブレーションは未探索のままである。 本研究は,既存のFLアグリゲーションアプローチが準最適キャリブレーションにつながることを明らかにし,クライアントのラベル分布に制約があるにもかかわらず,大域的キャリブレーション誤差は漸近的に低い境界値であることを示す。 そこで本研究では,局所校正とグローバル校正を両立するフェデレート校正(FedCal)手法を提案する。 クライアント固有のスケーラをローカルキャリブレーションに利用して、予測精度を犠牲にすることなく、出力ミスアライメントを効果的に補正する。 これらのスケーラを平均化して集約してグローバルスケーラを生成し、グローバルキャリブレーション誤差を最小化する。 大規模な実験により、FedCalは最高性能のベースラインを著しく上回り、グローバルキャリブレーションエラーを平均47.66%削減した。

Federated learning (FL) enables collaborative machine learning across distributed data owners, but data heterogeneity poses a challenge for model calibration. While prior work focused on improving accuracy for non-iid data, calibration remains under-explored. This study reveals existing FL aggregation approaches lead to sub-optimal calibration, and theoretical analysis shows despite constraining variance in clients' label distributions, global calibration error is still asymptotically lower bounded. To address this, we propose a novel Federated Calibration (FedCal) approach, emphasizing both local and global calibration. It leverages client-specific scalers for local calibration to effectively correct output misalignment without sacrificing prediction accuracy. These scalers are then aggregated via weight averaging to generate a global scaler, minimizing the global calibration error. Extensive experiments demonstrate FedCal significantly outperforms the best-performing baseline, reducing global calibration error by 47.66% on average.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# MagicBathyNet: 浅海域におけるバシメトリー予測と画素による分類のためのマルチモーダルリモートセンシングデータセット

MagicBathyNet: A Multimodal Remote Sensing Dataset for Bathymetry Prediction and Pixel-based Classification in Shallow Waters ( http://arxiv.org/abs/2405.15477v2 )

ライセンス: Link先を確認
Panagiotis Agrafiotis, Łukasz Janowski, Dimitrios Skarlatos, Begüm Demir, (参考訳) 複雑なセマンティックな内容と相まって、正確な、詳細な、そして頻繁な水温測定は、激しい気候と人為的な圧力に直面している海底の浅瀬にとって不可欠である。 リモートセンシング画像を利用して水温測定や海底クラスを導出する現在の手法は、主に非オープンデータを利用する。 このオープンアクセス型ベンチマークアーカイブの欠如は、そのようなアプリケーションでディープラーニングメソッドを広く使用するのを妨げている。 本稿では,Sentinel2,SPOT-6のイメージパッチと空中画像,ラスタ形式の浴槽計測,海底クラスのアノテーションからなるベンチマークデータセットであるMagicBathyNetを提案する。 MagicBathyNetは、学習ベースの浴び測定とピクセルベースの分類において最先端の手法をベンチマークするために利用される。 データセット、事前訓練されたウェイト、コードはwww.magicbathy.eu/magicbathynet.htmlで公開されている。

Accurate, detailed, and high-frequent bathymetry, coupled with complex semantic content, is crucial for the undermapped shallow seabed areas facing intense climatological and anthropogenic pressures. Current methods exploiting remote sensing images to derive bathymetry or seabed classes mainly exploit non-open data. This lack of openly accessible benchmark archives prevents the wider use of deep learning methods in such applications. To address this issue, in this paper we present the MagicBathyNet, which is a benchmark dataset made up of image patches of Sentinel2, SPOT-6 and aerial imagery, bathymetry in raster format and annotations of seabed classes. MagicBathyNet is then exploited to benchmark state-of-the-art methods in learning-based bathymetry and pixel-based classification. Dataset, pre-trained weights, and code are publicly available at www.magicbathy.eu/magicbathynet.html.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# KG-FIT:知識グラフの微調整とオープンワールドの知識

KG-FIT: Knowledge Graph Fine-Tuning Upon Open-World Knowledge ( http://arxiv.org/abs/2405.16412v2 )

ライセンス: Link先を確認
Pengcheng Jiang, Lang Cao, Cao Xiao, Parminder Bhatia, Jimeng Sun, Jiawei Han, (参考訳) 知識グラフ埋め込み(KGE)技術は、知識グラフ内の実体と関係のコンパクトな表現を学習するために重要であり、効率的な推論と知識発見を促進する。 既存の手法は通常、グラフ構造のみに基づくKGEモデルのトレーニングや、KGの分類データを用いた微調整済み言語モデルに重点を置いているが、KG-FITはLLM誘導の洗練を活用して、エンティティクラスタのセマンティックコヒーレントな階層構造を構築する。 この階層的な知識を微調整プロセス中にテキスト情報と組み合わせることで、KG-FITはLLMのグローバルセマンティクスとKGのローカルセマンティクスの両方を効果的にキャプチャする。 ベンチマークデータセットFB15K-237、YAGO3-10、PrimeKGの大規模な実験は、最先端の訓練済み言語モデルベースの手法よりもKG-FITの方が優れており、リンク予測タスクのHits@10の14.4%、13.5%、11.9%の改善が達成されている。 さらに、KG-FITは、構築された構造ベースのベースモデルと比較して12.6%、6.7%、および17.7%の大幅な性能向上をもたらす。 これらの結果は、KG埋め込みの表現性と情報性を大幅に向上させるため、LLMからのオープンワールド知識を取り入れたKG-FITの有効性を浮き彫りにした。

Knowledge Graph Embedding (KGE) techniques are crucial in learning compact representations of entities and relations within a knowledge graph, facilitating efficient reasoning and knowledge discovery. While existing methods typically focus either on training KGE models solely based on graph structure or fine-tuning pre-trained language models with classification data in KG, KG-FIT leverages LLM-guided refinement to construct a semantically coherent hierarchical structure of entity clusters. By incorporating this hierarchical knowledge along with textual information during the fine-tuning process, KG-FIT effectively captures both global semantics from the LLM and local semantics from the KG. Extensive experiments on the benchmark datasets FB15K-237, YAGO3-10, and PrimeKG demonstrate the superiority of KG-FIT over state-of-the-art pre-trained language model-based methods, achieving improvements of 14.4%, 13.5%, and 11.9% in the Hits@10 metric for the link prediction task, respectively. Furthermore, KG-FIT yields substantial performance gains of 12.6%, 6.7%, and 17.7% compared to the structure-based base models upon which it is built. These results highlight the effectiveness of KG-FIT in incorporating open-world knowledge from LLMs to significantly enhance the expressiveness and informativeness of KG embeddings.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# CPsyCoun:中国の心理カウンセリングのためのマルチターン対話再構築と評価フレームワーク

CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling ( http://arxiv.org/abs/2405.16433v2 )

ライセンス: Link先を確認
Chenhao Zhang, Renhao Li, Minghuan Tan, Min Yang, Jingwei Zhu, Di Yang, Jiahao Zhao, Guancheng Ye, Chengming Li, Xiping Hu, Derek F. Wong, (参考訳) 心理学的カウンセリングを支援するために大きな言語モデル(LLM)を使用することは、現時点では重要だが難しい課題である。 LLMの治療において共感的会話を改善するか、効果的なアシスタントとして機能する試みがなされている。 しかし、既存のデータセットにはコンサルティングの知識が欠けており、LSMは専門的なコンサルティング能力に欠けていた。 さらに、カウンセリングプロセス内のマルチターン対話を自動的に評価する方法は、まだ未検討領域である。 このギャップを埋めるため,中国心理カウンセリングのためのレポートベースの多方向対話再構築・評価フレームワークであるCPsyCounを提案する。 心理カウンセリングレポートをフル活用するために,多ターン心理相談の効果的な自動評価のための総合評価ベンチマークを開発しながら,高品質な対話を構築するための2段階のアプローチを考案した。 比較実験の結果,心理学的カウンセリングにおける枠組みの有効性が示された。 我々は、将来の研究のためのデータセットとモデルをhttps://github.com/CAS-SIAT-XinHai/CPsyCounでオープンソース化した。

Using large language models (LLMs) to assist psychological counseling is a significant but challenging task at present. Attempts have been made on improving empathetic conversations or acting as effective assistants in the treatment with LLMs. However, the existing datasets lack consulting knowledge, resulting in LLMs lacking professional consulting competence. Moreover, how to automatically evaluate multi-turn dialogues within the counseling process remains an understudied area. To bridge the gap, we propose CPsyCoun, a report-based multi-turn dialogue reconstruction and evaluation framework for Chinese psychological counseling. To fully exploit psychological counseling reports, a two-phase approach is devised to construct high-quality dialogues while a comprehensive evaluation benchmark is developed for the effective automatic evaluation of multi-turn psychological consultations. Competitive experimental results demonstrate the effectiveness of our proposed framework in psychological counseling. We open-source the datasets and model for future research at https://github.com/CAS-SIAT-XinHai/CPsyCoun
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# マクロからマイクロへ:マクロ表現ビデオの事前学習によるマイクロ圧縮認識の促進

From Macro to Micro: Boosting micro-expression recognition via pre-training on macro-expression videos ( http://arxiv.org/abs/2405.16451v2 )

ライセンス: Link先を確認
Hanting Li, Hongjing Niu, Feng Zhao, (参考訳) マイクロ圧縮認識(MER)は、インテリジェント医療や嘘検出に応用される可能性があるため、近年注目を集めている。 しかし、注釈付きデータの不足は、深層学習に基づくMER法をさらに改善する大きな障害となっている。 直感的には、MER性能を促進するのに十分なマクロ表現データを活用することは、実現可能な解決策であると思われる。 しかし, マクロ表現とマイクロ表現の顔パターンは大きく異なり, 直接展開が困難である。 この問題に対処するため, 一般化された伝達学習パラダイムである \textbf{MA}cro-expression \textbf{TO} \textbf{MI}cro-expression (MA2MI) を提案する。 我々のパラダイムでは、ネットワークは将来のフレームを再構築することで、微妙な顔の動きを表現する能力を学ぶことができる。 さらに、顔位置と顔動作の特徴を分離する2分岐マイクロアクションネットワーク(MIACNet)も提案する。 3つのMERベンチマークの大規模な実験により,本手法の優位性を実証した。

Micro-expression recognition (MER) has drawn increasing attention in recent years due to its potential applications in intelligent medical and lie detection. However, the shortage of annotated data has been the major obstacle to further improve deep-learning based MER methods. Intuitively, utilizing sufficient macro-expression data to promote MER performance seems to be a feasible solution. However, the facial patterns of macro-expressions and micro-expressions are significantly different, which makes naive transfer learning methods difficult to deploy directly. To tacle this issue, we propose a generalized transfer learning paradigm, called \textbf{MA}cro-expression \textbf{TO} \textbf{MI}cro-expression (MA2MI). Under our paradigm, networks can learns the ability to represent subtle facial movement by reconstructing future frames. In addition, we also propose a two-branch micro-action network (MIACNet) to decouple facial position features and facial action features, which can help the network more accurately locate facial action locations. Extensive experiments on three popular MER benchmarks demonstrate the superiority of our method.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# 情報理論による生成的復元モデルにおける幻覚の分析

Looks Too Good To Be True: An Information-Theoretic Analysis of Hallucinations in Generative Restoration Models ( http://arxiv.org/abs/2405.16475v2 )

ライセンス: Link先を確認
Regev Cohen, Idan Kligvasser, Ehud Rivlin, Daniel Freedman, (参考訳) 画像復元における高い知覚品質の追求は、しばしば実データと区別できない結果を生み出すことができる革命的生成モデルの開発を促した。 しかし、知覚の質が向上し続けるにつれて、これらのモデルは幻覚を生み出す傾向が増している。 幻覚の存在は、モデルの予測の信頼性に関する不確実性を導入し、それらの実用性に対する大きな懸念を提起する。 本稿では,この現象を調査するための情報理論ツールを用いて,不確実性と知覚の根本的なトレードオフを明らかにする。 我々はこれらの2つの要因の関係を厳密に分析し、生成モデルにおける世界最小の不確実性が知覚と一致して増大することを証明する。 特に、回復問題の本質的な不確実性を定義し、完全な知覚的品質を達成するには少なくとも2倍の不確実性が必要であることを示す。 さらに、平均二乗誤差歪みと不確実性と知覚の関係を確立し、上記の不確実性知覚トレードオフがよく知られた知覚歪トレードオフを誘導することを示す。 この研究は、画像復元のための高い知覚品質と信頼性のある予測の両方を達成するための生成モデルの基本的限界を明らかにする。 単一画像超解像アルゴリズムの解析により理論的知見を実証する。 私たちの研究は、この本質的にのトレードオフに対する実践者の認識を高め、インフォームドな意思決定を可能にし、知覚的パフォーマンスよりも安全性を優先することを目的としています。

The pursuit of high perceptual quality in image restoration has driven the development of revolutionary generative models, capable of producing results often visually indistinguishable from real data. However, as their perceptual quality continues to improve, these models also exhibit a growing tendency to generate hallucinations - realistic-looking details that do not exist in the ground truth images. The presence of hallucinations introduces uncertainty regarding the reliability of the models' predictions, raising major concerns about their practical application. In this paper, we employ information-theory tools to investigate this phenomenon, revealing a fundamental tradeoff between uncertainty and perception. We rigorously analyze the relationship between these two factors, proving that the global minimal uncertainty in generative models grows in tandem with perception. In particular, we define the inherent uncertainty of the restoration problem and show that attaining perfect perceptual quality entails at least twice this uncertainty. Additionally, we establish a relation between mean squared-error distortion, uncertainty and perception, through which we prove the aforementioned uncertainly-perception tradeoff induces the well-known perception-distortion tradeoff. This work uncovers fundamental limitations of generative models in achieving both high perceptual quality and reliable predictions for image restoration. We demonstrate our theoretical findings through an analysis of single image super-resolution algorithms. Our work aims to raise awareness among practitioners about this inherent tradeoff, empowering them to make informed decisions and potentially prioritize safety over perceptual performance.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-04
# 定常スピン鎖における遺伝量子資源

Inherent quantum resources in the stationary spin chains ( http://arxiv.org/abs/2405.16974v2 )

ライセンス: Link先を確認
Marcin Płodzień, Jan Chwedeńczuk, Maciej Lewenstein, (参考訳) 多数のボディの量子相関を生成する標準的な方法は、動的プロトコル(英語版)によって、初期積状態は、後に古典的でない相関を生成する相互作用によって変換される。 ここでは、多体ベル相関がスピン-1/2鎖の固有状態に本質的に存在することを示す。 特に,Lipkin-Meshkov-Glickモデルの固有状態と熱状態が多体ベル相関を持つことを示す。 我々はベル相関が全磁化の変動に不連続に変化する量子化値に乗じることができることを示した。 最後に,これらの多体ベル相関は,対角性障害と対角性障害の両方が存在する場合にも持続することを示した。

The standard way to generate many-body quantum correlations is via a dynamical protocol: an initial product state is transformed by interactions that generate non-classical correlations at later times. Here, we show that many-body Bell correlations are inherently present in the eigenstates of a variety of spin-1/2 chains. In particular, we show that the eigenstates and thermal states of the collective Lipkin-Meshkov-Glick model possess many-body Bell correlations. We demonstrate that the Bell correlations can take on quantized values that change discontinuously with variations in the total magnetization. Finally, we show that these many-body Bell correlations persist even in the presence of both diagonal and off-diagonal disorder.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# 平均場制御ゲームのための大規模強化Qラーニングアルゴリズムの解析

Analysis of Multiscale Reinforcement Q-Learning Algorithms for Mean Field Control Games ( http://arxiv.org/abs/2405.17017v3 )

ライセンス: Link先を確認
Andrea Angiuli, Jean-Pierre Fouque, Mathieu Laurière, Mengrui Zhang, (参考訳) 平均場制御ゲーム (MFCG) は, [Angiuli et al , 2022a] に導入され, グループ数と大きさの無限の極限において, 多数のエージェント間の競争ゲームを表す。 本稿では,3次元強化Q-Learning(RL)アルゴリズムのモデルフリーアプローチによるMFCGの収束を代表エージェントの観点から証明する。 我々の分析では、有限状態と作用空間に対して、無限の地平線上の各離散時間ステップで更新されるQテーブルを用いている。 Angiuli et al , 2023] では,MFG と MFC の2時間スケールアルゴリズムの収束が,MFC の場合において複数の集団分布に従う必要性を別々に強調した。 ここでは,この機能をMFCGに組み込むとともに,適切な比で3回の更新率を0に下げる。 本手法は,[Borkar, 1997]における2時間スケール解析の3つの時間スケールを一般化した手法である。 本稿では,アルゴリズムの性能を解析し,収束の証明における様々な仮説を満たす簡単な例を示す。

Mean Field Control Games (MFCG), introduced in [Angiuli et al., 2022a], represent competitive games between a large number of large collaborative groups of agents in the infinite limit of number and size of groups. In this paper, we prove the convergence of a three-timescale Reinforcement Q-Learning (RL) algorithm to solve MFCG in a model-free approach from the point of view of representative agents. Our analysis uses a Q-table for finite state and action spaces updated at each discrete time-step over an infinite horizon. In [Angiuli et al., 2023], we proved convergence of two-timescale algorithms for MFG and MFC separately highlighting the need to follow multiple population distributions in the MFC case. Here, we integrate this feature for MFCG as well as three rates of update decreasing to zero in the proper ratios. Our technique of proof uses a generalization to three timescales of the two-timescale analysis in [Borkar, 1997]. We give a simple example satisfying the various hypothesis made in the proof of convergence and illustrating the performance of the algorithm.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# 有効性、セキュリティ、適用性のための垂直的フェデレーション学習:調査

Vertical Federated Learning for Effectiveness, Security, Applicability: A Survey ( http://arxiv.org/abs/2405.17495v2 )

ライセンス: Link先を確認
Mang Ye, Wei Shen, Bo Du, Eduard Snezhko, Vassili Kovalev, Pong C. Yuen, (参考訳) Vertical Federated Learning(VFL)は、プライベートデータをリークすることなく、共有サンプルの分割された機能を使用して、さまざまなパーティが協力してモデルを学習する、プライバシ保護の分散学習パラダイムである。 近年の研究では、VFLにおける様々な課題に対処する有望な結果が示されており、ドメイン間コラボレーションにおける実践的応用の可能性を強調している。 しかし、対応する研究は散逸し、組織が欠如している。 VFL研究を進めるために,本調査は最近の進展を体系的に概観する。 まず、VFLの一般的なトレーニングプロトコルの概要とともに、歴史と背景を紹介する。 次に、最近のレビューで分類を再検討し、詳細な制限を分析します。 包括的かつ構造化された議論では、有効性、セキュリティ、適用性という3つの基本的な視点から最近の研究を合成する。 最後に,VFLにおけるいくつかの重要な研究の方向性について論じる。 調査リストのコレクションを提供し、https://github.com/shentt67/VFL_Survey.comで定期的に更新します。

Vertical Federated Learning (VFL) is a privacy-preserving distributed learning paradigm where different parties collaboratively learn models using partitioned features of shared samples, without leaking private data. Recent research has shown promising results addressing various challenges in VFL, highlighting its potential for practical applications in cross-domain collaboration. However, the corresponding research is scattered and lacks organization. To advance VFL research, this survey offers a systematic overview of recent developments. First, we provide a history and background introduction, along with a summary of the general training protocol of VFL. We then revisit the taxonomy in recent reviews and analyze limitations in-depth. For a comprehensive and structured discussion, we synthesize recent research from three fundamental perspectives: effectiveness, security, and applicability. Finally, we discuss several critical future research directions in VFL, which will facilitate the developments in this field. We provide a collection of research lists and periodically update them at https://github.com/shentt67/VFL_Survey.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# 混合線形回帰におけるEM繰り返しのシロイド軌道の解離

Unveiling the Cycloid Trajectory of EM Iterations in Mixed Linear Regression ( http://arxiv.org/abs/2405.18237v2 )

ライセンス: Link先を確認
Zhankun Luo, Abolfazl Hashemi, (参考訳) 本稿では,2成分混合線形回帰 (2MLR) における反復の軌跡と期待最大化 (EM) アルゴリズムの収束率について検討する。 MLRの基本的な目標は、ラベルのない観測から回帰モデルを学ぶことである。 EMアルゴリズムは線形回帰の混合を解くために広く応用されている。 近年, 2MLR における EM の超線形収束は, 雑音のない, 高い SNR 設定においていくつかの仮定の下で確立され, ランダム初期化による大域収束速度が確認されている。 しかし、収束の指数は理論的には推定されておらず、EM反復の軌跡の幾何学的性質は十分に理解されていない。 本稿では,まずベッセル関数を用いて,すべてのSNR体制下でのEM更新に対して,明示的なクローズドフォーム表現を提供する。 そして、ノイズのない環境では、人口レベルでの反復関係を導出することにより、EM反復の挙動を完全に特徴づけ、特に全ての反復が特定のシクロ化物の上に置かれていることを示す。 この新たな軌道に基づく解析に基づいて、超線形収束の指数の理論的推定を行い、有限サンプルレベルでの統計的誤差をさらに改善する。 我々の分析は、混合線形回帰に対するEMの挙動を研究するための新しいフレームワークを提供する。

We study the trajectory of iterations and the convergence rates of the Expectation-Maximization (EM) algorithm for two-component Mixed Linear Regression (2MLR). The fundamental goal of MLR is to learn the regression models from unlabeled observations. The EM algorithm finds extensive applications in solving the mixture of linear regressions. Recent results have established the super-linear convergence of EM for 2MLR in the noiseless and high SNR settings under some assumptions and its global convergence rate with random initialization has been affirmed. However, the exponent of convergence has not been theoretically estimated and the geometric properties of the trajectory of EM iterations are not well-understood. In this paper, first, using Bessel functions we provide explicit closed-form expressions for the EM updates under all SNR regimes. Then, in the noiseless setting, we completely characterize the behavior of EM iterations by deriving a recurrence relation at the population level and notably show that all the iterations lie on a certain cycloid. Based on this new trajectory-based analysis, we exhibit the theoretical estimate for the exponent of super-linear convergence and further improve the statistical error bound at the finite-sample level. Our analysis provides a new framework for studying the behavior of EM for Mixed Linear Regression.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# ファウンデーションモデルによるフェデレーションレコメンデーションシステムの今後

Navigating the Future of Federated Recommendation Systems with Foundation Models ( http://arxiv.org/abs/2406.00004v2 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, (参考訳) 近年,FRS(Federated Recommendation Systems)として知られるFLとレコメンデーションシステムの統合が注目されている。 しかし、FLのプライバシー要件とRSの典型的なデータ空間の問題により、FRSはデータの不均一性や不足といった固有の制限に直面している。 ChatGPTのようなモデルは、転送学習と自己教師型学習の概念によって強化されているため、微調整やプロンプト後に下流のタスクに容易に適用することができる。 これらのモデル、いわゆるファンデーションモデル(FM)は、人間の意図を理解し、特定のタスクにおいてその設計された役割を遂行することを目的としており、画像や言語領域で高品質なコンテンツを生み出すことが広く認識されている。 したがって、FMの成果はFRSの設計を刺激し、この制限に対処するための基礎モデルの統合という、有望な研究方向性を示唆している。 本研究では,FMを用いたFRSの総合的な検討を行う。 具体的には 1) 現在のFRSとFMの共通アプローチを要約すること。 2) FRS 及び FM による課題の見直し 3 今後の研究の方向性を議論すること、及び 4) FRS分野における一般的なベンチマークと評価指標を導入する。 このポジションペーパーが、この興味深く新しいトピックを探求するために必要な背景とガイダンスを提供することを期待しています。

In recent years, the integration of federated learning (FL) and recommendation systems (RS), known as Federated Recommendation Systems (FRS), has attracted attention for preserving user privacy by keeping private data on client devices. However, FRS faces inherent limitations such as data heterogeneity and scarcity, due to the privacy requirements of FL and the typical data sparsity issues of RSs. Models like ChatGPT are empowered by the concept of transfer learning and self-supervised learning, so they can be easily applied to the downstream tasks after fine-tuning or prompting. These models, so-called Foundation Models (FM), fouce on understanding the human's intent and perform following their designed roles in the specific tasks, which are widely recognized for producing high-quality content in the image and language domains. Thus, the achievements of FMs inspire the design of FRS and suggest a promising research direction: integrating foundation models to address the above limitations. In this study, we conduct a comprehensive review of FRSs with FMs. Specifically, we: 1) summarise the common approaches of current FRSs and FMs; 2) review the challenges posed by FRSs and FMs; 3) discuss potential future research directions; and 4) introduce some common benchmarks and evaluation metrics in the FRS field. We hope that this position paper provides the necessary background and guidance to explore this interesting and emerging topic.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# DisCo:レコメンデーションのためのタブラリとセマンティック空間の調和と協調を目指して

DisCo: Towards Harmonious Disentanglement and Collaboration between Tabular and Semantic Space for Recommendation ( http://arxiv.org/abs/2406.00011v2 )

ライセンス: Link先を確認
Kounianhua Du, Jizheng Chen, Jianghao Lin, Yunjia Xi, Hangyu Wang, Xinyi Dai, Bo Chen, Ruiming Tang, Weinan Zhang, (参考訳) レコメンダシステムは,eコマースやソーシャルメディアなど,さまざまなアプリケーションにおいて重要な役割を担っている。 従来のレコメンデーション手法は通常、表表現空間内の協調シグナルをモデル化する。 パーソナライズモデリングと効率にもかかわらず、潜伏するセマンティック依存関係は省略される。 セマンティックスをレコメンデーションに導入するメソッドが出現し、一般的な言語理解が圧縮されたセマンティック表現空間から知識を注入する。 しかし、既存のセマンティック・エンハンスド・レコメンデーション・メソッドは2つの空間の整合性に重点を置いており、その間に2つの空間の表現が近づき、ユニークなパターンは捨てられ、よく調べられていない。 本稿では,2つの表現空間から一意的なパターンを分離し,2つの空間をコラボしてレコメンデーションエンハンスメント(レコメンデーションエンハンスメント)を提案する。 具体的には 1)ドメイン内パターンとドメイン間パターンをキャプチャする二重側注意ネットワーク。 2 各表現空間のタスク関連情報を保存し、騒音を除去するための十分制約 3) モデルがユニークな情報を破棄することを避けるための歪曲制約。 これらのモジュールは2つの表現空間のアンタングル化と協調のバランスを保ち、情報的パターンベクトルを生成し、追加の機能として機能し、拡張のために任意の推奨バックボーンに付加することができる。 実験の結果,異なるモデルに対する手法の優位性と,異なるバックボーン上でのDisCoの互換性が検証された。 それぞれのモデル成分を正当化するために、様々なアブレーション研究や効率解析も行われた。

Recommender systems play important roles in various applications such as e-commerce, social media, etc. Conventional recommendation methods usually model the collaborative signals within the tabular representation space. Despite the personalization modeling and the efficiency, the latent semantic dependencies are omitted. Methods that introduce semantics into recommendation then emerge, injecting knowledge from the semantic representation space where the general language understanding are compressed. However, existing semantic-enhanced recommendation methods focus on aligning the two spaces, during which the representations of the two spaces tend to get close while the unique patterns are discarded and not well explored. In this paper, we propose DisCo to Disentangle the unique patterns from the two representation spaces and Collaborate the two spaces for recommendation enhancement, where both the specificity and the consistency of the two spaces are captured. Concretely, we propose 1) a dual-side attentive network to capture the intra-domain patterns and the inter-domain patterns, 2) a sufficiency constraint to preserve the task-relevant information of each representation space and filter out the noise, and 3) a disentanglement constraint to avoid the model from discarding the unique information. These modules strike a balance between disentanglement and collaboration of the two representation spaces to produce informative pattern vectors, which could serve as extra features and be appended to arbitrary recommendation backbones for enhancement. Experiment results validate the superiority of our method against different models and the compatibility of DisCo over different backbones. Various ablation studies and efficiency analysis are also conducted to justify each model component.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# ディベート評価における大規模言語モデルの実証分析

An Empirical Analysis on Large Language Models in Debate Evaluation ( http://arxiv.org/abs/2406.00050v2 )

ライセンス: Link先を確認
Xinyi Liu, Pinxin Liu, Hangfeng He, (参考訳) 本研究では,GPT-3.5 や GPT-4 といった先進大言語モデル (LLM) の機能と固有バイアスを議論評価の文脈で検討する。 LLMの性能は人間より優れており、議論評価において広範囲なデータセットに微調整された最先端の手法の性能を上回ることが判明した。 さらに、位置バイアス、語彙バイアス、順序バイアスなど、LLMに存在するバイアスを探索し分析し、評価判断に影響を与える可能性がある。 以上の結果より, GPT-3.5とGPT-4の両者に一貫した偏りが認められた。 また, GPT-3.5 と GPT-4 の語彙バイアス,特にラベルセットが数値やシーケンシャルといった意味を持つ場合, 即時設計における注意深いラベル弁別詞選択の必要性が指摘された。 さらに,本分析は,両モデルが勝者として議論を結論づける傾向を示し,議論の終了バイアスを示唆している。

In this study, we investigate the capabilities and inherent biases of advanced large language models (LLMs) such as GPT-3.5 and GPT-4 in the context of debate evaluation. We discover that LLM's performance exceeds humans and surpasses the performance of state-of-the-art methods fine-tuned on extensive datasets in debate evaluation. We additionally explore and analyze biases present in LLMs, including positional bias, lexical bias, order bias, which may affect their evaluative judgments. Our findings reveal a consistent bias in both GPT-3.5 and GPT-4 towards the second candidate response presented, attributed to prompt design. We also uncover lexical biases in both GPT-3.5 and GPT-4, especially when label sets carry connotations such as numerical or sequential, highlighting the critical need for careful label verbalizer selection in prompt design. Additionally, our analysis indicates a tendency of both models to favor the debate's concluding side as the winner, suggesting an end-of-discussion bias.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-04
# 変分テンソルネットワークトモグラフィによるランダム化計測からの位相状態の学習

Learning topological states from randomized measurements using variational tensor network tomography ( http://arxiv.org/abs/2406.00193v2 )

ライセンス: Link先を確認
Yanting Teng, Rhine Samajdar, Katherine Van Kirk, Frederik Wilde, Subir Sachdev, Jens Eisert, Ryan Sweke, Khadijeh Najafi, (参考訳) 量子状態の忠実な表現を学ぶことは、量子プロセッサ上で生成される多体状態の多様性を完全に特徴づけるのに不可欠である。 古典的シャドウやMPSトモグラフィーのような様々なトモグラフィー手法は、幅広い種類の量子状態を特徴づける可能性を示してきたが、位相的に秩序づけられた2次元状態を検出する際、特有の制限に直面している。 この問題に対処するために,テンソルネットワーク上の変分最適化とランダムな計測手法を組み合わせたヒューリスティックトモグラフィー手法を実装し,検討する。 このアプローチを用いて、実験により実現可能な量子スピン状態と同様に、表面符号の基底状態を学ぶ能力を示す。 特に,MPS ans\atze を用いて数値実験を行い,最大 480 キュービットのシステムに対して高忠実度を実現するために必要なサンプルの複雑さを系統的に検討する。 さらに,最大推定確率の統計的特性を解析することにより,学習アルゴリズムのスケーリングに関する理論的知見を提供する。 特に,本手法はサンプル効率が高く,実験的に親和性が高いため,ランダムに測定された量子状態のスナップショットのみを$X$または$Z$塩基で要求する。 この測定のサブセットを用いて、テンソルネットワークで表される任意の実純粋状態を効果的に学習し、そのような状態に対してランダム-$XZ$測定がトモグラフィ的に完全であることを厳密に証明する。

Learning faithful representations of quantum states is crucial to fully characterizing the variety of many-body states created on quantum processors. While various tomographic methods such as classical shadow and MPS tomography have shown promise in characterizing a wide class of quantum states, they face unique limitations in detecting topologically ordered two-dimensional states. To address this problem, we implement and study a heuristic tomographic method that combines variational optimization on tensor networks with randomized measurement techniques. Using this approach, we demonstrate its ability to learn the ground state of the surface code Hamiltonian as well as an experimentally realizable quantum spin liquid state. In particular, we perform numerical experiments using MPS ans\"atze and systematically investigate the sample complexity required to achieve high fidelities for systems of sizes up to $48$ qubits. In addition, we provide theoretical insights into the scaling of our learning algorithm by analyzing the statistical properties of maximum likelihood estimation. Notably, our method is sample-efficient and experimentally friendly, only requiring snapshots of the quantum state measured randomly in the $X$ or $Z$ bases. Using this subset of measurements, our approach can effectively learn any real pure states represented by tensor networks, and we rigorously prove that random-$XZ$ measurements are tomographically complete for such states.
翻訳日:2024-06-06 08:13:57 公開日:2024-06-04
# A-SDM:モデルアセンブリと特徴継承戦略による安定拡散の加速

A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies ( http://arxiv.org/abs/2406.00210v2 )

ライセンス: Link先を確認
Jinchao Zhu, Yuxuan Wang, Siyuan Pan, Pengfei Wan, Di Zhang, Gao Huang, (参考訳) 安定拡散モデル (SDM) はテキスト・トゥ・イメージ (T2I) と画像・ツー・イメージ (I2I) 生成のための一般的かつ効果的なモデルである。 サンプル最適化、モデル蒸留、ネットワーク量子化の様々な試みにもかかわらず、これらのアプローチは典型的には元のネットワークアーキテクチャを維持している。 広範なパラメータスケールとかなりの計算要求により、モデルアーキテクチャの調整に関する研究は限られている。 本研究では,SDMにおける冗長計算の削減に焦点をあて,チューニング不要とチューニング不要の両方の手法を用いてモデルを最適化する。 1) 本手法では, 蒸留により性能を保ちつつ, 軽量モデルを再構築するためのモデル組立戦略を設計する。 第2に, プレニングによる性能低下を軽減するため, 圧縮ユニセットにマルチエキスパート条件付き畳み込み(ME-CondConv)を導入し, 速度を犠牲にすることなく, ネットワーク性能を向上させる。 第3に,ネットワーク速度向上のためのマルチUNet切替方式の有効性を検証する。 2)チューニング不要な手法では,ネットワーク構造内のブロック,層,単位レベルの局所計算をスキップすることで,推論を高速化する機能継承戦略を提案する。 また、時間段階における特徴継承のための複数のサンプリングモードについても検討する。 実験により,提案手法とチューニング不要手法の両方がSDMの高速化と性能向上を図っている。 モデル組立戦略によって再構成された軽量モデルは、生成速度を22.4%高め、特徴継承戦略はSDM生成速度を40.0%高めにする。

The Stable Diffusion Model (SDM) is a prevalent and effective model for text-to-image (T2I) and image-to-image (I2I) generation. Despite various attempts at sampler optimization, model distillation, and network quantification, these approaches typically maintain the original network architecture. The extensive parameter scale and substantial computational demands have limited research into adjusting the model architecture. This study focuses on reducing redundant computation in SDM and optimizes the model through both tuning and tuning-free methods. 1) For the tuning method, we design a model assembly strategy to reconstruct a lightweight model while preserving performance through distillation. Second, to mitigate performance loss due to pruning, we incorporate multi-expert conditional convolution (ME-CondConv) into compressed UNets to enhance network performance by increasing capacity without sacrificing speed. Third, we validate the effectiveness of the multi-UNet switching method for improving network speed. 2) For the tuning-free method, we propose a feature inheritance strategy to accelerate inference by skipping local computations at the block, layer, or unit level within the network structure. We also examine multiple sampling modes for feature inheritance at the time-step level. Experiments demonstrate that both the proposed tuning and the tuning-free methods can improve the speed and performance of the SDM. The lightweight model reconstructed by the model assembly strategy increases generation speed by $22.4%$, while the feature inheritance strategy enhances the SDM generation speed by $40.0%$.
翻訳日:2024-06-06 08:13:57 公開日:2024-06-04
# カーネルの性質から派生したSHAPの代替手法:理論的解析について

Alternative Methods to SHAP Derived from Properties of Kernels: A Note on Theoretical Analysis ( http://arxiv.org/abs/2406.00371v2 )

ライセンス: Link先を確認
Kazuhiro Hiraki, Shinichi Ishihara, Junnosuke Shino, (参考訳) 本稿ではまず,LIME(Local Interpretable Model-Agnostic Explanations)のカーネルにおけるAFA(Additive Feature Attribution)の一般的および分析的表現を導出する。 次に、カーネルの適切な性質を持つ新しいAFAや、協調ゲーム理論におけるLS前核と一致するAFAを提案する。 また、SHAP(SHapley Additive exPlanations)などの既存のAFAを再検討し、カーネルの特性を再検討する。

This study first derives a general and analytical expression of AFA (Additive Feature Attribution) in terms of the kernel in LIME (Local Interpretable Model-agnostic Explanations). Then, we propose some new AFAs that have appropriate properties of kernels or that coincide with the LS prenucleolus in cooperative game theory. We also revisit existing AFAs such as SHAP (SHapley Additive exPlanations) and re-examine the properties of their kernels.
翻訳日:2024-06-06 07:24:46 公開日:2024-06-04
# Stein Random Feature Regression

Stein Random Feature Regression ( http://arxiv.org/abs/2406.00438v2 )

ライセンス: Link先を確認
Houston Warren, Rafael Oliveira, Fabio Ramos, (参考訳) 大規模回帰問題において、ランダムフーリエ特徴(RFF)は、スペクトル密度を通じてカーネルを定義することにより、ガウス過程(GP)の計算スケーラビリティと柔軟性を著しく向上させ、そこからモンテカルロサンプルの有限集合を用いて近似低ランクGPを形成することができる。 しかし、カーネル近似とベイジアンカーネル学習におけるRFFの有効性は、カーネルスペクトル測定と生成されたサンプルの品質を正確にサンプリングする能力に依存する。 本稿では,Stein random features (SRF) を導入し,Stein 変分勾配勾配の勾配を利用して,既知のスペクトル密度の高品質な RFF サンプルを生成するとともに,従来の非解析的スペクトル測定の後部を柔軟かつ効率的に近似することができる。 SRFは、従来のアプローチよりも優れた性能をもたらすカーネル近似とベイズカーネル学習の両方を実行するために、ログ確率勾配の評価のみを必要とする。 カーネル近似とよく知られたGP回帰問題に基づくベースラインと比較することにより、SRFの有効性を実証的に検証する。

In large-scale regression problems, random Fourier features (RFFs) have significantly enhanced the computational scalability and flexibility of Gaussian processes (GPs) by defining kernels through their spectral density, from which a finite set of Monte Carlo samples can be used to form an approximate low-rank GP. However, the efficacy of RFFs in kernel approximation and Bayesian kernel learning depends on the ability to tractably sample the kernel spectral measure and the quality of the generated samples. We introduce Stein random features (SRF), leveraging Stein variational gradient descent, which can be used to both generate high-quality RFF samples of known spectral densities as well as flexibly and efficiently approximate traditionally non-analytical spectral measure posteriors. SRFs require only the evaluation of log-probability gradients to perform both kernel approximation and Bayesian kernel learning that results in superior performance over traditional approaches. We empirically validate the effectiveness of SRFs by comparing them to baselines on kernel approximation and well-known GP regression problems.
翻訳日:2024-06-06 07:05:16 公開日:2024-06-04
# 深層学習に基づくコンピュータビジョンの自律運転技術への応用に関する研究

Research on the Application of Computer Vision Based on Deep Learning in Autonomous Driving Technology ( http://arxiv.org/abs/2406.00490v2 )

ライセンス: Link先を確認
Jingyu Zhang, Jin Cao, Jinghao Chang, Xinjin Li, Houze Liu, Zhenglin Li, (参考訳) 本研究の目的は,自律運転型コンピュータビジョン技術におけるディープラーニングの適用と,システム性能向上への影響を検討することである。 本稿では、畳み込みニューラルネットワーク(CNN)やマルチタスク共同学習法、深層強化学習などの高度な技術を用いて、画像認識、リアルタイム目標追跡と分類、環境認識と意思決定支援、経路計画とナビゲーションにおけるディープラーニングの適用を詳細に分析する。 重要な領域におけるアプリケーションプロセス。 その結果,提案システムは画像認識,目標追跡,分類において98%以上の精度を有し,環境認識,意思決定支援,経路計画,ナビゲーションにおいて,効率的な性能と実用性を示した。 結論は、ディープラーニング技術は自律運転システムの精度とリアルタイム応答能力を著しく向上させることができることを指摘している。 環境認識や意思決定支援にはまだ課題があるが、技術の進歩に伴い、将来的には幅広い応用と能力を達成することが期待されている。 可能性

This research aims to explore the application of deep learning in autonomous driving computer vision technology and its impact on improving system performance. By using advanced technologies such as convolutional neural networks (CNN), multi-task joint learning methods, and deep reinforcement learning, this article analyzes in detail the application of deep learning in image recognition, real-time target tracking and classification, environment perception and decision support, and path planning and navigation. Application process in key areas. Research results show that the proposed system has an accuracy of over 98% in image recognition, target tracking and classification, and also demonstrates efficient performance and practicality in environmental perception and decision support, path planning and navigation. The conclusion points out that deep learning technology can significantly improve the accuracy and real-time response capabilities of autonomous driving systems. Although there are still challenges in environmental perception and decision support, with the advancement of technology, it is expected to achieve wider applications and greater capabilities in the future. potential.
翻訳日:2024-06-06 06:45:16 公開日:2024-06-04
# 変換総変分を用いた画像分割モデル

An Image Segmentation Model with Transformed Total Variation ( http://arxiv.org/abs/2406.00571v2 )

ライセンス: Link先を確認
Elisha Dayag, Kevin Bui, Fredrick Park, Jack Xin, (参考訳) 変換された$\ell_1$正規化に基づいて、変換された全変動(TTV)は、TV$^p$, $0<p<1$などの他の非凸全変動(TV)正規化器と競合する堅牢な画像回復を有する。 画像セグメンテーションのためのファジィメンバシップ機能を備えたTTV正規化Mumford-Shahモデルを提案する。 そこで我々は,変換された$\ell_1$近位演算子を利用する乗算器 (ADMM) アルゴリズムの交互方向法を設計する。 数値実験により、TTVは従来のテレビや他の非凸テレビよりも画像セグメンテーションにおいて効果的であることが示されている。

Based on transformed $\ell_1$ regularization, transformed total variation (TTV) has robust image recovery that is competitive with other nonconvex total variation (TV) regularizers, such as TV$^p$, $0<p<1$. Inspired by its performance, we propose a TTV-regularized Mumford--Shah model with fuzzy membership function for image segmentation. To solve it, we design an alternating direction method of multipliers (ADMM) algorithm that utilizes the transformed $\ell_1$ proximal operator. Numerical experiments demonstrate that using TTV is more effective than classical TV and other nonconvex TV variants in image segmentation.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-04
# スーパーガウシアン:3Dスーパーレゾリューションのためにビデオモデルを再購入

SuperGaussian: Repurposing Video Models for 3D Super Resolution ( http://arxiv.org/abs/2406.00609v2 )

ライセンス: Link先を確認
Yuan Shen, Duygu Ceylan, Paul Guerrero, Zexiang Xu, Niloy J. Mitra, Shenlong Wang, Anna Frühstück, (参考訳) 本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。 生成的な3Dモデルは現在存在するが、画像やビデオの領域におけるそれらのモデルの品質とはまだ一致していない。 既存の(事前訓練済み)ビデオモデルを3次元超解像に直接再利用することは可能であり、高品質な3次元トレーニングモデルの大規模なリポジトリ不足の問題を副次的に解決できることを実証する。 本稿では,3次元整合性のない映像アップサンプリングモデルを再利用し,それらを3次元整合化と組み合わせて3次元整合性のある結果を生成する方法について述べる。 出力として、オブジェクト中心で有効である高品質なガウススプラモデルを生成する。 本手法はカテゴリ非依存であり,既存の3Dワークフローに容易に組み込むことができる。 提案したSuperGaussianを,複雑性と表現の両面で多種多様な3次元インプット(例えばガウススプレートやNeRF)で評価し,本手法が最終3次元モデルの忠実度を著しく向上させることを示す。 詳細はプロジェクトのWebサイトをご覧ください。

We present a simple, modular, and generic method that upsamples coarse 3D models by adding geometric and appearance details. While generative 3D models now exist, they do not yet match the quality of their counterparts in image and video domains. We demonstrate that it is possible to directly repurpose existing (pretrained) video models for 3D super-resolution and thus sidestep the problem of the shortage of large repositories of high-quality 3D training models. We describe how to repurpose video upsampling models, which are not 3D consistent, and combine them with 3D consolidation to produce 3D-consistent results. As output, we produce high quality Gaussian Splat models, which are object centric and effective. Our method is category agnostic and can be easily incorporated into existing 3D workflows. We evaluate our proposed SuperGaussian on a variety of 3D inputs, which are diverse both in terms of complexity and representation (e.g., Gaussian Splats or NeRFs), and demonstrate that our simple method significantly improves the fidelity of the final 3D models. Check our project website for details: supergaussian.github.io
翻訳日:2024-06-06 04:16:01 公開日:2024-06-04
# Lay-A-Scene:テキストから画像への優先順位を用いたパーソナライズされた3Dオブジェクトアレンジメント

Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors ( http://arxiv.org/abs/2406.00687v2 )

ライセンス: Link先を確認
Ohad Rahamim, Hilit Segev, Idan Achituve, Yuval Atzmon, Yoni Kasten, Gal Chechik, (参考訳) 3D視覚シーンの生成は、視覚生成AIの最前線にあるが、現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。 ここでは、オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介します。 3Dオブジェクトのセットを与えられたタスクは、シーン内でこれらのオブジェクトの妥当な配置を見つけることである。 我々は、事前訓練されたテキスト・ツー・イメージモデルを活用することで、この問題に対処する。 モデルをパーソナライズし、複数の事前定義されたオブジェクトを含むシーンの画像を生成する方法を説明する。 次に,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法について述べる。 我々は,Objaverse と Human Raters の3Dオブジェクトを用いて,Lay-A-Scene の品質を評価し,コヒーレントで実現可能な3Dオブジェクト配置をしばしば生成することを発見した。

Generating 3D visual scenes is at the forefront of visual generative AI, but current 3D generation techniques struggle with generating scenes with multiple high-resolution objects. Here we introduce Lay-A-Scene, which solves the task of Open-set 3D Object Arrangement, effectively arranging unseen objects. Given a set of 3D objects, the task is to find a plausible arrangement of these objects in a scene. We address this task by leveraging pre-trained text-to-image models. We personalize the model and explain how to generate images of a scene that contains multiple predefined objects without neglecting any of them. Then, we describe how to infer the 3D poses and arrangement of objects from a 2D generated image by finding a consistent projection of objects onto the 2D scene. We evaluate the quality of Lay-A-Scene using 3D objects from Objaverse and human raters and find that it often generates coherent and feasible 3D object arrangements.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-04
# 条件拡散モデルを用いた有意パターン検出のための教師なしコントラスト解析

Unsupervised Contrastive Analysis for Salient Pattern Detection using Conditional Diffusion Models ( http://arxiv.org/abs/2406.00772v2 )

ライセンス: Link先を確認
Cristiano Patrício, Carlo Alberto Barbano, Attilio Fiandrotti, Riccardo Renzulli, Marco Grangetto, Luis F. Teixeira, João C. Neves, (参考訳) コントラスト分析(CA)は、背景(BG)データセット(健康な被験者)とターゲット(TG)データセット(健康な被験者)の区別を可能にする画像中のパターンを識別する問題を考察している。 この話題に関する最近の研究は、BGサンプルからTGサンプルを分離するパターンを教師付きで学習するために、変分オートエンコーダ(VAE)や対照的な学習戦略に依存している。 しかしながら、ターゲット(不健康な)サンプルへの依存は、可用性が限られているため、医学的なシナリオでは困難である可能性がある。 また、VAEのぼやけた再構築は実用性と解釈性に欠けていた。 本研究では、自己教師付きコントラストエンコーダを用いて、入力画像から共通パターンのみをコードする潜在表現を学習し、トレーニング中にBGデータセットからのみサンプルを使用してCAタスクを再定義し、データ拡張技術を用いてターゲットパターンの分布を近似する。 その後、学習した潜在表現に条件付き拡散モデルを用いて、一般的なパターンのみを符号化した入力画像のリアルな(健康な)バージョンを生成する。 顔画像データセットの粗い検証と3つの脳MRIデータセットを用いた実験により、自己監督型コントラストエンコーダの潜在表現による最先端生成法の生成過程の条件付けにより、生成された画像品質と画像分類の精度が向上することを示した。 コードはhttps://github.com/CristianoPatricio/unsupervised-contrastive-cond-diffで公開されている。

Contrastive Analysis (CA) regards the problem of identifying patterns in images that allow distinguishing between a background (BG) dataset (i.e. healthy subjects) and a target (TG) dataset (i.e. unhealthy subjects). Recent works on this topic rely on variational autoencoders (VAE) or contrastive learning strategies to learn the patterns that separate TG samples from BG samples in a supervised manner. However, the dependency on target (unhealthy) samples can be challenging in medical scenarios due to their limited availability. Also, the blurred reconstructions of VAEs lack utility and interpretability. In this work, we redefine the CA task by employing a self-supervised contrastive encoder to learn a latent representation encoding only common patterns from input images, using samples exclusively from the BG dataset during training, and approximating the distribution of the target patterns by leveraging data augmentation techniques. Subsequently, we exploit state-of-the-art generative methods, i.e. diffusion models, conditioned on the learned latent representation to produce a realistic (healthy) version of the input image encoding solely the common patterns. Thorough validation on a facial image dataset and experiments across three brain MRI datasets demonstrate that conditioning the generative process of state-of-the-art generative methods with the latent representation from our self-supervised contrastive encoder yields improvements in the generated image quality and in the accuracy of image classification. The code is available at https://github.com/CristianoPatricio/unsupervised-contrastive-cond-diff.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-04
# AI-Face:AI生成した顔データセットとフェアネスベンチマークを100万件のデモグラフィックで表現する

AI-Face: A Million-Scale Demographically Annotated AI-Generated Face Dataset and Fairness Benchmark ( http://arxiv.org/abs/2406.00783v2 )

ライセンス: Link先を確認
Li Lin, Santosh, Xin Wang, Shu Hu, (参考訳) AIによって生成された顔は、娯楽、教育、芸術といった人間の生活を豊かにしている。 しかし、誤用リスクも生じている。 したがって、AIによって生成された顔を検出することが重要になるが、現在の検出器は異なる人口集団間でバイアスのある性能を示す。 バイアスの緩和はアルゴリズムフェアネスの手法を設計することで行うことができる。 しかし、人口統計特性と多様な生成方法の両方を包括的に包括的に含む既存のデータセットは、AI生成顔のための公正な検出器の開発を妨げるものではない。 本研究では,AI-Faceデータセットを紹介する。このデータセットは,実顔,ディープフェイクビデオからの顔,ジェネレーティブ・ディフュージョン・モデルによって生成された顔を含む,人口統計学的にアノテートされた最初のAI生成顔画像データセットである。 このデータセットに基づいて、さまざまなAI顔検出器を評価するための初の総合的公正度ベンチマークを実施し、AI顔検出器の将来的公正設計を促進するための貴重な洞察と発見を提供する。 AI-Faceデータセットとベンチマークコードはhttps://github.com/Purdue-M2/AI-Face-FairnessBench.comで公開されています。

AI-generated faces have enriched human life, such as entertainment, education, and art. However, they also pose misuse risks. Therefore, detecting AI-generated faces becomes crucial, yet current detectors show biased performance across different demographic groups. Mitigating biases can be done by designing algorithmic fairness methods, which usually require demographically annotated face datasets for model training. However, no existing dataset comprehensively encompasses both demographic attributes and diverse generative methods, which hinders the development of fair detectors for AI-generated faces. In this work, we introduce the AI-Face dataset, the first million-scale demographically annotated AI-generated face image dataset, including real faces, faces from deepfake videos, and faces generated by Generative Adversarial Networks and Diffusion Models. Based on this dataset, we conduct the first comprehensive fairness benchmark to assess various AI face detectors and provide valuable insights and findings to promote the future fair design of AI face detectors. Our AI-Face dataset and benchmark code are publicly available at https://github.com/Purdue-M2/AI-Face-FairnessBench.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-04
# インテリジェントトランスポーテーションシステムにおける量子コンピューティング

Quantum Computing in Intelligent Transportation Systems: A Survey ( http://arxiv.org/abs/2406.00862v2 )

ライセンス: Link先を確認
Yifan Zhuang, Talha Azfar, Yinhai Wang, Wei Sun, Xiaokun Cara Wang, Qianwen Vivian Guo, Ruimin Ke, (参考訳) 量子力学の原理を利用する分野である量子コンピューティングは、様々な産業で大きな進歩を約束している。 本研究は, 量子コンピューティングとインテリジェント交通システムとの交わりが拡大する中で, 交通最適化, 物流, ルーティング, 自律走行車といった領域を変革する可能性を探究するものである。 本調査は,現在の研究成果,課題,今後の方向性を検証し,量子コンピューティングが輸送の未来に与える影響について概観する。

Quantum computing, a field utilizing the principles of quantum mechanics, promises great advancements across various industries. This survey paper is focused on the burgeoning intersection of quantum computing and intelligent transportation systems, exploring its potential to transform areas such as traffic optimization, logistics, routing, and autonomous vehicles. By examining current research efforts, challenges, and future directions, this survey aims to provide a comprehensive overview of how quantum computing could affect the future of transportation.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-04
# MEDIQ: 適応的で信頼性の高い臨床推論のための質問応答LDM

MEDIQ: Question-Asking LLMs for Adaptive and Reliable Clinical Reasoning ( http://arxiv.org/abs/2406.00922v2 )

ライセンス: Link先を確認
Shuyue Stella Li, Vidhisha Balachandran, Shangbin Feng, Jonathan Ilgen, Emma Pierson, Pang Wei Koh, Yulia Tsvetkov, (参考訳) 臨床推論のような高度な領域では、大きな言語モデル(LLM)を利用したAIアシスタントはまだ信頼性と安全性が低い。 既存のLCMは、プロンプトやパラメトリック知識が不十分な状況であっても、どんな質問にも答えるように訓練されている。 我々は,このパラダイムを改良し,より慎重なLCMを開発することを提案する。 MEDIQは,患者システムと適応エキスパートシステムを組み合わせた,現実的な臨床行為をシミュレートするフレームワークである。 患者は、最初に不完全な情報を提供し、専門家は、未確認の時に診断決定をすることを拒否し、その代わりに、フォローアップ質問を通じて、患者から欠落した詳細を引き出す。 MEDIQを評価するために,診断質問応答のための医療ベンチマークであるMEDQAとCRAFT-MDをインタラクティブなセットアップに変換する。 我々は信頼性の高い患者システムといくつかのエキスパートシステムを開発し、まず、最先端のLCMに質問をするよう促すことが、臨床推論の質を低下させることを示す。 次に,モデル信頼度をよりよく評価し,より多くの質問を行うかどうかを判断するために,エキスパートを新たな禁断モジュールで強化し,その結果,診断精度を20.3%向上させる。 さらに分析した結果,無関係な文脈をフィルタリングし,会話を再構築することで,対話性の向上が期待できることがわかった。 本稿では,LLM の信頼性に対する新たな問題,新しい MEDIQ フレームワークを導入し,重要な領域における LLM アシスタントの情報検索能力の拡張に向けた重要な方向性を明らかにする。

In high-stakes domains like clinical reasoning, AI assistants powered by large language models (LLMs) are yet to be reliable and safe. We identify a key obstacle towards reliability: existing LLMs are trained to answer any question, even with incomplete context in the prompt or insufficient parametric knowledge. We propose to change this paradigm to develop more careful LLMs that ask follow-up questions to gather necessary and sufficient information and respond reliably. We introduce MEDIQ, a framework to simulate realistic clinical interactions, which incorporates a Patient System and an adaptive Expert System. The Patient may provide incomplete information in the beginning; the Expert refrains from making diagnostic decisions when unconfident, and instead elicits missing details from the Patient via follow-up questions. To evaluate MEDIQ, we convert MEDQA and CRAFT-MD -- medical benchmarks for diagnostic question answering -- into an interactive setup. We develop a reliable Patient system and prototype several Expert systems, first showing that directly prompting state-of-the-art LLMs to ask questions degrades the quality of clinical reasoning, indicating that adapting LLMs to interactive information-seeking settings is nontrivial. We then augment the Expert with a novel abstention module to better estimate model confidence and decide whether to ask more questions, thereby improving diagnostic accuracy by 20.3%; however, performance still lags compared to an (unrealistic in practice) upper bound when full information is given upfront. Further analyses reveal that interactive performance can be improved by filtering irrelevant contexts and reformatting conversations. Overall, our paper introduces a novel problem towards LLM reliability, a novel MEDIQ framework, and highlights important future directions to extend the information-seeking abilities of LLM assistants in critical domains.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-04
# LanEvil: レーン検出のロバストさを環境問題にベンチマークする

LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions ( http://arxiv.org/abs/2406.00934v2 )

ライセンス: Link先を確認
Tianyuan Zhang, Lu Wang, Hainan Li, Yisong Xiao, Siyuan Liang, Aishan Liu, Xianglong Liu, Dacheng Tao, (参考訳) レーン検出(LD)は自律走行システムにおいて不可欠な要素であり、適応型クルーズ制御や自動車線センターなどの基本的な機能を提供している。 既存のLDベンチマークは主に、道路上の影やタイヤマークのような環境錯覚に対するLDモデルの堅牢性を無視し、一般的なケースを評価することに焦点を当てている。 この研究のギャップは、現実世界の交通状況に自然に存在するため、重要な安全上の課題を生じさせる。 本稿では,これらの環境錯覚によるLDに対する潜在的脅威を初めて研究し,この自然破壊に対するLDの堅牢性を評価するための総合的な指標であるLanEvilを確立する。 LDタスクにおける実世界の影響要因を幅広くカバーする,14種類の重要かつ重要な環境錯覚(例えば,影,反射)を体系的に設計する。 実世界の環境をベースとして、広く使われているCARLAシミュレータを用いて、94の現実的でカスタマイズ可能な3Dケースを作成し、90,292枚のサンプル画像からなるデータセットを作成する。 大規模な実験を通じて、LanEvilを用いた一般的なLD手法の堅牢性をベンチマークし、性能劣化(平均5.37%の精度と10.70%のF1スコア)を明らかにし、シャドーエフェクトが最もリスクが高い(7.39%の精度)。 さらに、協調シミュレーションにより商用自動運転システムOpenPilotとApolloの性能を評価し、提案した環境錯覚が誤った判断や交通事故につながることを実証する。 環境イリュージョンに対する対策として,照明条件下でのロバスト性向上(+3.76%)を目立たせる厳密な例を用いた注意領域混合(AAM)手法を提案する。 われわれの論文が今後、より堅牢な自動運転システムに貢献できることを願っている。 ウェブサイト: https://lanevil.github.io/.com

Lane detection (LD) is an essential component of autonomous driving systems, providing fundamental functionalities like adaptive cruise control and automated lane centering. Existing LD benchmarks primarily focus on evaluating common cases, neglecting the robustness of LD models against environmental illusions such as shadows and tire marks on the road. This research gap poses significant safety challenges since these illusions exist naturally in real-world traffic situations. For the first time, this paper studies the potential threats caused by these environmental illusions to LD and establishes the first comprehensive benchmark LanEvil for evaluating the robustness of LD against this natural corruption. We systematically design 14 prevalent yet critical types of environmental illusions (e.g., shadow, reflection) that cover a wide spectrum of real-world influencing factors in LD tasks. Based on real-world environments, we create 94 realistic and customizable 3D cases using the widely used CARLA simulator, resulting in a dataset comprising 90,292 sampled images. Through extensive experiments, we benchmark the robustness of popular LD methods using LanEvil, revealing substantial performance degradation (-5.37% Accuracy and -10.70% F1-Score on average), with shadow effects posing the greatest risk (-7.39% Accuracy). Additionally, we assess the performance of commercial auto-driving systems OpenPilot and Apollo through collaborative simulations, demonstrating that proposed environmental illusions can lead to incorrect decisions and potential traffic accidents. To defend against environmental illusions, we propose the Attention Area Mixing (AAM) approach using hard examples, which witness significant robustness improvement (+3.76%) under illumination effects. We hope our paper can contribute to advancing more robust auto-driving systems in the future. Website: https://lanevil.github.io/.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-04
# コモンセンスプルーニングとヒューリスティックを用いた効率的な行動木計画

Efficient Behavior Tree Planning with Commonsense Pruning and Heuristic ( http://arxiv.org/abs/2406.00965v2 )

ライセンス: Link先を確認
Xinglin Chen, Yishuai Cai, Yunxin Mao, Minglong Li, Zhou Yang, Wen Shanghua, Wenjing Yang, Weixia Xu, Ji Wang, (参考訳) 行動木(BT)計画は自律的なロボット行動制御に不可欠であるが、複雑なシナリオにおけるその適用は長い計画時間によって妨げられる。 Pruning and Heuristics is common technique to accelerate planning, but to design general pruning strategy and heuristic function for BT planning problems。 本稿では,Large Language Models (LLMs) が提供するコモンセンス推論を利用した日常サービスロボットのBT計画効率の改善を提案し,モデルフリーな事前計画行動空間のプルーニングとヒューリスティック生成を実現する。 このアプローチはBTノードのモジュラリティと解釈可能性を活用し、LLMが明示的なアクションモデルなしでタスク関連アクション述語やオブジェクト、さらには最適なパスを予測できるようにする。 本稿では,2つのヒューリスティックな変種を持つHuristic Optimal Behavior Tree Expansion Algorithm (HOBTEA)を提案する。 微調整なしでLCMの推論性能を向上させるために,学習可能かつ伝達可能なコモンセンスライブラリを導入する。 コモンセンスライブラリに基づくアクションスペースの拡張は、プランニングの成功率をさらに高めることができる。 実験はコモンセンスプルーニングとヒューリスティックの理論的境界を示し、LLM学習の実際の性能とコモンセンスライブラリによる推論を実証する。 4つのデータセットの結果は、日々のサービスロボット応用における我々のアプローチの実践的効果を示している。

Behavior Tree (BT) planning is crucial for autonomous robot behavior control, yet its application in complex scenarios is hampered by long planning times. Pruning and heuristics are common techniques to accelerate planning, but it is difficult to design general pruning strategies and heuristic functions for BT planning problems. This paper proposes improving BT planning efficiency for everyday service robots leveraging commonsense reasoning provided by Large Language Models (LLMs), leading to model-free pre-planning action space pruning and heuristic generation. This approach takes advantage of the modularity and interpretability of BT nodes, represented by predicate logic, to enable LLMs to predict the task-relevant action predicates and objects, and even the optimal path, without an explicit action model. We propose the Heuristic Optimal Behavior Tree Expansion Algorithm (HOBTEA) with two heuristic variants and provide a formal comparison and discussion of their efficiency and optimality. We introduce a learnable and transferable commonsense library to enhance the LLM's reasoning performance without fine-tuning. The action space expansion based on the commonsense library can further increase the success rate of planning. Experiments show the theoretical bounds of commonsense pruning and heuristic, and demonstrate the actual performance of LLM learning and reasoning with the commonsense library. Results in four datasets showcase the practical effectiveness of our approach in everyday service robot applications.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-04
# 大規模言語モデルとプログラム解析を組み合わせたハイブリッド自動プログラム修復

Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis ( http://arxiv.org/abs/2406.00992v2 )

ライセンス: Link先を確認
Fengjie Li, Jiajun Jiang, Jiajun Sun, Hongyu Zhang, (参考訳) 自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。 近年,LLMをベースとしたAPR手法は,実際のバグの修復に有望であることが示された。 しかし、既存のAPR手法では、LLMが生成したパッチをさらなる最適化なしに利用することが多く、プログラム固有の知識が欠如しているため、効率が低下する。 さらに,これらのAPR手法の評価は,その実効性を正確に反映しない完全断層定位を前提として行われるのが一般的である。 このような制約に対処するため,GIANTREPAIRと呼ばれる革新的なAPR手法を提案する。 我々のアプローチは、LLM生成したパッチが必ずしも正しいとは限らないが、パッチ生成プロセスに価値あるガイダンスを提供するという洞察を活用する。 この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築してパッチスペースを限定し、その後、スケルトンをインスタンス化してコンテキスト対応のパッチ生成を通じて、特定のプログラムに適した高品質なパッチを生成する。 提案手法の性能を評価するため,2つの大規模実験を行った。 その結果、GIANTREPAIRはLSMの生成したパッチを直接使用するよりも多くのバグ(Defects4J v1.2の平均は27.78%、Defects4J v2.0の平均は23.40%)を効果的に修復するだけでなく、フォールトローカライゼーションのシナリオにおいて、少なくとも42と7のバグを修復することで、最先端のAPRメソッドよりも優れていることが示された。

Automated Program Repair (APR) has garnered significant attention due to its potential to streamline the bug repair process for human developers. Recently, LLM-based APR methods have shown promise in repairing real-world bugs. However, existing APR methods often utilize patches generated by LLMs without further optimization, resulting in reduced effectiveness due to the lack of program-specific knowledge. Furthermore, the evaluations of these APR methods have typically been conducted under the assumption of perfect fault localization, which may not accurately reflect their real-world effectiveness. To address these limitations, this paper introduces an innovative APR approach called GIANTREPAIR. Our approach leverages the insight that LLM-generated patches, although not necessarily correct, offer valuable guidance for the patch generation process. Based on this insight, GIANTREPAIR first constructs patch skeletons from LLM-generated patches to confine the patch space, and then generates high-quality patches tailored to specific programs through context-aware patch generation by instantiating the skeletons. To evaluate the performance of our approach, we conduct two large-scale experiments. The results demonstrate that GIANTREPAIR not only effectively repairs more bugs (an average of 27.78% on Defects4J v1.2 and 23.40% on Defects4J v2.0) than using LLM-generated patches directly, but also outperforms state-of-the-art APR methods by repairing at least 42 and 7 more bugs under perfect and automated fault localization scenarios, respectively.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-04
# ZX計算の量子アーキテクチャ探索への応用

Application of ZX-calculus to Quantum Architecture Search ( http://arxiv.org/abs/2406.01095v2 )

ライセンス: Link先を確認
Tom Ewen, Ivica Turkalj, Patrick Holzer, Mark-Oliver Wolf, (参考訳) 本稿では、量子機械学習(QML)で使用されるパラメータ化量子回路の構造を最適化するために、ZX計算技術と遺伝的プログラミング(GP)を統合した量子アーキテクチャ探索手法を提案する。 QMLのための効率的な量子回路を設計する上での課題を認識し,量子回路の可視化と操作を簡略化するグラフィカル言語であるZX-calculusを用いて定義された突然変異を利用するGPフレームワークを提案する。 本手法は,様々な機械学習タスクに関連する関数を近似する能力の向上を目的として,量子回路の進化に重点を置いている。 本稿では、ZX-計算の変換規則に着想を得たいくつかの突然変異演算子を導入し、量子回路の学習効率と精度への影響について検討する。 経験的分析は、これらの変異が様々な量子回帰問題に適用され、突然変異後の有効な回路の割合、目的の改善、回路深さと幅などのパフォーマンス指標を測定するための比較研究を含む。 以上の結果から, 量子アーキテクチャ探索(QAS)におけるZX計算に基づく変異は, 検討された全ての指標において, 他よりも有意に優れていることが示唆された。 彼らは、ZXダイアグラムに基づくQASにより、回路モデルに基づく粗雑な遺伝的最適化よりも浅い回路とより均一に割り当てられたゲートが得られることを示唆した。

This paper presents a novel approach to quantum architecture search by integrating the techniques of ZX-calculus with Genetic Programming (GP) to optimize the structure of parameterized quantum circuits employed in Quantum Machine Learning (QML). Recognizing the challenges in designing efficient quantum circuits for QML, we propose a GP framework that utilizes mutations defined via ZX-calculus, a graphical language that can simplify visualizing and working with quantum circuits. Our methodology focuses on evolving quantum circuits with the aim of enhancing their capability to approximate functions relevant in various machine learning tasks. We introduce several mutation operators inspired by the transformation rules of ZX-calculus and investigate their impact on the learning efficiency and accuracy of quantum circuits. The empirical analysis involves a comparative study where these mutations are applied to a diverse set of quantum regression problems, measuring performance metrics such as the percentage of valid circuits after the mutation, improvement of the objective, as well as circuit depth and width. Our results indicate that certain ZX-calculus-based mutations perform significantly better than others for Quantum Architecture Search (QAS) in all metrics considered. They suggest that ZX-diagram based QAS results in shallower circuits and more uniformly allocated gates than crude genetic optimization based on the circuit model.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-04
# LLMからのイベントシーケンス記述のための潜在論理木抽出

Latent Logic Tree Extraction for Event Sequence Explanation from LLMs ( http://arxiv.org/abs/2406.01124v2 )

ライセンス: Link先を確認
Zitao Song, Chao Yang, Chaojie Wang, Bo An, Shuang Li, (参考訳) 医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。 我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。 本手法は,事象の時間的点過程モデルに基づいて,生成した論理木を評価するために,確率関数をスコアとして利用する。 本稿では,Amortized expectation-Maximization (EM) 学習フレームワークを提案し,論理木を潜伏変数として扱う。 E-stepでは、LLM前処理と観測された事象列の確率を用いて、潜在論理木上の後部分布を評価する。 LLMは、潜在論理木に対して高品質な先行性を提供するが、後部は離散組合せ空間上に構築されているため、閉形式解を得ることはできない。 本稿では,構造化された離散変数に対する多様性探索生成器であるGFlowNetを用いて,後部から論理木サンプルを生成することを提案する。 Mステップは生成した論理規則を用いて後部の辺縁化を近似し、モデルパラメータの学習を容易にし、調整可能なLCM事前パラメータを精算する。 オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。 実証的なデモでは、我々のフレームワークの有望なパフォーマンスと適応性を示します。

Modern high-stakes systems, such as healthcare or robotics, often generate vast streaming event sequences. Our goal is to design an efficient, plug-and-play tool to elicit logic tree-based explanations from Large Language Models (LLMs) to provide customized insights into each observed event sequence. Built on the temporal point process model for events, our method employs the likelihood function as a score to evaluate generated logic trees. We propose an amortized Expectation-Maximization (EM) learning framework and treat the logic tree as latent variables. In the E-step, we evaluate the posterior distribution over the latent logic trees using an LLM prior and the likelihood of the observed event sequences. LLM provides a high-quality prior for the latent logic trees, however, since the posterior is built over a discrete combinatorial space, we cannot get the closed-form solution. We propose to generate logic tree samples from the posterior using a learnable GFlowNet, which is a diversity-seeking generator for structured discrete variables. The M-step employs the generated logic rules to approximate marginalization over the posterior, facilitating the learning of model parameters and refining the tunable LLM prior parameters. In the online setting, our locally built, lightweight model will iteratively extract the most relevant rules from LLMs for each sequence using only a few iterations. Empirical demonstrations showcase the promising performance and adaptability of our framework.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-04
# 単発モーション合成の実用化に向けて

Towards Practical Single-shot Motion Synthesis ( http://arxiv.org/abs/2406.01136v2 )

ライセンス: Link先を確認
Konstantinos Roditakis, Spyridon Thermos, Nikolaos Zioulis, (参考訳) テキストプロンプトによるいわゆる「コールドスタート」生成の最近の進歩にもかかわらず、データやコンピューティングリソースへのニーズに加えて、知的財産権やプライバシーに関する曖昧さは、その実用性に対してある種の反論をもたらす。 興味深く、比較的探索されていない別の選択肢は、単一のサンプルから無条件合成を導入することであり、興味深い生成的応用をもたらした。 本稿では,単発モーション生成に着目し,より具体的にはGAN(Generative Adversarial Network)のトレーニング時間の短縮に着目する。 特に,モード崩壊を防止する損失関数の重みを慎重に熱処理することにより,ミニバッチトレーニングを行う場合のGANの平衡崩壊の課題に対処する。 さらに, 生成器と識別器モデルを用いて統計的解析を行い, 学習段階間の相関関係を同定し, 伝達学習を可能にする。 改良されたGANは、元のGANアーキテクチャと単発拡散モデルと比較すると、Mixamoベンチマークの競合品質と多様性を実現します。 最後に、改良されたGANが1つの前方パスで動きを混合して構成できることを実証する。 プロジェクトページはhttps://moverseai.github.io/single-shot.comで公開されている。

Despite the recent advances in the so-called "cold start" generation from text prompts, their needs in data and computing resources, as well as the ambiguities around intellectual property and privacy concerns pose certain counterarguments for their utility. An interesting and relatively unexplored alternative has been the introduction of unconditional synthesis from a single sample, which has led to interesting generative applications. In this paper we focus on single-shot motion generation and more specifically on accelerating the training time of a Generative Adversarial Network (GAN). In particular, we tackle the challenge of GAN's equilibrium collapse when using mini-batch training by carefully annealing the weights of the loss functions that prevent mode collapse. Additionally, we perform statistical analysis in the generator and discriminator models to identify correlations between training stages and enable transfer learning. Our improved GAN achieves competitive quality and diversity on the Mixamo benchmark when compared to the original GAN architecture and a single-shot diffusion model, while being up to x6.8 faster in training time from the former and x1.75 from the latter. Finally, we demonstrate the ability of our improved GAN to mix and compose motion with a single forward pass. Project page available at https://moverseai.github.io/single-shot.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-04
# 感覚と制御 : 連続時間RLの時間適応的アプローチ

When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL ( http://arxiv.org/abs/2406.01163v2 )

ライセンス: Link先を確認
Lenart Treven, Bhavya Sukhija, Yarden As, Florian Dörfler, Andreas Krause, (参考訳) 強化学習(Reinforcement Learning, RL)は、離散時間マルコフ決定プロセス(MDP)のポリシーの最適化に優れる。 しかし、様々なシステムは本質的に連続しているため、離散時間 MDP は不正確なモデリング選択となる。 温室効果ガスや医療などの多くの応用において、それぞれの相互作用(行動の測定や切り替え)には手動による介入が伴うため、本質的にコストがかかる。 したがって,システムとのインタラクションが少ない時間適応型アプローチが一般的である。 本研究では,この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を定式化した。 我々の定式化により、任意の標準RLアルゴリズムが解ける拡張MDPが得られる。 我々は,TaCoSでトレーニングした最先端のRLアルゴリズムが,同一あるいは改善された性能を維持しつつ,離散時間に対する相互作用量を劇的に削減し,離散化周波数よりも堅牢性を示すことを示した。 最後に,OTaCoSを提案する。 我々は,OTaCoSが十分にスムーズな力学を持つシステムに対して,サブリニアな後悔を味わうことを示し,さらにサンプル効率が向上することを示した。

Reinforcement learning (RL) excels in optimizing policies for discrete-time Markov decision processes (MDP). However, various systems are inherently continuous in time, making discrete-time MDPs an inexact modeling choice. In many applications, such as greenhouse control or medical treatments, each interaction (measurement or switching of action) involves manual intervention and thus is inherently costly. Therefore, we generally prefer a time-adaptive approach with fewer interactions with the system. In this work, we formalize an RL framework, Time-adaptive Control & Sensing (TaCoS), that tackles this challenge by optimizing over policies that besides control predict the duration of its application. Our formulation results in an extended MDP that any standard RL algorithm can solve. We demonstrate that state-of-the-art RL algorithms trained on TaCoS drastically reduce the interaction amount over their discrete-time counterpart while retaining the same or improved performance, and exhibiting robustness over discretization frequency. Finally, we propose OTaCoS, an efficient model-based algorithm for our setting. We show that OTaCoS enjoys sublinear regret for systems with sufficiently smooth dynamics and empirically results in further sample-efficiency gains.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-04
# NeoRL:非異方性RLの効率的な探索

NeoRL: Efficient Exploration for Nonepisodic RL ( http://arxiv.org/abs/2406.01175v2 )

ライセンス: Link先を確認
Bhavya Sukhija, Lenart Treven, Florian Dörfler, Stelian Coros, Andreas Krause, (参考訳) 非線形力学系における非線形強化学習(Nonpisodic reinforcement learning, RL)の問題について検討する。 我々は不確実性に直面した楽観主義の原理に基づくNonepisodic Optimistic RL(NeoRL)を提案する。 NeoRLはよく校正された確率モデルを使用し、未知のダイナミクスに関する認識的不確実性を楽観的に計画する。 連続性と系上の有界エネルギー仮定の下では、ガウス過程のダイナミクスを持つ一般非線形系に対して$\setO(\beta_T \sqrt{T \Gamma_T})$の第一次後悔境界を与える。 我々はNeoRLをいくつかの深いRL環境における他のベースラインと比較し、NeoRLが最小の後悔を招きながら最適な平均コストを達成することを実証した。

We study the problem of nonepisodic reinforcement learning (RL) for nonlinear dynamical systems, where the system dynamics are unknown and the RL agent has to learn from a single trajectory, i.e., without resets. We propose Nonepisodic Optimistic RL (NeoRL), an approach based on the principle of optimism in the face of uncertainty. NeoRL uses well-calibrated probabilistic models and plans optimistically w.r.t. the epistemic uncertainty about the unknown dynamics. Under continuity and bounded energy assumptions on the system, we provide a first-of-its-kind regret bound of $\setO(\beta_T \sqrt{T \Gamma_T})$ for general nonlinear systems with Gaussian process dynamics. We compare NeoRL to other baselines on several deep RL environments and empirically demonstrate that NeoRL achieves the optimal average cost while incurring the least regret.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-04
# MultiMax: スパースとマルチモーダルアテンション学習

MultiMax: Sparse and Multi-Modal Attention Learning ( http://arxiv.org/abs/2406.01189v2 )

ライセンス: Link先を確認
Yuxuan Zhou, Mario Fritz, Margret Keuper, (参考訳) SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。 入力ベクトルを確率単純度にマッピングし、大きなエントリで確率質量を集中させることで入力を再重み付けする。 しかし、Argmax関数の滑らかな近似として、かなりの確率質量が他の残留成分に分配され、解釈性やノイズが低下する。 空間性はSoftMaxの変種族によって達成できるが、それらはしばしば代替の損失関数を必要とし、多重モダリティを保たない。 マルチモーダリティとスパーシリティのトレードオフは、SoftMaxの表現性だけでなく、その変種も制限することを示す。 我々は、入力入力範囲に応じて出力分布を適応的に変調するMultiMaxと呼ばれる、断片的に微分可能な関数を提案することにより、目的間の緊張を解消する。 総合的な分析と評価により、MultiMaxは、画像分類、言語モデリング、機械翻訳の利点を生かしながら、無関係なエントリを抑えながら、マルチモーダルを保ちながら、意味のないエントリを抑圧する分布を生成することに成功した。 コードはhttps://github.com/ZhouYuxuanYX/MultiMaxで入手できる。

SoftMax is a ubiquitous ingredient of modern machine learning algorithms. It maps an input vector onto a probability simplex and reweights the input by concentrating the probability mass at large entries. Yet, as a smooth approximation to the Argmax function, a significant amount of probability mass is distributed to other, residual entries, leading to poor interpretability and noise. Although sparsity can be achieved by a family of SoftMax variants, they often require an alternative loss function and do not preserve multi-modality. We show that this trade-off between multi-modality and sparsity limits the expressivity of SoftMax as well as its variants. We provide a solution to this tension between objectives by proposing a piece-wise differentiable function, termed MultiMax, which adaptively modulates the output distribution according to input entry range. Through comprehensive analysis and evaluation, we show that MultiMax successfully produces a distribution that supresses irrelevant entries while preserving multimodality, with benefits in image classification, language modeling and machine translation. The code is available at https://github.com/ZhouYuxuanYX/MultiMax.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-04
# 生成的情報検索の実態調査

A Survey of Generative Information Retrieval ( http://arxiv.org/abs/2406.01197v2 )

ライセンス: Link先を確認
Tzu-Lin Kuo, Tzu-Wei Chiu, Tzung-Sheng Lin, Sheng-Yang Wu, Chao-Wei Huang, Yun-Nung Chen, (参考訳) Generative Retrieval (GR) は、情報検索における新たなパラダイムであり、従来のクエリ処理やドキュメントの更新を必要とせずに、生成モデルを利用してクエリを関連するドキュメント識別子(DocID)に直接マップする。 この調査はGRの総合的な概要を提供し、主要な開発、索引付けと検索戦略、課題を強調している。 数値および文字列ベースの識別子を含む様々な文書識別戦略について議論し、異なる文書表現法について検討する。 クエリ生成の品質向上、学習可能なドキュメント識別子の探索、スケーラビリティの向上、マルチタスク学習フレームワークとの統合などです。 本調査は,最新のGR技術とその応用を検証し,GRの基本的な理解を提供し,情報検索に対するこの変革的アプローチのさらなる革新を促すことを目的としている。 また、紙コレクションなどの補完資料もhttps://github.com/MiuLab/GenIR-Survey/で公開しています。

Generative Retrieval (GR) is an emerging paradigm in information retrieval that leverages generative models to directly map queries to relevant document identifiers (DocIDs) without the need for traditional query processing or document reranking. This survey provides a comprehensive overview of GR, highlighting key developments, indexing and retrieval strategies, and challenges. We discuss various document identifier strategies, including numerical and string-based identifiers, and explore different document representation methods. Our primary contribution lies in outlining future research directions that could profoundly impact the field: improving the quality of query generation, exploring learnable document identifiers, enhancing scalability, and integrating GR with multi-task learning frameworks. By examining state-of-the-art GR techniques and their applications, this survey aims to provide a foundational understanding of GR and inspire further innovations in this transformative approach to information retrieval. We also make the complementary materials such as paper collection publicly available at https://github.com/MiuLab/GenIR-Survey/
翻訳日:2024-06-06 01:18:57 公開日:2024-06-04
# GeminiFusion:ビジョントランスのための高効率な画素ワイドマルチモーダルフュージョン

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer ( http://arxiv.org/abs/2406.01210v2 )

ライセンス: Link先を確認
Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen, (参考訳) クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。 本稿では,より少ない情報的トークンをモーダル的特徴に置き換える先行トークン交換手法をまず批判し,交換に基づく手法が相互注意機構を過小評価する一方で,後者の計算要求は必然的に,より長いシーケンスでの使用を制限する。 計算課題を克服するため,画素単位の融合手法であるGeminiFusionを提案する。 GeminiFusionは、モーダル内の注意とモーダル間の注意をエレガントに組み合わせ、モーダル間の補完情報を動的に統合する。 我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。 特に、GeminiFusionは入力トークンの数に関して線形複雑性を維持しており、このマルチモーダルフレームワークはユニモーダルネットワークに匹敵する効率で動作する。 RGB,deep,LiDAR,イベントデータなど,マルチモーダル画像から画像への変換,3次元オブジェクト検出,任意のモーダルセマンティックセマンティックセマンティクスタスクの総合的な評価は,先進的手法に対するジェミニフュージョンの優れた性能を示している。 PyTorchのコードはhttps://github.com/JiaDingCN/GeminiFusionで入手できる。

Cross-modal transformers have demonstrated superiority in various vision tasks by effectively integrating different modalities. This paper first critiques prior token exchange methods which replace less informative tokens with inter-modal features, and demonstrate exchange based methods underperform cross-attention mechanisms, while the computational demand of the latter inevitably restricts its use with longer sequences. To surmount the computational challenges, we propose GeminiFusion, a pixel-wise fusion approach that capitalizes on aligned cross-modal representations. GeminiFusion elegantly combines intra-modal and inter-modal attentions, dynamically integrating complementary information across modalities. We employ a layer-adaptive noise to adaptively control their interplay on a per-layer basis, thereby achieving a harmonized fusion process. Notably, GeminiFusion maintains linear complexity with respect to the number of input tokens, ensuring this multimodal framework operates with efficiency comparable to unimodal networks. Comprehensive evaluations across multimodal image-to-image translation, 3D object detection and arbitrary-modal semantic segmentation tasks, including RGB, depth, LiDAR, event data, etc. demonstrate the superior performance of our GeminiFusion against leading-edge techniques. The PyTorch code is available at https://github.com/JiaDingCN/GeminiFusion
翻訳日:2024-06-06 01:18:57 公開日:2024-06-04
# EduNLP:教育資源の統一化とモジュール化を目指して

EduNLP: Towards a Unified and Modularized Library for Educational Resources ( http://arxiv.org/abs/2406.01276v2 )

ライセンス: Link先を確認
Zhenya Huang, Yuting Ning, Longhu Qin, Shiwei Tong, Shangzi Xue, Tong Xiao, Xin Lin, Jiayu Liu, Qi Liu, Enhong Chen, Shijing Wang, (参考訳) オンライン学習プラットフォームでは教育資源の理解が不可欠である。 しかしながら、研究者や開発者は、常に既存の汎用自然言語ツールキットやドメイン固有モデルの使用に苦労している。 この問題は、AI教育関連の研究や応用に役立つ効果的で使いやすいものを開発する必要性を高めている。 このギャップを埋めるため、我々はEduNLP(EduNLP)という統一的でモジュール化され、広範なライブラリを提示し、教育資源の理解に焦点を当てた。 このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。 また、ユーザが自身のニーズをカスタマイズできるように、標準的な方法でデータ使用量とモデル使用量を統一するための設定可能なパイプラインも提供しています。 現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。 このプロジェクトは、https://github.com/bigdata-ustc/EduNLPでリリースされている。

Educational resource understanding is vital to online learning platforms, which have demonstrated growing applications recently. However, researchers and developers always struggle with using existing general natural language toolkits or domain-specific models. The issue raises a need to develop an effective and easy-to-use one that benefits AI education-related research and applications. To bridge this gap, we present a unified, modularized, and extensive library, EduNLP, focusing on educational resource understanding. In the library, we decouple the whole workflow to four key modules with consistent interfaces including data configuration, processing, model implementation, and model evaluation. We also provide a configurable pipeline to unify the data usage and model usage in standard ways, where users can customize their own needs. For the current version, we primarily provide 10 typical models from four categories, and 5 common downstream-evaluation tasks in the education domain on 8 subjects for users' usage. The project is released at: https://github.com/bigdata-ustc/EduNLP.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-04
# R2C2-Coder: 大規模言語モデルの実世界のリポジトリレベルのコード補完能力の強化とベンチマーク

R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models ( http://arxiv.org/abs/2406.01359v2 )

ライセンス: Link先を確認
Ken Deng, Jiaheng Liu, He Zhu, Congnan Liu, Jingxin Li, Jiakai Wang, Peng Zhao, Chenchen Zhang, Yanan Wu, Xueqiao Yin, Yuanxing Zhang, Wenbo Su, Bangyu Xiang, Tiezheng Ge, Bo Zheng, (参考訳) コード補完モデルは近年大きく進歩している。 近年,現代的なソフトウェア開発においてリポジトリレベルのコード補完が注目され,いくつかのベースラインメソッドやベンチマークが提案されている。 しかしながら、既存のリポジトリレベルのコード補完メソッドは、関連するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に使用できないことが多い。 さらに、既存のベンチマークは、通常、制限されたコード補完シナリオにフォーカスする。 これらの制約に対処するため、R2C2-Coderは、コードプロンプト構築法R2C2-Enhanceとよく設計されたベンチマークR2C2-Benchを含むLarge Language Modelsの実際のリポジトリレベルのコード補完能力を向上し、ベンチマークするR2C2-Coderを提案する。 具体的には、まずR2C2-Enhanceにおいて、まず候補検索プールを構築し、次に各完了カーソル位置に対して検索プールから検索して完了プロンプトを組み立てる。 第二に、R2C2-Enhanceに基づいて、トレーニング、検証、テストの分割により、より困難で多様なR2C2-Benchを構築することができます。 複数のベンチマークの結果は、我々のR2C2-Coderの有効性を示している。

Code completion models have made significant progress in recent years. Recently, repository-level code completion has drawn more attention in modern software development, and several baseline methods and benchmarks have been proposed. However, existing repository-level code completion methods often fall short of fully using the extensive context of a project repository, such as the intricacies of relevant files and class hierarchies. Besides, the existing benchmarks usually focus on limited code completion scenarios, which cannot reflect the repository-level code completion abilities well of existing methods. To address these limitations, we propose the R2C2-Coder to enhance and benchmark the real-world repository-level code completion abilities of code Large Language Models, where the R2C2-Coder includes a code prompt construction method R2C2-Enhance and a well-designed benchmark R2C2-Bench. Specifically, first, in R2C2-Enhance, we first construct the candidate retrieval pool and then assemble the completion prompt by retrieving from the retrieval pool for each completion cursor position. Second, based on R2C2 -Enhance, we can construct a more challenging and diverse R2C2-Bench with training, validation and test splits, where a context perturbation strategy is proposed to simulate the real-world repository-level code completion well. Extensive results on multiple benchmarks demonstrate the effectiveness of our R2C2-Coder.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-04
# カテゴリー文法を用いた言語分析・説明・類型探索 (The Bench Guide)

Linguistic Analysis, Description, and Typological Exploration with Categorial Grammar (TheBench Guide) ( http://arxiv.org/abs/2406.01372v2 )

ライセンス: Link先を確認
Cem Bozsahin, (参考訳) TheBenchは自然言語でモナディック構造を研究するためのツールである。 モナディック文法を記述し、分析を探索し、そのカテゴリを通して多様な言語を比較し、文法が潜伏変数である形式的意味のペアから文法のモデルを訓練する。 モナディック構造は構成のセマンティクスのみを用いる要素のバイナリ結合である。 TheBenchは、構文が自律的であるにもかかわらず(recall \emph{colorless green ideas furiously})、その宝物はすべてのステップで運ばれる手荷物の中にあり、より狭義に、カテゴリー参照の選択を示す述語論的な構造と、それらの構造における決定のためのそれに伴うプレースホルダーである。 古い学校ではいくつか新しい考えがある。 伝統的な分類文法とは異なり、応用はモナディック解析において合成される。 さらに、すべての対応には2つのコマンド関係を指定する必要がある。 TheBench のモナディック文法は、この分析不変量 viz. 合成によって形成される合成要素(数学の圏論では「対象」と呼ばれる)のみを含む。 したがって、解析段階のどちらの成分(一般関係)も函数でなければならない(圏論では`arrows')。 TheBenchは、そのような関数を合成要素の文法とともに反復的に発展させるアイデアの1つである。

TheBench is a tool to study monadic structures in natural language. It is for writing monadic grammars to explore analyses, compare diverse languages through their categories, and to train models of grammar from form-meaning pairs where syntax is latent variable. Monadic structures are binary combinations of elements that employ semantics of composition only. TheBench is essentially old-school categorial grammar to syntacticize the idea, with the implication that although syntax is autonomous (recall \emph{colorless green ideas sleep furiously}), the treasure is in the baggage it carries at every step, viz. semantics, more narrowly, predicate-argument structures indicating choice of categorial reference and its consequent placeholders for decision in such structures. There is some new thought in old school. Unlike traditional categorial grammars, application is turned into composition in monadic analysis. Moreover, every correspondence requires specifying two command relations, one on syntactic command and the other on semantic command. A monadic grammar of TheBench contains only synthetic elements (called `objects' in category theory of mathematics) that are shaped by this analytic invariant, viz. composition. Both ingredients (command relations) of any analytic step must therefore be functions (`arrows' in category theory). TheBench is one implementation of the idea for iterative development of such functions along with grammar of synthetic elements.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-04
# ロバストセグメンテーションのための感度インフォームメント

Sensitivity-Informed Augmentation for Robust Segmentation ( http://arxiv.org/abs/2406.01425v2 )

ライセンス: Link先を確認
Laura Zheng, Wenjie Wei, Tony Wu, Jacob Clements, Shreelekha Revankar, Andre Harrison, Yu Shen, Ming C. Lin, (参考訳) セグメンテーションは、仮想トライオン、医療画像、自律運転、農業自動化など、多くのビジュアルコンピューティングアプリケーションにおいて不可欠なモジュールである。 これらのアプリケーションは、一般的な携帯電話や高価な衛星画像カメラからでも、視覚センサーのデータの品質を劣化させることのできる、広範な消費者利用または高度に変動した環境を含むことが多い。 ユーザ差や天候条件などの外部ノイズに加えて、カメラ品質の変動やレンズ歪みなどの内部ノイズは、開発と展開の両方においてセグメンテーションモデルの性能に影響を与える可能性がある。 本研究では,学習ベースセグメンテーションモデルの堅牢性を高めるための,効率的で適応性が高く,勾配のない手法を提案する。 まず,Kernel Inception Distance (KID) を用いた新しい適応感度解析手法を提案する。 次に、適応SAとサンプル摂動ハイパーパラメータ値を用いて感度曲線をモデル化する。 最後に、選択した摂動値を用いて対人訓練を行い、オンライントレーニング中のロバスト性を動的に再評価する。 我々の手法は最小限の微調整でエンドツーエンドに実装され、セグメンテーションのための最先端データ拡張技術より一貫して優れている。 これは、ビジュアルコンピューティングやコンピュータグラフィックスアプリケーションで使用される様々なセグメンテーションデータセットに対して、クリーンなデータ評価と現実の悪質なシナリオ評価の両方において、大幅な改善を示す。

Segmentation is an integral module in many visual computing applications such as virtual try-on, medical imaging, autonomous driving, and agricultural automation. These applications often involve either widespread consumer use or highly variable environments, both of which can degrade the quality of visual sensor data, whether from a common mobile phone or an expensive satellite imaging camera. In addition to external noises like user difference or weather conditions, internal noises such as variations in camera quality or lens distortion can affect the performance of segmentation models during both development and deployment. In this work, we present an efficient, adaptable, and gradient-free method to enhance the robustness of learning-based segmentation models across training. First, we introduce a novel adaptive sensitivity analysis (ASA) using Kernel Inception Distance (KID) on basis perturbations to benchmark perturbation sensitivity of pre-trained segmentation models. Then, we model the sensitivity curve using the adaptive SA and sample perturbation hyperparameter values accordingly. Finally, we conduct adversarial training with the selected perturbation values and dynamically re-evaluate robustness during online training. Our method, implemented end-to-end with minimal fine-tuning required, consistently outperforms state-of-the-art data augmentation techniques for segmentation. It shows significant improvement in both clean data evaluation and real-world adverse scenario evaluation across various segmentation datasets used in visual computing and computer graphics applications.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-04
# 欧州耳鼻咽喉科会ガイドラインの文脈統合に有効な説明可能な大言語モデルによる尿学ボード質問における超人的パフォーマンス:ウロボット研究

Superhuman performance in urology board questions by an explainable large language model enabled for context integration of the European Association of Urology guidelines: the UroBot study ( http://arxiv.org/abs/2406.01428v2 )

ライセンス: Link先を確認
Martin J. Hetz, Nicolas Carl, Sarah Haggenmüller, Christoph Wies, Maurice Stephan Michel, Frederik Wessels, Titus J. Brinker, (参考訳) 大規模言語モデル (LLM) は医学文献を広範囲に活用することで医療質問応答 (medQA) に革命をもたらしている。 しかし、それらのパフォーマンスは、時代遅れのトレーニングデータと、臨床応用性を制限する説明可能性の欠如によって、しばしば妨げられる。 本研究は,尿学専門のチャットボットであるUroBotを作成し,評価することを目的とした。 UroBotはOpenAIのGPT-3.5、GPT-4、GPT-4oモデルを使用して開発され、検索強化世代(RAG)と欧州耳鼻咽喉科会(EAU)の最新2023ガイドラインを採用している。 評価対象は欧州耳鼻咽喉科(EBU)200項目のインサービスアセスメント(ISA)質問10件で, 正解率(RoCA)の平均値から評価した。 UroBot-4oの平均RoCAは88.4%、GPT-4oは10.8%、スコアは77.6%だった。 また、Fleiss' Kappa (k = 0.979) が示したように、臨床医による検証も可能で、最も高い実行協定が提示された。 比較すると、文献に報告されているように、船上での耳科医の平均成績は68.7%である。 UroBotの臨床的に検証可能な性質と精度は、既存のモデルと尿科医の両方が、臨床統合の可能性を強調している。 この研究は、UroBotのさらなる開発に必要なコードと指示も提供している。

Large Language Models (LLMs) are revolutionizing medical Question-Answering (medQA) through extensive use of medical literature. However, their performance is often hampered by outdated training data and a lack of explainability, which limits clinical applicability. This study aimed to create and assess UroBot, a urology-specialized chatbot, by comparing it with state-of-the-art models and the performance of urologists on urological board questions, ensuring full clinician-verifiability. UroBot was developed using OpenAI's GPT-3.5, GPT-4, and GPT-4o models, employing retrieval-augmented generation (RAG) and the latest 2023 guidelines from the European Association of Urology (EAU). The evaluation included ten runs of 200 European Board of Urology (EBU) In-Service Assessment (ISA) questions, with performance assessed by the mean Rate of Correct Answers (RoCA). UroBot-4o achieved an average RoCA of 88.4%, surpassing GPT-4o by 10.8%, with a score of 77.6%. It was also clinician-verifiable and exhibited the highest run agreement as indicated by Fleiss' Kappa (k = 0.979). By comparison, the average performance of urologists on board questions, as reported in the literature, is 68.7%. UroBot's clinician-verifiable nature and superior accuracy compared to both existing models and urologists on board questions highlight its potential for clinical integration. The study also provides the necessary code and instructions for further development of UroBot.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-04
# MLIP: 排他的データ利用による効率的な多目的言語画像事前学習

MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization ( http://arxiv.org/abs/2406.01460v2 )

ライセンス: Link先を確認
Yu Zhang, Qi Zhang, Zixuan Gong, Yiwei Shi, Yepeng Liu, Duoqian Miao, Yang Liu, Ke Liu, Kun Yi, Wei Fan, Liang Hu, Changwei Wang, (参考訳) Contrastive Language-Image Pretraining (CLIP) は、マルチモーダル研究の急速な進歩に繋がる顕著な成功を収めた。 しかし、CLIPは非効率なデータ利用の観点から顕著な課題に直面している。 これは表現学習において、画像とテキストのペアごとに単一の対照的な監督に依存しており、よりリッチな監督を提供する可能性のあるかなりの量の貴重な情報を無視している。 さらに、非形式的トークンの保持は、特にCLIPのViTイメージエンコーダにおいて、計算要求と時間コストの増大につながる。 これらの課題に対処するため,MLIP(Multi-Perspective Language- Image Pretraining)を提案する。 MLIPでは、周波数変換の感度を高周波数変動と低周波数変動の両方に利用し、空間領域の感度を低周波数変動のみに制限する。 周波数変換とトークンレベルのアライメントを取り入れることで、CILPの単一監視をマルチドメインとマルチレベルに拡張し、より詳細な情報画像特徴の探索を可能にする。 さらに,周波数領域と空間領域からの包括的意味論によって導かれるトークンマージ手法を提案する。 これにより、CLIPを高速化するために、制御可能な圧縮レートでトークンを複数粒度トークンにマージすることができます。 大規模な実験により、我々の設計の有効性が検証された。

Contrastive Language-Image Pretraining (CLIP) has achieved remarkable success, leading to rapid advancements in multimodal studies. However, CLIP faces a notable challenge in terms of inefficient data utilization. It relies on a single contrastive supervision for each image-text pair during representation learning, disregarding a substantial amount of valuable information that could offer richer supervision. Additionally, the retention of non-informative tokens leads to increased computational demands and time costs, particularly in CLIP's ViT image encoder. To address these issues, we propose Multi-Perspective Language-Image Pretraining (MLIP). In MLIP, we leverage the frequency transform's sensitivity to both high and low-frequency variations, which complements the spatial domain's sensitivity limited to low-frequency variations only. By incorporating frequency transforms and token-level alignment, we expand CILP's single supervision into multi-domain and multi-level supervision, enabling a more thorough exploration of informative image features. Additionally, we introduce a token merging method guided by comprehensive semantics from the frequency and spatial domains. This allows us to merge tokens to multi-granularity tokens with a controllable compression rate to accelerate CLIP. Extensive experiments validate the effectiveness of our design.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-04
# DA-HFNet:デュアルアテンションに基づくプログレッシブファイングレードフォージェリ画像の検出と位置決め

DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention ( http://arxiv.org/abs/2406.01489v2 )

ライセンス: Link先を確認
Yang Liu, Xiaofei Li, Jun Zhang, Shengze Hu, Jun Lei, (参考訳) AIGC(Artificial Intelligence Generative Content)によって生成された偽画像の正確な検出が困難になるにつれて、偽画像の特定と発見のための効果的な方法の開発が必要とされる多くのリスクが生じる。 本稿では, DA-HFNetフォージ画像データセットをテキストや画像支援GAN, Diffusionモデルで作成する。 我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。 具体的には、マルチモーダルな画像特徴を奥行きを適応的に融合させるデュアルアテンション機構と、異なるスケールで画像特徴を徹底的に相互作用させ、層間の依存関係を活用することで検出性能を向上させるマルチブランチインタラクションネットワークに依存している。 さらに, より感度の高いノイズ指紋を抽出し, 鍛造領域でより顕著な造形物の特徴を得る。 大規模な実験により,提案手法の有効性が検証され,画像検出と局所化の最先端手法と比較して,大幅な性能向上が図られ,将来,コードとデータセットが公開される。

The increasing difficulty in accurately detecting forged images generated by AIGC(Artificial Intelligence Generative Content) poses many risks, necessitating the development of effective methods to identify and further locate forged areas. In this paper, to facilitate research efforts, we construct a DA-HFNet forged image dataset guided by text or image-assisted GAN and Diffusion model. Our goal is to utilize a hierarchical progressive network to capture forged artifacts at different scales for detection and localization. Specifically, it relies on a dual-attention mechanism to adaptively fuse multi-modal image features in depth, followed by a multi-branch interaction network to thoroughly interact image features at different scales and improve detector performance by leveraging dependencies between layers. Additionally, we extract more sensitive noise fingerprints to obtain more prominent forged artifact features in the forged areas. Extensive experiments validate the effectiveness of our approach, demonstrating significant performance improvements compared to state-of-the-art methods for forged image detection and localization.The code and dataset will be released in the future.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-04
# ビデオ拡散先行データから時間的に一貫性のあるビデオ深度を学習する

Learning Temporally Consistent Video Depth from Video Diffusion Priors ( http://arxiv.org/abs/2406.01493v2 )

ライセンス: Link先を確認
Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao, (参考訳) この研究は、フレーム単位の精度だけでなく、フレーム間の一貫性を期待するビデオ深度推定の課題に対処する。 スクラッチから深度推定器を直接開発する代わりに、予測タスクを条件付き生成問題に再構成する。 これにより、既存のビデオ生成モデルに埋め込まれた事前知識を活用することができ、学習の難しさを低減し、一般化可能性を高めることができる。 具体的には,画像深度と映像深度を混合した画像深度データセットを用いて,パブリック安定ビデオ拡散(SVD)を用いて,入力ビデオから信頼性の高い深度を予測する方法について検討する。 我々は,まずSVDの空間層を最適化し,次に空間層を凍結させながら時間層を最適化する手続き的トレーニング戦略が,空間的精度と時間的一貫性の両面で最高の結果をもたらすことを実証的に確認した。 さらに、任意長ビデオの推測のためのスライディングウィンドウ戦略について検討する。 私たちの観察では、効率とパフォーマンスのトレードオフが示され、1フレームのオーバーラップがすでに望ましい結果を生み出しています。 大規模な実験結果から,提案手法はクロノデプス(ChronoDepth, ChronoDepth)と呼ばれ, 既存の代替手法, 特に推定深さの時間的一貫性よりも優れていることが示された。 さらに,深度条件付きビデオ生成と新しいビュー合成という,より一貫したビデオ深度の利点を強調した。 私たちのプロジェクトページはhttps://jhaoshao.github.io/ChronoDepth/で公開されています。

This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learning difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy -- first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen -- yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-04
# ロバストプラグアンドプレイ適応のためのデカップリングアライメント

Decoupled Alignment for Robust Plug-and-Play Adaptation ( http://arxiv.org/abs/2406.01514v2 )

ライセンス: Link先を確認
Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xingyu Xing, Han Liu, (参考訳) 本研究では,大規模言語モデル (LLM) を,教師付き微調整 (SFT) や人間フィードバック (RLHF) からの強化学習を必要とせずに整列させる低リソース安全性向上手法を提案する。 本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。 提案手法ではデルタデバッギングを用いて,有効蒸留に必要な知識の重要成分を同定する。 有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。

We introduce a low-resource safety enhancement method for aligning large language models (LLMs) without the need for supervised fine-tuning (SFT) or reinforcement learning from human feedback (RLHF). Our main idea is to exploit knowledge distillation to extract the alignment information from existing well-aligned LLMs and integrate it into unaligned LLMs in a plug-and-play fashion. Methodology, we employ delta debugging to identify the critical components of knowledge necessary for effective distillation. On the harmful question dataset, our method significantly enhances the average defense success rate by approximately 14.41%, reaching as high as 51.39%, in 17 unaligned pre-trained LLMs, without compromising performance.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-04
# Qラーニングにおける連続状態行動空間の識別方法--シンボリック・コントロール・アプローチ

How to discretize continuous state-action spaces in Q-learning: A symbolic control approach ( http://arxiv.org/abs/2406.01548v2 )

ライセンス: Link先を確認
Sadek Belamfedel Alaoui, Adnane Saoud, (参考訳) Q-ラーニングは、特定の目標を達成するためにコントローラを合成する効果的なアプローチとして広く認識されている。 しかし、継続的な状態-作用空間によって引き起こされる課題への対処は現在も研究の焦点となっている。 本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。 この課題に対処するため,本論文では,抽象から制御システムへのシミュレーションの交互化など,行動関係を表現するシンボリックモデルを提案する。 この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。 シンボリックモデルのための新しいQ-ラーニング手法を導入し、最適なポリシーを符号化する2つのQ-テーブルを生成する。 理論解析により、これらのQ-テーブルは、連続空間を持つ元の系のQ-値の上界と下界の両方として機能することを示した。 さらに,空間抽象のパラメータとQ値の損失との相関について検討した。 このアルゴリズムは任意の精度で最適性を達成し、精度と計算複雑性の間のトレードオフを制御する。 得られた結果は、適切な学習パラメータを選択し、コントローラを洗練するための貴重な洞察を提供する。 提案したQ-ラーニングに基づく記号モデルの工学的妥当性を2つのケーススタディで示す。

Q-learning is widely recognized as an effective approach for synthesizing controllers to achieve specific goals. However, handling challenges posed by continuous state-action spaces remains an ongoing research focus. This paper presents a systematic analysis that highlights a major drawback in space discretization methods. To address this challenge, the paper proposes a symbolic model that represents behavioral relations, such as alternating simulation from abstraction to the controlled system. This relation allows for seamless application of the synthesized controller based on abstraction to the original system. Introducing a novel Q-learning technique for symbolic models, the algorithm yields two Q-tables encoding optimal policies. Theoretical analysis demonstrates that these Q-tables serve as both upper and lower bounds on the Q-values of the original system with continuous spaces. Additionally, the paper explores the correlation between the parameters of the space abstraction and the loss in Q-values. The resulting algorithm facilitates achieving optimality within an arbitrary accuracy, providing control over the trade-off between accuracy and computational complexity. The obtained results provide valuable insights for selecting appropriate learning parameters and refining the controller. The engineering relevance of the proposed Q-learning based symbolic model is illustrated through two case studies.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-04
# MMLU-Pro: よりロバストで、マルチタスク言語を理解するベンチマーク

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark ( http://arxiv.org/abs/2406.01574v2 )

ライセンス: Link先を確認
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen, (参考訳) 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。 しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。 本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。 さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。 実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。 24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。 さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。 MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。

In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-04
# TruthEval: LLMの真さと信頼性を評価するデータセット

TruthEval: A Dataset to Evaluate LLM Truthfulness and Reliability ( http://arxiv.org/abs/2406.01855v1 )

ライセンス: Link先を確認
Aisha Khatun, Daniel G. Brown, (参考訳) 大規模言語モデル(LLM)の評価は、現在研究の最も重要な領域の1つであり、既存のベンチマークでは不十分であることが証明されており、LLMの様々な能力を完全には表していない。 本稿では,LSM ベンチマークのためのセンシティブなトピックに関する難解なステートメントの収集である TruthEval について述べる。 これらのステートメントは手作業でキュレートされ、既知の真理値を含んでいる。 これらのカテゴリーは、LSMの能力と確率的な性質を区別するために選ばれた。 このデータセットを用いていくつかの初期分析を行い、単純な質問を理解できないという単純なタスクでLLMが失敗する事例をいくつか見出した。

Large Language Model (LLM) evaluation is currently one of the most important areas of research, with existing benchmarks proving to be insufficient and not completely representative of LLMs' various capabilities. We present a curated collection of challenging statements on sensitive topics for LLM benchmarking called TruthEval. These statements were curated by hand and contain known truth values. The categories were chosen to distinguish LLMs' abilities from their stochastic nature. We perform some initial analyses using this dataset and find several instances of LLMs failing in simple tasks showing their inability to understand simple questions.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# パラメトリック部分微分方程式に対するニューラルグリーン演算子

Neural Green's Operators for Parametric Partial Differential Equations ( http://arxiv.org/abs/2406.01857v1 )

ライセンス: Link先を確認
Hugo Melchers, Joost Prins, Michael Abdelmalik, (参考訳) この研究は、線形偏微分方程式(PDE)のパラメトリック族に対する解演算子を学習するニューラルネットワークアーキテクチャであるニューラルグリーン演算子(NGO)を導入している。 我々のNGOの構成は、そのような解作用素のグリーンの定式化から直接導かれる。 ディープ・オペレーター・ネットワーク(DeepONets)や変分ミメティック・オペレーター・ネットワーク(VarMiONs)と同様に、NGOはPDEへの解の拡張を構成する。 しかし、グリーンの定式化に従って、NGOはDeepONetsやVarMiONsのように、サンプル値ではなく入力関数の重み付き平均を受け入れる。 標準線形パラメトリックPDEへのNGOの適用は、トレーニング分布内にあるデータでテストする場合、DeepONets、VarMiONs、Fourierニューラル演算子と競合する一方で、トレーニング分布外のより詳細なデータでテストする場合、堅牢に一般化することを示している。 さらに,NGOによって返却されるグリーン関数の明示的表現により,PDEの数値解法に有効なプレコンディショナーの構築が可能となることを示す。

This work introduces neural Green's operators (NGOs), a novel neural operator network architecture that learns the solution operator for a parametric family of linear partial differential equations (PDEs). Our construction of NGOs is derived directly from the Green's formulation of such a solution operator. Similar to deep operator networks (DeepONets) and variationally mimetic operator networks (VarMiONs), NGOs constitutes an expansion of the solution to the PDE in terms of basis functions, that is returned from a sub-network, contracted with coefficients, that are returned from another sub-network. However, in accordance with the Green's formulation, NGOs accept weighted averages of the input functions, rather than sampled values thereof, as is the case in DeepONets and VarMiONs. Application of NGOs to canonical linear parametric PDEs shows that, while they remain competitive with DeepONets, VarMiONs and Fourier neural operators when testing on data that lie within the training distribution, they robustly generalize when testing on finer-scale data generated outside of the training distribution. Furthermore, we show that the explicit representation of the Green's function that is returned by NGOs enables the construction of effective preconditioners for numerical solvers for PDEs.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# 雑音系における量子化量子論のための変分量子状態準備

Variational quantum state preparation for quantum-enhanced metrology in noisy systems ( http://arxiv.org/abs/2406.01859v1 )

ライセンス: Link先を確認
Juan C. Zuñiga Castro, Jeffrey Larson, Sri Hari Krishna Narayanan, Victor E. Colussi, Michael A. Perlin, Robert J. Lewis-Swan, (参考訳) 雑音環境における量子気象学応用のための最適化された量子状態準備について検討する。 本研究では,低深さ変動量子回路 (VQC) を1列の大域回転とエンタングリング演算でシミュレートする。 VQCを制御するパラメータは、量子フィッシャー情報を最大化するために数値的に最適化される。 VQCで実装されたエンタングリング操作の詳細にかかわらず、最適量子状態は、異なるデファスレートに関連する、猫のような、絞られた、および製品状態の3つの定性的状態に広く分類することができる。 本研究は,ノイズやデコヒーレンスの存在下での最先端性能の実現を目的とした,時間・周波数標準や磁気センサなどの絡み合いを利用した次世代量子センサの最適状態調整戦略の設計に関係している。

We investigate optimized quantum state preparation for quantum metrology applications in noisy environments. We simulate a low-depth variational quantum circuit (VQC) composed of a sequence of global rotations and entangling operations applied to a chain of qubits that are subject to dephasing noise. The parameters controlling the VQC are numerically optimized to maximize the quantum Fisher information, which characterizes the ultimate metrological sensitivity of a quantum state, with respect to a global rotation. We find that regardless of the details of the entangling operation implemented in the VQC, the optimal quantum states can be broadly classified into a trio of qualitative regimes -- cat-like, squeezed-like, and product states -- associated with different dephasing rates. Our findings are relevant for designing optimal state-preparation strategies for next-generation quantum sensors exploiting entanglement, such as time and frequency standards and magnetometers, aimed at achieving state-of-the-art performance in the presence of noise and decoherence.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# 反復型インコンテキスト学習を用いた大規模言語モデルの事前学習

Eliciting the Priors of Large Language Models using Iterated In-Context Learning ( http://arxiv.org/abs/2406.01860v1 )

ライセンス: Link先を確認
Jian-Qiao Zhu, Thomas L. Griffiths, (参考訳) 大規模言語モデル(LLM)は、現実の環境でますます多くデプロイされているため、意思決定に暗黙的に使用する知識を理解することが重要である。 この知識を捉える方法の1つは、ベイズ以前の分布である。 LLMから事前分布を抽出するためのプロンプトベースのワークフローを開発する。 提案手法は,マルコフ連鎖モンテカルロ法(マルコフ連鎖モンテカルロ法)の反復学習に基づく。 我々は,これまで反復学習を用いて,因果学習,比率推定,日々の量の予測といった,人間の前兆を推定した環境で,本手法を検証した。 これらの設定では,GPT-4から抽出した先行情報が人間の先行と定性的に一致していることが判明した。 そこで我々は,この手法を用いて,超人的AIの開発時期など,様々な投機的事象について,GPT-4から先行情報を抽出した。

As Large Language Models (LLMs) are increasingly deployed in real-world settings, understanding the knowledge they implicitly use when making decisions is critical. One way to capture this knowledge is in the form of Bayesian prior distributions. We develop a prompt-based workflow for eliciting prior distributions from LLMs. Our approach is based on iterated learning, a Markov chain Monte Carlo method in which successive inferences are chained in a way that supports sampling from the prior distribution. We validated our method in settings where iterated learning has previously been used to estimate the priors of human participants -- causal learning, proportion estimation, and predicting everyday quantities. We found that priors elicited from GPT-4 qualitatively align with human priors in these settings. We then used the same method to elicit priors from GPT-4 for a variety of speculative events, such as the timing of the development of superhuman AI.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# オンライン選挙干渉における生成人工知能の悪用景観の図表化

Charting the Landscape of Nefarious Uses of Generative Artificial Intelligence for Online Election Interference ( http://arxiv.org/abs/2406.01862v1 )

ライセンス: Link先を確認
Emilio Ferrara, (参考訳) Generative Artificial Intelligence (GenAI) と Large Language Models (LLMs) は、特にオンライン選挙干渉の領域において大きなリスクをもたらす。 本稿では、GenAIの悪用を探求し、ディープフェイク、ボットネット、偽情報キャンペーン、合成IDを通じて民主的プロセスを破壊できる可能性を明らかにする。

Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) pose significant risks, particularly in the realm of online election interference. This paper explores the nefarious applications of GenAI, highlighting their potential to disrupt democratic processes through deepfakes, botnets, targeted misinformation campaigns, and synthetic identities.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# 効果的な時間認識言語表現を目指して--言語モデルにおける時間的理解の強化を探る

Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models ( http://arxiv.org/abs/2406.01863v1 )

ライセンス: Link先を確認
Jiexin Wang, Adam Jatowt, Yi Cai, (参考訳) 自然言語処理の進化する分野では、テキストの時間的文脈を理解することがますます重要になっている。 本研究では,時間関連タスクの性能向上に有効な時間認識言語表現の実現を目的として,事前学習中に時間情報を組み込む手法について検討する。 BookCorpusやWikipediaのような同期文書コレクションに依存するBERTのような事前学習モデルとは対照的に,本稿では,時間ニュース記事コレクションを事前学習した新たな言語モデルであるBiTimeBERT 2.0を紹介した。 BiTimeBERT 2.0は3つの革新的な事前学習目標であるTAMLM(Time-Aware Masked Language Modeling)、DD(Document Dating)、TSER(Time-Sensitive Entity Replacement)に焦点を当てている。 それぞれの目的は、時間情報のユニークな側面を目標としている。 TAMLMは時間的文脈と関係の理解を強化するために設計されており、DDは文書のタイムスタンプを時系列マーカーとして統合し、TSERは「パーソン」エンティティの時間的ダイナミクスに焦点を当て、それらの時間的重要性を認識している。 実験の結果、BiTimeBERT 2.0はBERTや他の既存のトレーニング済みモデルよりも優れており、様々なダウンストリームのNLPタスクや、時間が重要な役割を果たすアプリケーションで大幅に向上していることが示された。

In the evolving field of Natural Language Processing, understanding the temporal context of text is increasingly crucial. This study investigates methods to incorporate temporal information during pre-training, aiming to achieve effective time-aware language representation for improved performance on time-related tasks. In contrast to common pre-trained models like BERT, which rely on synchronic document collections such as BookCorpus and Wikipedia, our research introduces BiTimeBERT 2.0, a novel language model pre-trained on a temporal news article collection. BiTimeBERT 2.0 utilizes this temporal news collection, focusing on three innovative pre-training objectives: Time-Aware Masked Language Modeling (TAMLM), Document Dating (DD), and Time-Sensitive Entity Replacement (TSER). Each objective targets a unique aspect of temporal information. TAMLM is designed to enhance the understanding of temporal contexts and relations, DD integrates document timestamps as chronological markers, and TSER focuses on the temporal dynamics of "Person" entities, recognizing their inherent temporal significance. The experimental results consistently demonstrate that BiTimeBERT 2.0 outperforms models like BERT and other existing pre-trained models, achieving substantial gains across a variety of downstream NLP tasks and applications where time plays a pivotal role.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-04
# 新型コロナウイルスパンデミック中の公衆衛生メッセージング #EpiTwitter

#EpiTwitter: Public Health Messaging During the COVID-19 Pandemic ( http://arxiv.org/abs/2406.01866v1 )

ライセンス: Link先を確認
Ashwin Rao, Nazanin Sabri, Siyi Guo, Louiqa Raschid, Kristina Lerman, (参考訳) 健康危機時の効果的なコミュニケーションは重要であり、ソーシャルメディアは公衆衛生専門家(PHE)にとって重要なプラットフォームとなっている。 しかし、反トラスト的な見解を奨励する擬似的な専門家を増幅する。 その重要性にもかかわらず、COVID-19におけるPHEのコミュニケーションにおける感情的・道徳的言語の役割は検討されていない。 本研究では、パンデミックの間、PHEと擬似専門家がTwitter上でどのようにコミュニケーションし、感情的・道徳的言語と政治的エリートとの関わりに焦点を当てた。 2020年1月から2021年1月までの489人のPHEと356人の擬似専門家のツイートを分析し、公衆の反応とともに、重要な優先順位とメッセージ戦略の違いを特定した。 PHEは、楽観主義のようなポジティブな感情言語を用いて、マスク、医療、教育、ワクチンを優先する。 対照的に、擬似専門家は治療やロックダウンをより頻繁に議論し、悲観主義や嫌悪感といった否定的な感情を取り入れている。 否定的な感情的・道徳的な言語はエンゲージメントを促進する傾向にあるが、PHEからの肯定的な言語は世論の反応において肯定性を育む。 PHEはリベラルなパルチザン性を示し、保守的なエリートに対してリベラル派や否定的な態度を示す一方、擬似的な専門家は保守的なパルチザン性を示す。 これらの発見は、新型コロナウイルスの言論の偏極に光を当て、偏極を緩和し、公衆の信頼を高めるための専門家による感情的・道徳的な言葉の戦略的利用の重要性を浮き彫りにした。

Effective communication during health crises is critical, with social media serving as a key platform for public health experts (PHEs) to engage with the public. However, it also amplifies pseudo-experts promoting contrarian views. Despite its importance, the role of emotional and moral language in PHEs' communication during COVID-19 remains under explored. This study examines how PHEs and pseudo-experts communicated on Twitter during the pandemic, focusing on emotional and moral language and their engagement with political elites. Analyzing tweets from 489 PHEs and 356 pseudo-experts from January 2020 to January 2021, alongside public responses, we identified key priorities and differences in messaging strategy. PHEs prioritize masking, healthcare, education, and vaccines, using positive emotional language like optimism. In contrast, pseudo-experts discuss therapeutics and lockdowns more frequently, employing negative emotions like pessimism and disgust. Negative emotional and moral language tends to drive engagement, but positive language from PHEs fosters positivity in public responses. PHEs exhibit liberal partisanship, expressing more positivity towards liberals and negativity towards conservative elites, while pseudo-experts show conservative partisanship. These findings shed light on the polarization of COVID-19 discourse and underscore the importance of strategic use of emotional and moral language by experts to mitigate polarization and enhance public trust.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# MoLA: 逆行訓練により増強された潜伏拡散による運動生成と編集

MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training ( http://arxiv.org/abs/2406.01867v1 )

ライセンス: Link先を確認
Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Shusuke Takahashi, Yuki Mitsufuji, (参考訳) モーションジェネレーションでは、制御性や生成品質、速度がますます重要になっている。 動作編集タスクは, 内装, 上体編集, パス追従など多岐にわたるが, 既存の手法では, 遅延拡散モデルに比べて推論が遅いデータ空間拡散モデルを用いて動作編集を行う。 本稿では,高速かつ高品質なモーション生成を実現するMoLAを提案する。 高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。 さらに、動作制御入力を用いた様々な編集タスクを実現するために、トレーニング不要のガイド付き生成フレームワークを適用した。 本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。

In motion generation, controllability as well as generation quality and speed is becoming more and more important. There are various motion editing tasks, such as in-betweening, upper body editing, and path-following, but existing methods perform motion editing with a data-space diffusion model, which is slow in inference compared to a latent diffusion model. In this paper, we propose MoLA, which provides fast and high-quality motion generation and also can deal with multiple editing tasks in a single framework. For high-quality and fast generation, we employ a variational autoencoder and latent diffusion model, and improve the performance with adversarial training. In addition, we apply a training-free guided generation framework to achieve various editing tasks with motion control inputs. We quantitatively show the effectiveness of adversarial learning in text-to-motion generation, and demonstrate the applicability of our editing framework to multiple editing tasks in the motion domain.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# ディープラーニングとニューラルアーキテクチャ検索を用いた果実分類システム

Fruit Classification System with Deep Learning and Neural Architecture Search ( http://arxiv.org/abs/2406.01869v1 )

ライセンス: Link先を確認
Christine Dewi, Dhananjay Thiruvady, Nayyar Zaidi, (参考訳) 果実識別プロセスは、その視覚的特徴に基づいて異なる種類の果実を分析し分類する。 この活動は、手動検査、従来のコンピュータビジョン方法論、機械学習とディープラーニングを用いたより洗練された方法論を含む、様々な手法を用いて達成できる。 Avocado, Banana, Cherry, Apple Braeburn, Apple Golden 1, Apricot, Grape, Kiwi, Mango, Orange, Papaya, Peach, Pineapple, Pomegranate, Strawberryの合計15種類の果実を同定した。 ニューラルアーキテクチャサーチ(英: Neural Architecture Search、NAS)は、ニューラルネットワークトポロジの概念化と精細化を自動化するために、ディープラーニングと人工知能の領域で使用される技術進歩である。 NASは、果物の検出などのタスクに非常に適したニューラルネットワーク構造を特定することを目的としている。 提案した99.98% mAPモデルにより,Fruitデータセットを用いた先行研究における検出性能が向上した。 また,本研究の完了後,そのトピックに関連する他の研究の成果と合わせて,比較分析を行った。 以前の研究と比較すると、提案された検出器は精度と精度の両方において高い性能を示した。

The fruit identification process involves analyzing and categorizing different types of fruits based on their visual characteristics. This activity can be achieved using a range of methodologies, encompassing manual examination, conventional computer vision methodologies, and more sophisticated methodologies employing machine learning and deep learning. Our study identified a total of 15 distinct categories of fruit, consisting of class Avocado, Banana, Cherry, Apple Braeburn, Apple golden 1, Apricot, Grape, Kiwi, Mango, Orange, Papaya, Peach, Pineapple, Pomegranate and Strawberry. Neural Architecture Search (NAS) is a technological advancement employed within the realm of deep learning and artificial intelligence, to automate conceptualizing and refining neural network topologies. NAS aims to identify neural network structures that are highly suitable for tasks, such as the detection of fruits. Our suggested model with 99.98% mAP increased the detection performance of the preceding research study that used Fruit datasets. In addition, after the completion of the study, a comparative analysis was carried out to assess the findings in conjunction with those of another research that is connected to the topic. When compared to the findings of earlier studies, the detector that was proposed exhibited higher performance in terms of both its accuracy and its precision.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 確率的自然勾配変分推論の理解

Understanding Stochastic Natural Gradient Variational Inference ( http://arxiv.org/abs/2406.01870v1 )

ライセンス: Link先を確認
Kaiwen Wu, Jacob R. Gardner, (参考訳) 確率的自然勾配変動推論(NGVI)は、様々な確率モデルに適用できる一般的な後部推論手法である。 広く使われているにもかかわらず、emph{stochastic} 設定における非漸近収束率についてはほとんど知られていない。 私たちはこのギャップを小さくし、より良い理解を提供することを目指しています。 共役確率について、最初の$\mathcal{O}(\frac{1}{T})$非漸近収束速度 NGVI を証明する。 複雑性は確率的勾配降下 (\aka black-box variational inference) よりも悪くはならず、その速度はより一定の依存性を持ち、実際はより速く収束する。 非共役確率に対して、正規パラメータ化による確率的NGVIが非凸目的を暗黙的に最適化することを示す。 したがって、大域収束率 $\mathcal{O}(\frac{1}{T})$ は、自然勾配を用いてELBOを最適化するという大きな新しい理解なしにはあり得ない。

Stochastic natural gradient variational inference (NGVI) is a popular posterior inference method with applications in various probabilistic models. Despite its wide usage, little is known about the non-asymptotic convergence rate in the \emph{stochastic} setting. We aim to lessen this gap and provide a better understanding. For conjugate likelihoods, we prove the first $\mathcal{O}(\frac{1}{T})$ non-asymptotic convergence rate of stochastic NGVI. The complexity is no worse than stochastic gradient descent (\aka black-box variational inference) and the rate likely has better constant dependency that leads to faster convergence in practice. For non-conjugate likelihoods, we show that stochastic NGVI with the canonical parameterization implicitly optimizes a non-convex objective. Thus, a global convergence rate of $\mathcal{O}(\frac{1}{T})$ is unlikely without some significant new understanding of optimizing the ELBO using natural gradients.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# ユニカーネルセキュリティに関する調査:定量的分析からの洞察と動向

A Survey of Unikernel Security: Insights and Trends from a Quantitative Analysis ( http://arxiv.org/abs/2406.01872v1 )

ライセンス: Link先を確認
Alex Wollman, John Hastings, (参考訳) LibOSの進化であるUnikernelsは、現在クラウドプロバイダが使用しているものと競合する仮想化技術として登場しつつある。 ユニカーネルはユーザとカーネルの空間を1つの"ユニ"なメモリ空間に統合し、アプリケーションが実行する必要のない機能を省略することで、必要なリソースを大幅に削減する。 削除された機能には、アドレス空間レイアウトランダム化(ASLR)、データ実行防止(DEP)、非実行可能ビット(NXビット)など、一般的なセキュリティ技術となったコンポーネントが含まれている。 これにより、ユニカーネルの現実世界のセキュリティに関する疑問が持ち上がる。 本研究では、TF-IDFを用いた定量的手法を用いて、ユニカーネル研究文献におけるセキュリティ議論の焦点の分析を行う。 2013-2023年に散在する33件のユニカーネル関連論文のコーパスに基づいて,SGXが最も頻度の高いトピックに対して,メモリ保護拡張とデータ実行防止が最も頻度の低いトピックであることがわかった。 この結果は、ユニカーネルセキュリティ研究における優先順位と仮定を定量化し、未調査の攻撃面からの軽い潜在的なリスクをもたらす。 定量的アプローチはニッチセキュリティ領域のトレンドとギャップを明らかにするために広く適用されている。

Unikernels, an evolution of LibOSs, are emerging as a virtualization technology to rival those currently used by cloud providers. Unikernels combine the user and kernel space into one "uni"fied memory space and omit functionality that is not necessary for its application to run, thus drastically reducing the required resources. The removed functionality however is far-reaching and includes components that have become common security technologies such as Address Space Layout Randomization (ASLR), Data Execution Prevention (DEP), and Non-executable bits (NX bits). This raises questions about the real-world security of unikernels. This research presents a quantitative methodology using TF-IDF to analyze the focus of security discussions within unikernel research literature. Based on a corpus of 33 unikernel-related papers spanning 2013-2023, our analysis found that Memory Protection Extensions and Data Execution Prevention were the least frequently occurring topics, while SGX was the most frequent topic. The findings quantify priorities and assumptions in unikernel security research, bringing to light potential risks from underexplored attack surfaces. The quantitative approach is broadly applicable for revealing trends and gaps in niche security domains.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# CR-UTP: ユニバーサルテキスト摂動に対するロバスト性認定

CR-UTP: Certified Robustness against Universal Text Perturbations ( http://arxiv.org/abs/2406.01873v1 )

ライセンス: Link先を確認
Qian Lou, Xin Liang, Jiaqi Xue, Yancheng Zhang, Rui Xie, Mengxin Zheng, (参考訳) 言語モデルによってなされる全ての予測の安定性を保証することは必須であり、すなわち、単語置換のような小さな入力のバリエーションにもかかわらず、言語の予測は一貫していなければならない。 本稿では,ユビキタステキスト摂動(UTP)に対する言語モデルの堅牢性を検証することの問題点について考察する。 ランダムスムーシングに基づく既存の証明されたロバスト性は、サンプルのクリーンな単語や逆境的な単語のランダムな変更がサンプルの摂動の影響を無効にするという仮定の下で、入力固有のテキスト摂動(ISTP)の証明にかなりの可能性を示している。 しかし、UTPでは、敵の単語のみをマスキングすることで攻撃を排除できる。 ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、広範なマスキングによる入力汚損による認証精度と認証半径の両方が著しく低下する。 この課題を解決するために,広範囲なマスキングの下で高い認証精度を維持する優れたプロンプトを識別するための新しい手法,優れたプロンプト探索手法を提案する。 さらに、なぜアンサンブルがランダムな平滑化のためのベースプロンプトとして特に適した選択なのかを理論的に動機づける。 この方法は、より優れたプロンプトアンサンブル技術によって示される。 また、この手法を実証的に確認し、複数の設定で最先端の結果を得る。 これらの手法は、初めて、UPPとISTPの両方に対して高い認証精度を実現する。 CR-UTPのソースコードはhttps://github.com/UCFML-Research/CR-UTPで公開されている。

It is imperative to ensure the stability of every prediction made by a language model; that is, a language's prediction should remain consistent despite minor input variations, like word substitutions. In this paper, we investigate the problem of certifying a language model's robustness against Universal Text Perturbations (UTPs), which have been widely used in universal adversarial attacks and backdoor attacks. Existing certified robustness based on random smoothing has shown considerable promise in certifying the input-specific text perturbations (ISTPs), operating under the assumption that any random alteration of a sample's clean or adversarial words would negate the impact of sample-wise perturbations. However, with UTPs, masking only the adversarial words can eliminate the attack. A naive method is to simply increase the masking ratio and the likelihood of masking attack tokens, but it leads to a significant reduction in both certified accuracy and the certified radius due to input corruption by extensive masking. To solve this challenge, we introduce a novel approach, the superior prompt search method, designed to identify a superior prompt that maintains higher certified accuracy under extensive masking. Additionally, we theoretically motivate why ensembles are a particularly suitable choice as base prompts for random smoothing. The method is denoted by superior prompt ensembling technique. We also empirically confirm this technique, obtaining state-of-the-art results in multiple settings. These methodologies, for the first time, enable high certified accuracy against both UTPs and ISTPs. The source code of CR-UTP is available at https://github.com/UCFML-Research/CR-UTP.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 資源最適化量子赤外回路

Resource Optimized Quantum Squaring Circuit ( http://arxiv.org/abs/2406.01875v1 )

ライセンス: Link先を確認
Afrin Sultana, Edgard Muñoz-Coreas, (参考訳) 量子スクアリング演算は、線形回帰、正規化最小二乗アルゴリズム、オーダーフィニングアルゴリズム、量子探索アルゴリズム、ニュートン・ラフソン除算、ユークリッド距離計算、暗号、ルートと逆数探索などの量子アルゴリズムの実装において有用なビルディングブロックである。 量子回路は誤り訂正符号とフォールトトレラント量子ゲート(クリフォード+Tゲートなど)を用いてフォールトトレラントすることができる。 しかし、Tゲートは実装に非常にコストがかかる。 2つのキュービットゲート(CNOTゲートなど)は1つのキュービットゲートよりもノイズエラーが多い。 したがって、信頼性の高い量子アルゴリズムを実現するためには、量子回路は低いTカウントとCNOTカウントを持つ必要がある。 本稿では,Tカウント,CNOTカウント,Tディープス,CNOTディープス,およびKQ_T$に最適化され,ガベージアウトプットを発生しない新しい量子整数スクアリングアーキテクチャを提案する。 コスト削減のために、生成した部分積をアレンジする新しい手法を用いて、加算器の数を50%削減する。 また、リソースを節約するために、リソース効率のよい論理ANDゲートと[1]に示す非計算ゲートも使用します。 提案された量子赤道回路は、T数で66.67%、T数で50%、CNOT数で29.41%、CNOT数で42.86%、Tapliyal et al [2]で25%の漸近的な減少が見られる。 Nagamani ら [3] の設計では、T数77.27%、T数68.75%、CNOT数50%、CNOT数61.90%、KQ_T$6.25%の漸近的な減少が見られる。

Quantum squaring operation is a useful building block in implementing quantum algorithms such as linear regression, regularized least squares algorithm, order-finding algorithm, quantum search algorithm, Newton Raphson division, Euclidean distance calculation, cryptography, and in finding roots and reciprocals. Quantum circuits could be made fault-tolerant by using error correcting codes and fault-tolerant quantum gates (such as the Clifford + T-gates). However, the T-gate is very costly to implement. Two qubit gates (such as the CNOT-gate) are more prone to noise errors than single qubit gates. Consequently, in order to realize reliable quantum algorithms, the quantum circuits should have a low T-count and CNOT-count. In this paper, we present a novel quantum integer squaring architecture optimized for T-count, CNOT-count, T-depth, CNOT-depth, and $KQ_T$ that produces no garbage outputs. To reduce costs, we use a novel approach for arranging the generated partial products that allows us to reduce the number of adders by 50%. We also use the resource efficient logical-AND gate and uncomputation gate shown in [1] to further save resources. The proposed quantum squaring circuit sees an asymptotic reduction of 66.67% in T-count, 50% in T-depth, 29.41% in CNOT-count, 42.86% in CNOT-depth, and 25% in KQ T with respect to Thapliyal et al. [2]. With respect to Nagamani et al. [3] the design sees an asymptotic reduction of 77.27% in T-count, 68.75% in T-depth, 50% in CNOT-count, 61.90% in CNOT-depth, and 6.25% in the $KQ_T$.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# GRAM:データセキュリティの文脈におけるデータスキーマの生成的検索マッチング

GRAM: Generative Retrieval Augmented Matching of Data Schemas in the Context of Data Security ( http://arxiv.org/abs/2406.01876v1 )

ライセンス: Link先を確認
Xuanqing Liu, Luyang Kong, Runhui Wang, Patrick Song, Austin Nevins, Henrik Johnson, Nimish Amlathe, Davor Golac, (参考訳) スキーママッチングは、現代のデータベースシステムにおけるデータ取り込みプロセスにおける重要なフェーズを構成する。 その目的は、2つの属性のセット間のペアワイズな類似性を識別することであり、それぞれが別々のデータテーブルに関連付けられている。 この課題は、既存のデータベースにサードパーティのテーブルを組み込んでビジネス上の洞察を提供する場合など、データ分析の初期段階に現れます。 データベースシステムの領域において重要なことを考えると、スキーママッチングは2000年代から検討されている。 本研究は,大規模言語モデルの文脈における基礎的問題を再考する。 モデルは、マッチングタスクを実行するために最小限の顧客データだけを分析して、データテーブル全体を精査する従来のアプローチとは対照的である。 ゼロショットや少数ショットの仮定は、顧客データのアイデンティティとプライバシを保護するために必要不可欠である、と私たちは強調する。 このような厳密な要求の下で属性を正確にマッチングする能力は、この領域におけるこれまでの文献との違いを識別します。

Schema matching constitutes a pivotal phase in the data ingestion process for contemporary database systems. Its objective is to discern pairwise similarities between two sets of attributes, each associated with a distinct data table. This challenge emerges at the initial stages of data analytics, such as when incorporating a third-party table into existing databases to inform business insights. Given its significance in the realm of database systems, schema matching has been under investigation since the 2000s. This study revisits this foundational problem within the context of large language models. Adhering to increasingly stringent data security policies, our focus lies on the zero-shot and few-shot scenarios: the model should analyze only a minimal amount of customer data to execute the matching task, contrasting with the conventional approach of scrutinizing the entire data table. We emphasize that the zero-shot or few-shot assumption is imperative to safeguard the identity and privacy of customer data, even at the potential cost of accuracy. The capability to accurately match attributes under such stringent requirements distinguishes our work from previous literature in this domain.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# Bi-DCSpell:中国製スペルチェック用双方向検出器・コレクタインタラクティブフレームワーク

Bi-DCSpell: A Bi-directional Detector-Corrector Interactive Framework for Chinese Spelling Check ( http://arxiv.org/abs/2406.01879v1 )

ライセンス: Link先を確認
Haiming Wu, Hanqing Zhang, Richeng Xuan, Dawei Song, (参考訳) Chinese Spelling Check (CSC) は、中国語の文中の潜在的な誤字を検出し、訂正することを目的としている。 当然、検出と修正のサブタスクが伴い、動的に相互に相互作用する。 このような相互作用は双方向であり、すなわち検出結果は過補正や過補正のリスクを減らすのに役立ち、一方で補正から学んだ知識は誤検出を防ぐのに役立ちます。 現在のCSCアプローチには2つのタイプがある。 それでも、検出と修正の間の双方向の相互作用を見落としている。 本稿では,CSC(Bi-DCSpell)のための双方向検出器・コレクタフレームワークを提案することにより,このギャップを埋めることを目的とする。 特に、Bi-DCSpellは、別途検出および修正エンコーダを含み、次いで、検出と修正の間の双方向の特徴相互作用を容易にし、お互いの表現学習を改善するインタラクティブな学習モジュールである。 広範に使用されているベンチマークデータセットに対して,Bi-DCSpellの堅牢な補正性能を示すとともに,良好な検出能力を有することを示した。

Chinese Spelling Check (CSC) aims to detect and correct potentially misspelled characters in Chinese sentences. Naturally, it involves the detection and correction subtasks, which interact with each other dynamically. Such interactions are bi-directional, i.e., the detection result would help reduce the risk of over-correction and under-correction while the knowledge learnt from correction would help prevent false detection. Current CSC approaches are of two types: correction-only or single-directional detection-to-correction interactive frameworks. Nonetheless, they overlook the bi-directional interactions between detection and correction. This paper aims to fill the gap by proposing a Bi-directional Detector-Corrector framework for CSC (Bi-DCSpell). Notably, Bi-DCSpell contains separate detection and correction encoders, followed by a novel interactive learning module facilitating bi-directional feature interactions between detection and correction to improve each other's representation learning. Extensive experimental results demonstrate a robust correction performance of Bi-DCSpell on widely used benchmarking datasets while possessing a satisfactory detection ability.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# HoneyGPT:大規模言語モデルによる終端ハネポットのトリレンマを破る

HoneyGPT: Breaking the Trilemma in Terminal Honeypots with Large Language Model ( http://arxiv.org/abs/2406.01882v1 )

ライセンス: Link先を確認
Ziyang Wang, Jianzhou You, Haining Wang, Tianwei Yuan, Shichao Lv, Yang Wang, Limin Sun, (参考訳) ハニーポット(Honeypots)は、真の相互作用をエミュレートし、無許可のエンティティを餌にする戦略的なサイバー詐欺機構として、何十年もの間進化してきたにもかかわらず、柔軟性、相互作用の深さ、騙しの能力のバランスに苦戦し続けている。 多くの場合、攻撃者の進化的戦術に積極的に適応する能力が欠如しており、これはエンゲージメントの深さとその後の情報収集を制限する。 この状況下では、大規模言語モデルの創発的な能力は、先駆的なプロンプトベースのエンジニアリング技術と相まって、ハニーポット技術の設計と展開に変革をもたらす。 本稿では,ChatGPTをベースとしたハニーポットアーキテクチャであるHoneyGPTを紹介する。 さらに、長期のインタラクションメモリと堅牢なセキュリティ分析を増強する構造化プロンプトエンジニアリングフレームワークを提案する。 このフレームワークは、ハニーポットの文脈に順応したチェーン戦略の考えを統合し、相互作用性と騙しを強化し、セキュリティ分析をより深め、持続的なエンゲージメントを確保する。 HoneyGPTの評価には,収集したデータセットに基づくベースライン比較と,実シナリオでの4週間のフィールド評価の2つの部分が含まれている。 ベースライン比較は、HoneyGPTが柔軟性、相互作用深度、騙し能力のバランスをとれる素晴らしい能力を示している。 フィールド評価は、HoneyGPTの有効性をさらに検証し、攻撃者をより深い対話的なエンゲージメントへと誘惑し、既存のハニーポット技術と比較してより広い範囲の新規攻撃ベクトルを捕獲するという点において、顕著な優位性を示している。

Honeypots, as a strategic cyber-deception mechanism designed to emulate authentic interactions and bait unauthorized entities, continue to struggle with balancing flexibility, interaction depth, and deceptive capability despite their evolution over decades. Often they also lack the capability of proactively adapting to an attacker's evolving tactics, which restricts the depth of engagement and subsequent information gathering. Under this context, the emergent capabilities of large language models, in tandem with pioneering prompt-based engineering techniques, offer a transformative shift in the design and deployment of honeypot technologies. In this paper, we introduce HoneyGPT, a pioneering honeypot architecture based on ChatGPT, heralding a new era of intelligent honeypot solutions characterized by their cost-effectiveness, high adaptability, and enhanced interactivity, coupled with a predisposition for proactive attacker engagement. Furthermore, we present a structured prompt engineering framework that augments long-term interaction memory and robust security analytics. This framework, integrating thought of chain tactics attuned to honeypot contexts, enhances interactivity and deception, deepens security analytics, and ensures sustained engagement. The evaluation of HoneyGPT includes two parts: a baseline comparison based on a collected dataset and a field evaluation in real scenarios for four weeks. The baseline comparison demonstrates HoneyGPT's remarkable ability to strike a balance among flexibility, interaction depth, and deceptive capability. The field evaluation further validates HoneyGPT's efficacy, showing its marked superiority in enticing attackers into more profound interactive engagements and capturing a wider array of novel attack vectors in comparison to existing honeypot technologies.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# スパイクニューラルネットワークにおけるコンテキストゲーティング:局所的およびグローバル的塑性の統合による生涯学習の実現

Context Gating in Spiking Neural Networks: Achieving Lifelong Learning through Integration of Local and Global Plasticity ( http://arxiv.org/abs/2406.01883v1 )

ライセンス: Link先を確認
Jiangrong Shen, Wenyao Ni, Qi Xu, Gang Pan, Huajin Tang, (参考訳) ヒトは、前頭前皮質(PFC)の文脈ゲーティング機構を通じて、最小の相互干渉で連続して複数のタスクを学習する。 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)モデルは、そのエネルギー効率と生物学的妥当性に大きな注目を集めている。 連続して複数のタスクを学習する際の悲惨な忘れを克服するために、現在のSNNモデルは、人間の実験行動を再現するSNNを欠きながら、記憶の保存や正規化に基づく修正に焦点を当てている。 PFCで見られる生物学的な文脈依存的なゲーティング機構に着想を得て,生涯学習のための局所的可塑性規則(CG-SNN)によって訓練された文脈ゲーティングを用いたSNNを提案する。 タスクユニットのグローバルとローカルの可塑性の反復的トレーニングは、タスクニューロンと隠れたニューロンとの接続を強化し、マルチタスクに関連する情報を保存するように設計されている。 実験の結果,提案モデルは過去の学習経験の維持に有効であり,生涯学習における他の方法よりも優れたタスク選択性を有することがわかった。 その結果,CG-SNNモデルでは,異なるスパイクファイリング機構を持つ異なるSNNアーキテクチャ上で,優れたスケーラビリティでコンテキストゲーティングを拡張できるという新たな知見が得られた。 このように、我々のモデルはニューロモルフィックハードウェアの並列実装や人間の行動のモデル化に優れた可能性を持っている。

Humans learn multiple tasks in succession with minimal mutual interference, through the context gating mechanism in the prefrontal cortex (PFC). The brain-inspired models of spiking neural networks (SNN) have drawn massive attention for their energy efficiency and biological plausibility. To overcome catastrophic forgetting when learning multiple tasks in sequence, current SNN models for lifelong learning focus on memory reserving or regularization-based modification, while lacking SNN to replicate human experimental behavior. Inspired by biological context-dependent gating mechanisms found in PFC, we propose SNN with context gating trained by the local plasticity rule (CG-SNN) for lifelong learning. The iterative training between global and local plasticity for task units is designed to strengthen the connections between task neurons and hidden neurons and preserve the multi-task relevant information. The experiments show that the proposed model is effective in maintaining the past learning experience and has better task-selectivity than other methods during lifelong learning. Our results provide new insights that the CG-SNN model can extend context gating with good scalability on different SNN architectures with different spike-firing mechanisms. Thus, our models have good potential for parallel implementation on neuromorphic hardware and model human's behavior.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 顔スワップのランクに基づく非参照品質評価

Rank-based No-reference Quality Assessment for Face Swapping ( http://arxiv.org/abs/2406.01884v1 )

ライセンス: Link先を確認
Xinghui Zhou, Wenbo Zhou, Tianyi Wei, Shen Chen, Taiping Yao, Shouhong Ding, Weiming Zhang, Nenghai Yu, (参考訳) 顔交換は、急速な技術進歩により、コンピュータビジョンと画像処理において顕著な研究領域となっている。 ほとんどの顔スワップ法の品質測定基準は、操作された画像とソース画像、すなわち、適切な参照顔画像とのいくつかの距離に依存する。 したがって、参照のないシナリオでは、顔交換の質を正確に評価するにはまだギャップがある。 本研究では,顔スワップに特化して設計された新しい非参照画像品質評価(NR-IQA)手法について,包括的大規模データセットの構築,複数の顔属性に基づく画像品質ランキング手法の実装,解釈可能な定性比較に基づくシームズネットワークの導入により,この問題に対処する。 本モデルは,スワップ面の品質評価における最先端性能を実証し,粗くきめ細かな粒度を提供する。 この指標によって強化され、改良されたフェイススワッピングモデルにより、表現やポーズに関してより高度なレベルが達成された。 広範にわたる実験により,既存の非参照画像品質評価指標と最新の顔画像品質評価指標とを比較検討し,実世界のシナリオにおける顔交換画像の評価に適していることを確認した。

Face swapping has become a prominent research area in computer vision and image processing due to rapid technological advancements. The metric of measuring the quality in most face swapping methods relies on several distances between the manipulated images and the source image, or the target image, i.e., there are suitable known reference face images. Therefore, there is still a gap in accurately assessing the quality of face interchange in reference-free scenarios. In this study, we present a novel no-reference image quality assessment (NR-IQA) method specifically designed for face swapping, addressing this issue by constructing a comprehensive large-scale dataset, implementing a method for ranking image quality based on multiple facial attributes, and incorporating a Siamese network based on interpretable qualitative comparisons. Our model demonstrates the state-of-the-art performance in the quality assessment of swapped faces, providing coarse- and fine-grained. Enhanced by this metric, an improved face-swapping model achieved a more advanced level with respect to expressions and poses. Extensive experiments confirm the superiority of our method over existing general no-reference image quality assessment metrics and the latest metric of facial image quality assessment, making it well suited for evaluating face swapping images in real-world scenarios.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 直交直列密度推定による確率過程の時間発展のための量子回路の分割

Dividing quantum circuits for time evolution of stochastic processes by orthogonal series density estimation ( http://arxiv.org/abs/2406.01889v1 )

ライセンス: Link先を確認
Koichi Miyamoto, (参考訳) 量子モンテカルロ積分(Quantum Monte Carlo integration, QMCI)は、確率変数の予測を推定する量子アルゴリズムである。 QMCI が微分価格の根底にある資産である確率過程 $X(t)$, eg に関する期待に適用されるとき、量子回路 $U_{X(t)}$ は、確率密度$X(t)$ を符号化する量子状態を生成するために大きな深さを持つ。 時間が$N$ポイントに離散化されている場合、$X(t)$の遷移確率に対して状態準備オラクルを使用すると、$X(t)$の状態準備は$O(N)$の深さをもたらす。 さらに、$X(t)$を$N$タイムポイントで見積もると、クエリの総複雑性は$N$ as $O(N^2)$でスケールする。 本稿では,直交級数密度推定に基づいて$U_{X(t)}$を分割する手法を提案する。 このアプローチは、直交級数で$X(t)$ at $N$の時間点の密度を近似することを含み、そこで係数は QMCI によって直交関数の期待値として推定される。 これらの近似密度を用いることで、深い回路を必要とすることなくQMCIによる$X(t)$に関する期待を推定できる。 誤差解析と複雑性解析により,回路の深さと総問合せ複雑性をそれぞれ$O(\sqrt{N})$と$O(N^{3/2})$で表すことができた。

Quantum Monte Carlo integration (QMCI) is a quantum algorithm to estimate expectations of random variables, with applications in various industrial fields such as financial derivative pricing. When QMCI is applied to expectations concerning a stochastic process $X(t)$, e.g., an underlying asset price in derivative pricing, the quantum circuit $U_{X(t)}$ to generate the quantum state encoding the probability density of $X(t)$ can have a large depth. With time discretized into $N$ points, using state preparation oracles for the transition probabilities of $X(t)$, the state preparation for $X(t)$ results in a depth of $O(N)$, which may be problematic for large $N$. Moreover, if we estimate expectations concerning $X(t)$ at $N$ time points, the total query complexity scales on $N$ as $O(N^2)$, which is worse than the $O(N)$ complexity in the classical Monte Carlo method. In this paper, to improve this, we propose a method to divide $U_{X(t)}$ based on orthogonal series density estimation. This approach involves approximating the densities of $X(t)$ at $N$ time points with orthogonal series, where the coefficients are estimated as expectations of the orthogonal functions by QMCI. By using these approximated densities, we can estimate expectations concerning $X(t)$ by QMCI without requiring deep circuits. Our error and complexity analysis shows that to obtain the approximated densities at $N$ time points, our method achieves the circuit depth and total query complexity scaling as $O(\sqrt{N})$ and $O(N^{3/2})$, respectively.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 質量シュウィンガー模型における準フラグメンテーション関数

Quasi-fragmentation functions in the massive Schwinger model ( http://arxiv.org/abs/2406.01891v1 )

ライセンス: Link先を確認
Sebastian Grieninger, Ismail Zahed, (参考訳) 本研究では, クォーク準フラグメンテーション関数 (qFF) の概念をコリンズ=クーパー分断関数 (FF) の等時的, 空間的に増強された形式を用いて導入し, ここでは外中間子フラグメンテーションを現在の漸近状態に置き換える。 我々は、開境界条件を持つ空間格子におけるスピン量子ビットへの写像の後、コグト・ススキンド・ハミルトニアンを用いた二次元量子電磁力学(QED2)におけるフェルミオンのqFFを導出した。 この形式は量子計算に適している。 スピンハミルトニアンの正確な対角化によりqFFを計算する。 結果は、QED2のドレル・レヴィ・ヤン(DLY)結果に続くQFFと、最も低いフォック近似における2次元量子色力学(QCD2)と比較される。

We introduce the concept of the quark quasi-fragmentation function (qFF) using an equal-time and spatially boosted form of the Collins-Soper fragmentation function (FF) where the out-meson fragment is replaced by the current asymptotic condition. We derive the qFF for a fermion in two-dimensional quantum electrodynamics (QED2) using the Kogut-Susskind Hamiltonian after a mapping onto spin qubits in a spatial lattice with open boundary conditions. This form is suitable for quantum computations. We compute the qFF by exact diagonalization of the spin Hamiltonian. The results are compared to the qFF following from the Drell-Levy-Yan (DLY) result for QED2, both at strong and weak coupling, and to two-dimensional quantum chromodynamics (QCD2) in the lowest Fock approximation.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# 大規模言語モデルによる多エージェント生産システム

Large Language Model-Enabled Multi-Agent Manufacturing Systems ( http://arxiv.org/abs/2406.01893v1 )

ライセンス: Link先を確認
Jonghan Lim, Birgit Vogel-Heuser, Ilya Kovalenko, (参考訳) 従来の製造業は、動的環境に適応し、製造の変化に迅速に対応しようとする課題に直面している。 マルチエージェントシステムの使用は適応性と協調性を改善するが、自然言語統合による迅速な人間の指導理解、運用適応性、調整のさらなる進歩が必要である。 GPT-3.5やGPT-4のような大規模言語モデルは、エージェントが自然言語でコミュニケーションし、意思決定のために人間の指示を解釈できるようにすることにより、マルチエージェント製造システムを強化している。 本研究は,大規模言語モデルによって生産におけるエージェントの能力が向上し,より適応性が高く,文脈固有の命令を処理できる新しい枠組みを提案する。 ケーススタディでは、エージェント間の正確なGコード割り当てを含む、効果的にコミュニケーションし、タスクを理解し、製造プロセスを実行する方法を示す。 その結果,多エージェント製造システムへの継続的大規模言語モデル統合の重要性と,より柔軟な製造システムのための高度なエージェント通信プロトコルの開発が注目された。

Traditional manufacturing faces challenges adapting to dynamic environments and quickly responding to manufacturing changes. The use of multi-agent systems has improved adaptability and coordination but requires further advancements in rapid human instruction comprehension, operational adaptability, and coordination through natural language integration. Large language models like GPT-3.5 and GPT-4 enhance multi-agent manufacturing systems by enabling agents to communicate in natural language and interpret human instructions for decision-making. This research introduces a novel framework where large language models enhance the capabilities of agents in manufacturing, making them more adaptable, and capable of processing context-specific instructions. A case study demonstrates the practical application of this framework, showing how agents can effectively communicate, understand tasks, and execute manufacturing processes, including precise G-code allocation among agents. The findings highlight the importance of continuous large language model integration into multi-agent manufacturing systems and the development of sophisticated agent communication protocols for a more flexible manufacturing system.
翻訳日:2024-06-05 20:23:04 公開日:2024-06-04
# SVASTIN:時空間非可逆ニューラルネットワークによる疎ビデオ対向攻撃

SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural Networks ( http://arxiv.org/abs/2406.01894v1 )

ライセンス: Link先を確認
Yi Pan, Jun-Jie Huang, Zihan Chen, Wentao Zhao, Ziyue Wang, (参考訳) ビデオの空間的特徴と時間的特徴から,ロバストで知覚不能な対向的ビデオ攻撃は困難である。 既存の映像対向攻撃法は、主に勾配に基づくアプローチを採り、目立った摂動を伴う対向映像を生成する。 本稿では,時空間情報交換による対角的ビデオを生成するために,SVASTIN(spatio-Temporal Invertible Neural Networks)によるスパース対角的ビデオアタックを提案する。 摂動予算と最適化速度のバランスをとるためのガイドターゲット・ビデオ・ラーニング(GTVL)モジュールと、ソースビデオとGTVLモジュールが学習したターゲット特徴テンソルの間で時空間情報を交換する時空間時空間情報を行う時空間可逆ニューラルネットワーク(STIN)モジュールで構成される。 UCF-101 と Kinetics-400 の広範囲な実験により,提案したSVASTIN は,非受容性の高い対逆例を,より高い騙し率で生成できることが実証された。 コードは \href{https://github.com/Brittany-Chen/SVASTIN}{https://github.com/Brittany-Chen/SVASTIN} で公開されている。

Robust and imperceptible adversarial video attack is challenging due to the spatial and temporal characteristics of videos. The existing video adversarial attack methods mainly take a gradient-based approach and generate adversarial videos with noticeable perturbations. In this paper, we propose a novel Sparse Adversarial Video Attack via Spatio-Temporal Invertible Neural Networks (SVASTIN) to generate adversarial videos through spatio-temporal feature space information exchanging. It consists of a Guided Target Video Learning (GTVL) module to balance the perturbation budget and optimization speed and a Spatio-Temporal Invertible Neural Network (STIN) module to perform spatio-temporal feature space information exchanging between a source video and the target feature tensor learned by GTVL module. Extensive experiments on UCF-101 and Kinetics-400 demonstrate that our proposed SVASTIN can generate adversarial examples with higher imperceptibility than the state-of-the-art methods with the higher fooling rate. Code is available at \href{https://github.com/Brittany-Chen/SVASTIN}{https://github.com/Brittany-Chen/SVASTIN}.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 算数課題における長さ一般化の鍵となる構造対称性の明示的符号化

Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks ( http://arxiv.org/abs/2406.01895v1 )

ライセンス: Link先を確認
Mahdi Sabbaghi, George Pappas, Hamed Hassani, Surbhi Goel, (参考訳) 言語理解、コード生成、論理推論においてトランスフォーマーが成功したにも拘わらず、加算や乗算といった基本的な算術的なタスクでは、長さを超越して一般化することができない。 例えば、数字は通常右から左にパースされ、異なる数字にまたがる同じ位置にある桁が対応している。 対照的に、テキストではそのような対称性は極めて不自然なものである。 本研究では,これらのセマンティクスを,修正された数値フォーマッティングとカスタム位置エンコーディングによってモデルに明示的にエンコードすることを提案する。 提案手法では,最大50桁までの数値を,最大5桁の数値を加算・乗算するためにトレーニングしたトランスフォーマーを,より長いシーケンスに対して追加データを用いることなく一般化することができる。 さらに、従来の絶対位置符号化(APE)は、タスク対称性をキャプチャする拡張データを用いて訓練しても、より長いシーケンスに一般化できないことを示す。 構造を明示的に符号化することの重要性を明らかにするために、分布外一般化には位置符号化による構造を明示的に組み込む必要があることを証明した。 最後に,対称性,特に基礎課題の複雑さを捉えること以外の,長さ一般化に固有の他の課題を指摘し,それに対応するためのトレーニング分布の変更を提案する。

Despite the success of Transformers on language understanding, code generation, and logical reasoning, they still fail to generalize over length on basic arithmetic tasks such as addition and multiplication. A major reason behind this failure is the vast difference in structure between numbers and text; For example, the numbers are typically parsed from right to left, and there is a correspondence between digits at the same position across different numbers. In contrast, for text, such symmetries are quite unnatural. In this work, we propose to encode these semantics explicitly into the model via modified number formatting and custom positional encodings. Empirically, our method allows a Transformer trained on numbers with at most 5-digits for addition and multiplication to generalize up to 50-digit numbers, without using additional data for longer sequences. We further demonstrate that traditional absolute positional encodings (APE) fail to generalize to longer sequences, even when trained with augmented data that captures task symmetries. To elucidate the importance of explicitly encoding structure, we prove that explicit incorporation of structure via positional encodings is necessary for out-of-distribution generalization. Finally, we pinpoint other challenges inherent to length generalization beyond capturing symmetries, in particular complexity of the underlying task, and propose changes in the training distribution to address them.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# クロスドメイングラフデータスケーリング - 拡散モデルを用いたケース

Cross-Domain Graph Data Scaling: A Showcase with Diffusion Models ( http://arxiv.org/abs/2406.01899v1 )

ライセンス: Link先を確認
Wenzhuo Tang, Haitao Mao, Danial Dervovic, Ivan Brugere, Saumitra Mishra, Yuying Xie, Jiliang Tang, (参考訳) 自然言語とイメージのモデルは、データスケーリングの振る舞いの恩恵を受けます。 この"Better with more"現象は、大量のデータに対する大規模な事前トレーニングの有効性を実現する。 しかし、現在のグラフ事前学習手法は、グラフ間の不均一性によるデータのスケールアップに苦慮している。 効率的なデータスケーリングを実現するために、グラフの多様なデータパターンをキャプチャし、下流のタスクを適応的に支援できる汎用モデルを開発することを目的とする。 この目的のために,拡散モデル上に構築された普遍グラフ構造拡張器UniAugを提案する。 まず、各領域にまたがる数千のグラフ上の離散拡散モデルを事前学習し、グラフ構造パターンを学習する。 下流相では、誘導生成による事前学習拡散モデルの助けを借りて、グラフ構造拡張を行い、適応的な拡張を提供する。 事前学習した拡散モデルを用いて,様々な下流タスクに対して,プラグイン・アンド・プレイ方式で連続的に性能改善を行う。 我々の知る限り、この研究はドメイン間のグラフ上のデータスケーリンググラフ構造拡張器の最初の実演である。

Models for natural language and images benefit from data scaling behavior: the more data fed into the model, the better they perform. This 'better with more' phenomenon enables the effectiveness of large-scale pre-training on vast amounts of data. However, current graph pre-training methods struggle to scale up data due to heterogeneity across graphs. To achieve effective data scaling, we aim to develop a general model that is able to capture diverse data patterns of graphs and can be utilized to adaptively help the downstream tasks. To this end, we propose UniAug, a universal graph structure augmentor built on a diffusion model. We first pre-train a discrete diffusion model on thousands of graphs across domains to learn the graph structural patterns. In the downstream phase, we provide adaptive enhancement by conducting graph structure augmentation with the help of the pre-trained diffusion model via guided generation. By leveraging the pre-trained diffusion model for structure augmentation, we consistently achieve performance improvements across various downstream tasks in a plug-and-play manner. To the best of our knowledge, this study represents the first demonstration of a data-scaling graph structure augmentor on graphs across domains.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# Follow-Your-Emoji:Fun-Controllable and Expressive Freestyle Portrait Animation

Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation ( http://arxiv.org/abs/2406.01900v1 )

ライセンス: Link先を確認
Yue Ma, Hongyu Liu, Hongfa Wang, Heng Pan, Yingqing He, Junkun Yuan, Ailing Zeng, Chengfei Cai, Heung-Yeung Shum, Wei Liu, Qifeng Chen, (参考訳) ポートレートアニメーションの拡散に基づくフレームワークであるFollow-Your-Emojiについて述べる。 ポートレートアニメーションの主な課題は、参照ポートレートのアイデンティティを保存し、時間的一貫性と忠実さを維持しながら、ターゲット表現をこのポートレートに転送することである。 これらの課題に対処するため、Follow-Your-Emojiは2つのよく設計された技術を備えた強力な安定拡散モデルを採用した。 具体的には、まず、アニメーションプロセスのガイドとして、表現認識のランドマークという、新しい明示的な動作信号を採用する。 このランドマークは、参照ポートレートと推論中のターゲットモーションの正確な動きアライメントを確保するだけでなく、誇張された表現(すなわち大きな瞳運動)を表現し、アイデンティティの漏洩を避けることができる。 そこで我々は,表情と顔のマスクの両方を用いて,微妙な表情認識能力と参照肖像画の外観復元能力を向上させるために,顔のきめ細かな損失を提案する。 そこで本手法は,人間,漫画,彫刻,動物など,フリースタイルの肖像画の表現を制御できることを実証する。 単純かつ効果的なプログレッシブ・ジェネレーション・ストラテジーを活用することで、我々はモデルを安定した長期アニメーションに拡張し、潜在的なアプリケーション価値を増大させる。 この分野でのベンチマークの欠如に対処するために、さまざまな肖像画、動画の駆動、ランドマークからなる総合的なベンチマークであるEmojiBenchを紹介します。 また,EmojiBenchについて,Follow-Your-Emojiの優位性を検証するため,広範囲な評価を行った。

We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait and transfer the target expression to this portrait while maintaining temporal consistency and fidelity. To address these challenges, Follow-Your-Emoji equipped the powerful Stable Diffusion model with two well-designed technologies. Specifically, we first adopt a new explicit motion signal, namely expression-aware landmark, to guide the animation process. We discover this landmark can not only ensure the accurate motion alignment between the reference portrait and target motion during inference but also increase the ability to portray exaggerated expressions (i.e., large pupil movements) and avoid identity leakage. Then, we propose a facial fine-grained loss to improve the model's ability of subtle expression perception and reference portrait appearance reconstruction by using both expression and facial masks. Accordingly, our method demonstrates significant performance in controlling the expression of freestyle portraits, including real humans, cartoons, sculptures, and even animals. By leveraging a simple and effective progressive generation strategy, we extend our model to stable long-term animation, thus increasing its potential application value. To address the lack of a benchmark for this field, we introduce EmojiBench, a comprehensive benchmark comprising diverse portrait images, driving videos, and landmarks. We show extensive evaluations on EmojiBench to verify the superiority of Follow-Your-Emoji.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# Bifurcated Generative Flow Networks

Bifurcated Generative Flow Networks ( http://arxiv.org/abs/2406.01901v1 )

ライセンス: Link先を確認
Chunhui Li, Cheng-Hao Liu, Dianbo Liu, Qingpeng Cai, Ling Pan, (参考訳) 確率的サンプルの新たなファミリーであるGenerative Flow Networks (GFlowNets)は、最近、高品質で多様なオブジェクトを報酬に比例して生成する確率的ポリシーを学ぶための有望なフレームワークとして登場した。 しかし、既存のGFlowNetは、エッジフローの直接的なパラメータ化や、大規模なアクションスペースへのスケールアップに苦労する可能性のある後方ポリシーに依存しているため、データ効率の低下に悩まされることが多い。 本稿では,Bifrcated GFlowNets (BN) について紹介する。これは分岐型アーキテクチャを用いて,状態フローとエッジベースのフローアロケーションの別々の表現にフローを分解する手法である。 この分解により、BNはデータからより効率的に学習し、収束保証を維持しながら大規模問題に対処できる。 標準評価ベンチマークの広範な実験を通じて、BNは強力なベースラインに比べて学習効率と効率を著しく改善することを示した。

Generative Flow Networks (GFlowNets), a new family of probabilistic samplers, have recently emerged as a promising framework for learning stochastic policies that generate high-quality and diverse objects proportionally to their rewards. However, existing GFlowNets often suffer from low data efficiency due to the direct parameterization of edge flows or reliance on backward policies that may struggle to scale up to large action spaces. In this paper, we introduce Bifurcated GFlowNets (BN), a novel approach that employs a bifurcated architecture to factorize the flows into separate representations for state flows and edge-based flow allocation. This factorization enables BN to learn more efficiently from data and better handle large-scale problems while maintaining the convergence guarantee. Through extensive experiments on standard evaluation benchmarks, we demonstrate that BN significantly improves learning efficiency and effectiveness compared to strong baselines.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# ProGEO:ビジュアルジオローカライゼーションのための画像テキストコントラスト学習によるプロンプト生成

ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization ( http://arxiv.org/abs/2406.01906v1 )

ライセンス: Link先を確認
Chen Mao, Jingqi Hu, (参考訳) ビジュアルジオローカライゼーション(VG)は、自律運転、メタバース、拡張現実、SLAMといったロボット分野やコンピュータビジョンタスクに広く応用されている、クエリー画像に記述された位置を特定するプロセスである。 特定のテキスト記述を欠いたききめ細かい画像では、近傍の特徴を表現するために純粋に視覚的手法を直接適用すると、過度にきめ細かな特徴に焦点を絞ったモデルになることが多く、画像のセマンティック情報を完全にマイニングすることができない。 そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。 私たちはまず、CLIP(Contrastive Language- Image Pretraining)のマルチモーダル記述機能を活用して、地理的特徴ごとに学習可能なテキストプロンプトのセットを作成し、曖昧な記述を形成する。 そして、動的テキストプロンプトを利用して画像エンコーダの訓練を支援することにより、画像エンコーダがより良く、より一般化可能な視覚的特徴を学習できるようにする。 テキストを純粋に視覚的なタスクに適用するというこの戦略は、地理的画像にマルチモーダルモデルを使用することの難しさに対処する。 提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証し,複数の視覚的ジオローカライゼーションデータセットで競合する結果を得る。 私たちのコードとモデルはhttps://github.com/Chain-Mao/ProGEO.comで公開されています。

Visual Geo-localization (VG) refers to the process to identify the location described in query images, which is widely applied in robotics field and computer vision tasks, such as autonomous driving, metaverse, augmented reality, and SLAM. In fine-grained images lacking specific text descriptions, directly applying pure visual methods to represent neighborhood features often leads to the model focusing on overly fine-grained features, unable to fully mine the semantic information in the images. Therefore, we propose a two-stage training method to enhance visual performance and use contrastive learning to mine challenging samples. We first leverage the multi-modal description capability of CLIP (Contrastive Language-Image Pretraining) to create a set of learnable text prompts for each geographic image feature to form vague descriptions. Then, by utilizing dynamic text prompts to assist the training of the image encoder, we enable the image encoder to learn better and more generalizable visual features. This strategy of applying text to purely visual tasks addresses the challenge of using multi-modal models for geographic images, which often suffer from a lack of precise descriptions, making them difficult to utilize widely. We validate the effectiveness of the proposed strategy on several large-scale visual geo-localization datasets, and our method achieves competitive results on multiple visual geo-localization datasets. Our code and model are available at https://github.com/Chain-Mao/ProGEO.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 大規模線形計画法におけるPDHG-arrolled Learning-to-Optimize法

PDHG-Unrolled Learning-to-Optimize Method for Large-Scale Linear Programming ( http://arxiv.org/abs/2406.01908v1 )

ライセンス: Link先を確認
Bingheng Li, Linxin Yang, Yupeng Chen, Senmiao Wang, Qian Chen, Haitao Mao, Yao Ma, Akang Wang, Tian Ding, Jiliang Tang, Ruoyu Sun, (参考訳) 大規模線形プログラミング(LP)問題の解決は、通信ネットワーク、電力システム、金融、物流など、様々な分野において重要な課題である。 近年、LP解決を高速化する2つの異なるアプローチが出現している。 (i)一階法(FOMs) (ii)最適化学習(L2O)。 本研究では、PDHG-Netと呼ばれるFOMアンロールニューラルネットワーク(NN)を提案し、大規模LP問題を解決するための2段階L2O法を提案する。 新しいアーキテクチャであるPDHG-Netは、最近登場したPDHGメソッドをニューラルネットワークにアンロールすることで設計されている。 提案したPDHG-NetはPDHGアルゴリズムを復元できることを示す。 本稿では,まず PDHG-Net を用いて近似解を生成し,次に PDHG アルゴリズムを用いて解をさらに改良する2段階推論手法を提案する。 実験の結果,提案手法は大規模LP問題に対してFOMよりも3$\times$の高速化を実現することができることがわかった。

Solving large-scale linear programming (LP) problems is an important task in various areas such as communication networks, power systems, finance and logistics. Recently, two distinct approaches have emerged to expedite LP solving: (i) First-order methods (FOMs); (ii) Learning to optimize (L2O). In this work, we propose an FOM-unrolled neural network (NN) called PDHG-Net, and propose a two-stage L2O method to solve large-scale LP problems. The new architecture PDHG-Net is designed by unrolling the recently emerged PDHG method into a neural network, combined with channel-expansion techniques borrowed from graph neural networks. We prove that the proposed PDHG-Net can recover PDHG algorithm, thus can approximate optimal solutions of LP instances with a polynomial number of neurons. We propose a two-stage inference approach: first use PDHG-Net to generate an approximate solution, and then apply PDHG algorithm to further improve the solution. Experiments show that our approach can significantly accelerate LP solving, achieving up to a 3$\times$ speedup compared to FOMs for large-scale LP problems.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 最大符号化速度低下のグローバルな幾何学的解析

A Global Geometric Analysis of Maximal Coding Rate Reduction ( http://arxiv.org/abs/2406.01909v1 )

ライセンス: Link先を確認
Peng Wang, Huikang Liu, Druv Pai, Yaodong Yu, Zhihui Zhu, Qing Qu, Yi Ma, (参考訳) 構造化およびコンパクトな深層表現を学習するための最大符号化レート削減(MCR$^2$)の目標が注目されている。 しかし、その大域的最適性のみが知られており、その大域的景観は研究されていない。 本研究では、局所的および大域的最適点と他の臨界点のすべての性質の完全な特徴づけを与える。 具体的には, MCR$^2$問題の各(局所的あるいは大域的)最大値が低次元, 識別的, 多様な表現に対応し, さらに, 目的のそれぞれの臨界点は局所的最大値か厳密なサドル点であることを示す。 このような好ましい風景は、MCR$^2$を一階最適化法を通じて多様で差別的な表現を学ぶための自然選択である。 理論的な結果を検証するため、我々は合成データと実データの両方について広範な実験を行った。

The maximal coding rate reduction (MCR$^2$) objective for learning structured and compact deep representations is drawing increasing attention, especially after its recent usage in the derivation of fully explainable and highly effective deep network architectures. However, it lacks a complete theoretical justification: only the properties of its global optima are known, and its global landscape has not been studied. In this work, we give a complete characterization of the properties of all its local and global optima, as well as other types of critical points. Specifically, we show that each (local or global) maximizer of the MCR$^2$ problem corresponds to a low-dimensional, discriminative, and diverse representation, and furthermore, each critical point of the objective is either a local maximizer or a strict saddle point. Such a favorable landscape makes MCR$^2$ a natural choice of objective for learning diverse and discriminative representations via first-order optimization methods. To validate our theoretical findings, we conduct extensive experiments on both synthetic and real data sets.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 物理インフォームド拡散モデルによる合成ネット負荷データの生成

Generating Synthetic Net Load Data with Physics-informed Diffusion Model ( http://arxiv.org/abs/2406.01913v1 )

ライセンス: Link先を確認
Shaorong Zhang, Yuanbin Cheng, Nanpeng Yu, (参考訳) 本稿では,データ不足とプライバシー問題に対処するため,合成ネット負荷データを生成する物理インフォームド拡散モデルを提案する。 提案フレームワークは物理モデルをデノベーションネットワークに組み込んで,予測できないシナリオに容易に一般化可能な,汎用的なアプローチを提供する。 条件付き認知ニューラルネットワークは、拡散モデルの遷移核のパラメータと物理インフォームド関数のパラメータを共同で訓練するように設計されている。 Pecan Street から得られた実世界のスマートメータデータを用いて,提案手法の有効性を検証し,その性能を生成逆数ネットワーク,変分オートエンコーダ,正規化フロー,よく校正されたベースライン拡散モデルなど,最先端のジェネレーティブモデルと比較する。 総合的な評価指標を用いて、生成された合成ネット負荷データの正確性と多様性を評価する。 数値実験の結果,提案した物理インフォームド拡散モデルでは,すべての測定値において最先端のモデルよりも高い性能を示し,少なくとも20%の改善が得られた。

This paper presents a novel physics-informed diffusion model for generating synthetic net load data, addressing the challenges of data scarcity and privacy concerns. The proposed framework embeds physical models within denoising networks, offering a versatile approach that can be readily generalized to unforeseen scenarios. A conditional denoising neural network is designed to jointly train the parameters of the transition kernel of the diffusion model and the parameters of the physics-informed function. Utilizing the real-world smart meter data from Pecan Street, we validate the proposed method and conduct a thorough numerical study comparing its performance with state-of-the-art generative models, including generative adversarial networks, variational autoencoders, normalizing flows, and a well calibrated baseline diffusion model. A comprehensive set of evaluation metrics is used to assess the accuracy and diversity of the generated synthetic net load data. The numerical study results demonstrate that the proposed physics-informed diffusion model outperforms state-of-the-art models across all quantitative metrics, yielding at least 20% improvement.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# HPE-CogVLM:視覚言語モデルに基づく新しい頭部接地課題探索

HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model ( http://arxiv.org/abs/2406.01914v1 )

ライセンス: Link先を確認
Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu, (参考訳) 頭部ポーズ推定(HPE)タスクは、3次元空間関係の洗練された理解とヨー、ピッチ、ロールオイラー角の正確な数値出力を必要とする。 従来のHPE研究は主に非大規模言語モデル(Non-LLMs)に基づいており、これは実世界のシナリオにおいて、入力としてフルイメージから抽出されたクローズアップな人間の頭に依存している。 本稿では,CogVLMの視覚的接地機能を活用することで,HPE予測タスクを強化する新しいフレームワークを提案する。 CogVLMは、オブジェクト境界ボックス(BBox)の予測機能を備えた視覚言語モデル(VLM)であり、フルイメージ情報入力を用いたHPEトレーニングと予測を可能にする。 HPEタスクをVLMに統合するために,我々はまず,大言語モデル(LLM)における破滅的な忘れ問題に対処し,データリハーサル法におけるリハーサル比を調査する。 そこで我々は,パラメータの整合性を維持するLoRA層モデルマージ手法を提案し,提案手法の有効性を検証した。 その結果,HPE-CogVLMは,HPE予測における平均絶対誤差を31.5倍に減らし,非LLMに基づく現状を把握した。 さらに,我々のLoRA層モデルマージ法と,CagVLMにおけるLoRAファインチューニング法および他のマージ法との比較を行った。 その結果、我々のフレームワークはすべてのHPEメトリクスでそれらを上回ります。

Head pose estimation (HPE) task requires a sophisticated understanding of 3D spatial relationships and precise numerical output of yaw, pitch, and roll Euler angles. Previous HPE studies are mainly based on Non-large language models (Non-LLMs), which rely on close-up human heads cropped from the full image as inputs and lack robustness in real-world scenario. In this paper, we present a novel framework to enhance the HPE prediction task by leveraging the visual grounding capability of CogVLM. CogVLM is a vision language model (VLM) with grounding capability of predicting object bounding boxes (BBoxes), which enables HPE training and prediction using full image information input. To integrate the HPE task into the VLM, we first cop with the catastrophic forgetting problem in large language models (LLMs) by investigating the rehearsal ratio in the data rehearsal method. Then, we propose and validate a LoRA layer-based model merging method, which keeps the integrity of parameters, to enhance the HPE performance in the framework. The results show our HPE-CogVLM achieves a 31.5\% reduction in Mean Absolute Error for HPE prediction over the current Non-LLM based state-of-the-art in cross-dataset evaluation. Furthermore, we compare our LoRA layer-based model merging method with LoRA fine-tuning only and other merging methods in CogVLM. The results demonstrate our framework outperforms them in all HPE metrics.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# FastLGS: 機能グリッドマッピングによる言語組み込みガウスの高速化

FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping ( http://arxiv.org/abs/2406.01916v1 )

ライセンス: Link先を確認
Yuzhou Ji, He Zhu, Junshu Tang, Wuyi Liu, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan, (参考訳) セマンティック・インタラクティブなラディアンス・フィールドは、ユーザフレンドリーで自動化された現実世界の3Dシーン理解アプリケーションを促進する可能性に対して、常に魅力的なタスクであった。 しかし,レージアンス分野のセマンティクスを用いて,高品質,効率,ゼロショット能力を同時に達成することは難しい課題である。 本研究では,3次元ガウススプラッティング(3DGS)におけるリアルタイムなオープン語彙クエリをサポートするアプローチであるFastLGSを提案する。 本稿では,Segment Anything Model (SAM) マスクから抽出したマルチビューCLIP機能を保存するためのセマンティック特徴グリッドを提案し,そのグリッドを3DGSによるセマンティックフィールドトレーニングのための低次元特徴にマッピングする。 一度トレーニングすれば、オープン語彙クエリのレンダリング機能からフィーチャーグリッドを通じて、ピクセル整列CLIP埋め込みを復元できます。 FastLGSはLERFより98倍、LangSplatより4倍高速である。 一方、実験により、FastLGSは他の3D操作システムに容易に適用可能な3Dセグメンテーションや3Dオブジェクトのインペインティングなど、多くの下流タスクに適応し互換性があることが示されている。

The semantically interactive radiance field has always been an appealing task for its potential to facilitate user-friendly and automated real-world 3D scene understanding applications. However, it is a challenging task to achieve high quality, efficiency and zero-shot ability at the same time with semantics in radiance fields. In this work, we present FastLGS, an approach that supports real-time open-vocabulary query within 3D Gaussian Splatting (3DGS) under high resolution. We propose the semantic feature grid to save multi-view CLIP features which are extracted based on Segment Anything Model (SAM) masks, and map the grids to low dimensional features for semantic field training through 3DGS. Once trained, we can restore pixel-aligned CLIP embeddings through feature grids from rendered features for open-vocabulary queries. Comparisons with other state-of-the-art methods prove that FastLGS can achieve the first place performance concerning both speed and accuracy, where FastLGS is 98x faster than LERF and 4x faster than LangSplat. Meanwhile, experiments show that FastLGS is adaptive and compatible with many downstream tasks, such as 3D segmentation and 3D object inpainting, which can be easily applied to other 3D manipulation systems.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# GOMAA-Geo: GOAL Modality Agnostic Active Geo-localization

GOMAA-Geo: GOal Modality Agnostic Active Geo-localization ( http://arxiv.org/abs/2406.01917v1 )

ライセンス: Link先を確認
Anindya Sarkar, Srikumar Sastry, Aleksis Pirinen, Chongjie Zhang, Nathan Jacobs, Yevgeniy Vorobeychik, (参考訳) エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 これは、地域を航行する捜索救助活動に関わるUAVをエミュレートし、空中画像の流れを観察する。 AGLタスクは2つの重要な課題に関連付けられている。 まず、エージェントは複数のモダリティ(例えば自然言語による記述)の1つで目標仕様を扱い、検索キューは他のモダリティ(空中画像)で提供される。 第二の課題は、目標をできるだけ効率的にローカライズする必要があるように、限定的なローカライズ時間(例えば、バッテリー寿命、緊急性)であり、すなわち、エージェントはゴールを探す際に、そのシーケンシャルに観察された空中のビューを効果的に活用する必要がある。 これらの課題に対処するため、異なる目標モダリティ間のゼロショット一般化のためのゴールモダリティ非依存なアクティブなジオローカライゼーションエージェントであるGOMAA-Geoを提案する。 提案手法は,モダリティ間の相互比較学習と,教師付き基礎モデルの事前学習と強化学習を組み合わせることで,高度に効果的なナビゲーションとローカライゼーションポリシを実現する。 GOMAA-Geoは、学習可能な代替手法よりも優れており、例えば、訓練中に1つの災害シナリオを見ることなく、災害現場へ、そして目標モダリティ(例えば、地上レベルの画像やテキストによる記述)を一般化する。 コードとモデルはhttps://github.com/mvrl/GOMAA-Geo/tree/mainで公開されている。

We consider the task of active geo-localization (AGL) in which an agent uses a sequence of visual cues observed during aerial navigation to find a target specified through multiple possible modalities. This could emulate a UAV involved in a search-and-rescue operation navigating through an area, observing a stream of aerial images as it goes. The AGL task is associated with two important challenges. Firstly, an agent must deal with a goal specification in one of multiple modalities (e.g., through a natural language description) while the search cues are provided in other modalities (aerial imagery). The second challenge is limited localization time (e.g., limited battery life, urgency) so that the goal must be localized as efficiently as possible, i.e. the agent must effectively leverage its sequentially observed aerial views when searching for the goal. To address these challenges, we propose GOMAA-Geo - a goal modality agnostic active geo-localization agent - for zero-shot generalization between different goal modalities. Our approach combines cross-modality contrastive learning to align representations across modalities with supervised foundation model pretraining and reinforcement learning to obtain highly effective navigation and localization policies. Through extensive evaluations, we show that GOMAA-Geo outperforms alternative learnable approaches and that it generalizes across datasets - e.g., to disaster-hit areas without seeing a single disaster scenario during training - and goal modalities - e.g., to ground-level imagery or textual descriptions, despite only being trained with goals specified as aerial views. Code and models are publicly available at https://github.com/mvrl/GOMAA-Geo/tree/main.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 生成的暗黙的神経表現に基づく画像ステガノグラフィー

Image steganography based on generative implicit neural representation ( http://arxiv.org/abs/2406.01918v1 )

ライセンス: Link先を確認
Zhong Yangjie, Liu Jia, Ke Yan, Liu Meiqi, (参考訳) 高度なステガノグラフィーの領域では、モデルのスケールは通常、基本格子の解像度と直接相関し、メッセージ抽出のために異なるニューラルネットワークのトレーニングを必要とする。 本稿では,生成的暗黙的神経表現に基づく画像ステガノグラフィーを提案する。 このアプローチは、データを連続関数表現として表現することで、画像解像度の制約を超越する。 特に,本手法では,多種多様なマルチメディアデータをカバー画像として利用し,キャリヤのスペクトルを拡大する。 さらに,ニューラルネットワークをメッセージ抽出器として固定することにより,トレーニング負荷を画像自体に効果的にリダイレクトする。 このアプローチはまた、メッセージ抽出器に関連する潜在的な送信課題を回避する。 実験結果から,64x64次元画像に対して3秒の完了時間を実現するとともに,1bppの情報を隠蔽する。 さらに、メッセージ抽出の精度は、100%の印象的なマークを得られる。

In the realm of advanced steganography, the scale of the model typically correlates directly with the resolution of the fundamental grid, necessitating the training of a distinct neural network for message extraction. This paper proposes an image steganography based on generative implicit neural representation. This approach transcends the constraints of image resolution by portraying data as continuous functional expressions. Notably, this method permits the utilization of a diverse array of multimedia data as cover images, thereby broadening the spectrum of potential carriers. Additionally, by fixing a neural network as the message extractor, we effectively redirect the training burden to the image itself, resulting in both a reduction in computational overhead and an enhancement in steganographic speed. This approach also circumvents potential transmission challenges associated with the message extractor. Experimental findings reveal that this methodology achieves a commendable optimization efficiency, achieving a completion time of just 3 seconds for 64x64 dimensional images, while concealing only 1 bpp of information. Furthermore, the accuracy of message extraction attains an impressive mark of 100%.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# OTTAWA:Halucination と Omission Translation Errors 検出のための最適な TransporT Adaptive Word Aligner

OTTAWA: Optimal TransporT Adaptive Word Aligner for Hallucination and Omission Translation Errors Detection ( http://arxiv.org/abs/2406.01919v1 )

ライセンス: Link先を確認
Chenyang Huang, Abbas Ghaddar, Ivan Kobyzev, Mehdi Rezagholizadeh, Osmar R. Zaiane, Boxing Chen, (参考訳) 近年,機械翻訳(MT)システムにおける幻覚や失語の検出に注目が集まっている。 この課題に取り組むための2つの主要なアプローチは、MTシステムの内部状態の分析や、文の類似性やMT品質推定器といった外部ツールの出力に依存することである。 本研究は,MTシステムにおける幻覚や排便の検出を促進すべく,OT(Optimal Transport)ベースの単語整合器OTTAWAについて紹介する。 提案手法は「ヌル」ベクトルを導入し、適応的なヌルアライメントを可能にする新しい一方的な制約付きOT設定を提案することで、そのアライメントを明示的にモデル化する。 提案手法は,HalOmiベンチマークを用いた18言語対の最先端手法と比較して,競争力のある結果が得られる。 さらに、MTシステムの内部状態にアクセスすることなく、エラータイプを区別し、ワードレベルの検出を行うなど、有望な機能を示す。

Recently, there has been considerable attention on detecting hallucinations and omissions in Machine Translation (MT) systems. The two dominant approaches to tackle this task involve analyzing the MT system's internal states or relying on the output of external tools, such as sentence similarity or MT quality estimators. In this work, we introduce OTTAWA, a novel Optimal Transport (OT)-based word aligner specifically designed to enhance the detection of hallucinations and omissions in MT systems. Our approach explicitly models the missing alignments by introducing a "null" vector, for which we propose a novel one-side constrained OT setting to allow an adaptive null alignment. Our approach yields competitive results compared to state-of-the-art methods across 18 language pairs on the HalOmi benchmark. In addition, it shows promising features, such as the ability to distinguish between both error types and perform word-level detection without accessing the MT system's internal states.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# CODE:大規模マルチモーダルモデルにおけるコンバット幻覚に対する自己生成記述の対比

CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models ( http://arxiv.org/abs/2406.01920v1 )

ライセンス: Link先を確認
Junho Kim, Hyunjun Kim, Yeonju Kim, Yong Man Ro, (参考訳) 大規模マルチモーダルモデル(LMM)は近年,視覚的文脈理解とコヒーレント応答生成において顕著な能力を示した。 しかし、これらの進歩とともに幻覚の問題は重要な課題として現れ、視覚内容とは無関係な誤った反応を生み出している。 本稿では,LMMの復号フェーズにおいて,自己生成記述をコントラスト参照として活用して幻覚問題に対処する,新しいコントラスト型復号法,Countering Description Contrastive Decoding (CODE)を提案する。 CODEは、モデル自体からの包括的記述を視覚的記述として利用し、実際の視覚コンテンツとの応答アライメントを補正し改善する。 LMMの語彙における次点予測の情報フローと分布を動的に調整することにより、CODEは生成された応答の一貫性と情報性を高める。 広汎な実験により,本手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間での相互整合性を向上することが示された。 提案手法は,既存の LMM フレームワークに追加のトレーニングを加えることなく統合可能な,シンプルで効果的な復号化戦略を提供する。

Large Multi-modal Models (LMMs) have recently demonstrated remarkable abilities in visual context understanding and coherent response generation. However, alongside these advancements, the issue of hallucinations has emerged as a significant challenge, producing erroneous responses that are unrelated to the visual contents. In this paper, we introduce a novel contrastive-based decoding method, COuntering DEscription Contrastive Decoding (CODE), which leverages self-generated descriptions as contrasting references during the decoding phase of LMMs to address hallucination issues. CODE utilizes the comprehensive descriptions from model itself as visual counterpart to correct and improve response alignment with actual visual content. By dynamically adjusting the information flow and distribution of next-token predictions in the LMM's vocabulary, CODE enhances the coherence and informativeness of generated responses. Extensive experiments demonstrate that our method significantly reduces hallucinations and improves cross-modal consistency across various benchmarks and cutting-edge LMMs. Our method provides a simple yet effective decoding strategy that can be integrated to existing LMM frameworks without additional training.
翻訳日:2024-06-05 20:13:20 公開日:2024-06-04
# 位置に基づくローグアクセスポイント検出

Position-based Rogue Access Point Detection ( http://arxiv.org/abs/2406.01927v1 )

ライセンス: Link先を確認
Wenjie Liu, Panos Papadimitratos, (参考訳) ローグWi-Fiアクセスポイント(AP)攻撃は、データ漏洩と不正アクセスにつながる可能性がある。 既存のAP検出方法やツールはチャネル状態情報(CSI)や受信信号強度指標(RSSI)に頼っていることが多いが、特定のハードウェアを必要とするか、検出精度が低い。 一方、AP位置は通常固定されており、Wi-Fiはユーザーデバイスの屋内位置決めをサポートすることができる。 この位置情報に基づいて、モバイルプラットフォームは、1つ(またはそれ以上)のAPが不正であるかどうかをチェックすることができる。 ローグAPが組み込まれれば、原理的には間違った推定位置になる。 したがって、APの異なるサブセットを使用するという考え方は、ログAPを含むサブセットに基づいて計算された位置は、そうでないサブセットと大きく異なる。 我々のスキームは、サブセット生成と位置検証の2つのコンポーネントを含む。 まず、APからRSSIのサブセットを生成し、そのサブセットを位置決めに利用する。 第二に、位置推定は不確実性とともにガウス混合に組み合わされ、ガウス成分の重複を評価することによって不整合をチェックする。 3種類の攻撃と合成RSSIを統合した実世界のデータセットを用いて行った比較分析により,ログAP検出精度が大幅に向上したことを示す。

Rogue Wi-Fi access point (AP) attacks can lead to data breaches and unauthorized access. Existing rogue AP detection methods and tools often rely on channel state information (CSI) or received signal strength indicator (RSSI), but they require specific hardware or achieve low detection accuracy. On the other hand, AP positions are typically fixed, and Wi-Fi can support indoor positioning of user devices. Based on this position information, the mobile platform can check if one (or more) AP in range is rogue. The inclusion of a rogue AP would in principle result in a wrong estimated position. Thus, the idea to use different subsets of APs: the positions computed based on subsets that include a rogue AP will be significantly different from those that do not. Our scheme contains two components: subset generation and position validation. First, we generate subsets of RSSIs from APs, which are then utilized for positioning, similar to receiver autonomous integrity monitoring (RAIM). Second, the position estimates, along with uncertainties, are combined into a Gaussian mixture, to check for inconsistencies by evaluating the overlap of the Gaussian components. Our comparative analysis, conducted on a real-world dataset with three types of attacks and synthetic RSSIs integrated, demonstrates a substantial improvement in rogue AP detection accuracy.
翻訳日:2024-06-05 20:03:31 公開日:2024-06-04
# 分散スムーズな量子化推定による高速ネットワークデータ選択

Fast networked data selection via distributed smoothed quantile estimation ( http://arxiv.org/abs/2406.01929v1 )

ライセンス: Link先を確認
Xu Zhang, Marcos M. Vasconcelos, (参考訳) ネットワーク上に分散された大規模なデータセットから最も情報性の高いデータを収集することは、制御、信号処理、機械学習など、多くの分野において基本的な問題である。 本稿では,最も情報性の高いデータを選択することと,マルチセットの上位k$要素を見つけることの関連性を確立する。 ネットワークにおけるトップ$kの選択は、量子的推定として知られる分散非平滑凸最適化問題として定式化することができる。 残念ながら、局所的な目的関数の滑らかさの欠如は、ネットワークサイズに関して非常に緩やかな収束とスケーラビリティの低下をもたらす。 そこで本研究では, 平滑化技術を用いた高速化手法を提案する。 量子的推定における局所目的関数の分数次線形性を活用することで、高い凸性の欠如による課題である、最高$kのセレクションを達成するのに必要なイテレーションの複雑さを特徴づける。 アルゴリズムの有効性と理論の正確性を検証するために、いくつかの数値結果が提供される。

Collecting the most informative data from a large dataset distributed over a network is a fundamental problem in many fields, including control, signal processing and machine learning. In this paper, we establish a connection between selecting the most informative data and finding the top-$k$ elements of a multiset. The top-$k$ selection in a network can be formulated as a distributed nonsmooth convex optimization problem known as quantile estimation. Unfortunately, the lack of smoothness in the local objective functions leads to extremely slow convergence and poor scalability with respect to the network size. To overcome the deficiency, we propose an accelerated method that employs smoothing techniques. Leveraging the piecewise linearity of the local objective functions in quantile estimation, we characterize the iteration complexity required to achieve top-$k$ selection, a challenging task due to the lack of strong convexity. Several numerical results are provided to validate the effectiveness of the algorithm and the correctness of the theory.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# 不名誉と無害なアライメント

Dishonesty in Helpful and Harmless Alignment ( http://arxiv.org/abs/2406.01931v1 )

ライセンス: Link先を確認
Youcheng Huang, Jingkun Tang, Duanyu Feng, Zheng Zhang, Wenqiang Lei, Jiancheng Lv, Anthony G. Cohn, (参考訳) 人々は報酬を求めるときに嘘をつく。 大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。 また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。 最新の解釈ツールを用いて、不完全性を検出し、誠実さを増すとLLMが有害であることを示すとともに、パラメータレベルでの矛盾を分析する。 これらの前提条件と報酬探索が不当さを刺激する仮説を考えると、不当さはアライメント性能を低下させ、報酬探索のアライメントを表現規則化とともに増大させることができることが理論的に示される。 GPT-4アノテートウインレート、パープレキシティ、ケーススタディを含む広範囲な結果から、より正直で、役に立つ、無害なLDMを訓練できることが示される。 私たちは、この論文の受理に基づいて、すべてのコードと結果をオープンソースにします。

People tell lies when seeking rewards. Large language models (LLMs) are aligned to human values with reinforcement learning where they get rewards if they satisfy human preference. We find that this also induces dishonesty in helpful and harmless alignment where LLMs tell lies in generating harmless responses. Using the latest interpreting tools, we detect dishonesty, show how LLMs can be harmful if their honesty is increased, and analyze such conflicts at the parameter-level. Given these preliminaries and the hypothesis that reward-seeking stimulates dishonesty, we theoretically show that the dishonesty can in-turn decrease the alignment performances and augment reward-seeking alignment with representation regularization. Extensive results, including GPT-4 annotated win-rates, perplexities, and cases studies demonstrate that we can train more honest, helpful, and harmless LLMs. We will make all our codes and results be open-sourced upon this paper's acceptance.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# ポイントアノテーションとFew-Shot Learningを用いた自律型水中車両画像における絶滅危惧種の検出

Detecting Endangered Marine Species in Autonomous Underwater Vehicle Imagery Using Point Annotations and Few-Shot Learning ( http://arxiv.org/abs/2406.01932v1 )

ライセンス: Link先を確認
Heather Doig, Oscar Pizarro, Jacquomo Monk, Stefan Williams, (参考訳) 自律水中車両(Autonomous Underwater Vehicles, AUVs)は、オーストラリア・タスマニアのハンドフィッシュのような絶滅危惧種、絶滅危惧種、保護された海洋生物に関連する生息地の監視である。 AUVsが収集した海底画像は、より広い生息環境の中で個人を特定するのに利用することができるが、収集された画像の膨大な量は、希少または秘密の個人を見つける努力を圧倒する可能性がある。 機械学習モデルは、訓練された物体検出器を用いて画像中の特定の種の存在を特定するために使用できるが、訓練例の欠如により検出性能が低下する。 本論文は, 数発学習における最近の研究に触発され, 一般的な海洋生物のイメージやアノテーションを利用して, 希少種と秘密種を識別する能力を高める。 6種の海洋生物の注釈付き画像は2つの方法で使用されている。 第一に、一般的な種は訓練前の段階に使われ、背骨が海洋生物の豊富な特徴を創出することができる。 次に、一般的な種画像とともにコピーペースト操作を使用してトレーニングデータを増強する。 より一般的な海洋生物のアノテーションは公開データセットで利用できるが、それらはしばしば点形式であり、物体検出器の訓練には適さない。 一般的なセマンティックセグメンテーションモデルは、利用可能なポイントアノテーションからトレーニングのためのバウンディングボックスアノテーションを効率的に生成する。 提案手法はハンドフィッシュのAUV画像に適用し,ベースライン物体検出訓練と比較して平均精度を最大48倍に向上させる。 このアプローチは、アノテーションの少ない他のオブジェクトに適用することができ、脅威、絶滅危惧種、保護された種を積極的に監視する能力を高めることを約束する。

One use of Autonomous Underwater Vehicles (AUVs) is the monitoring of habitats associated with threatened, endangered and protected marine species, such as the handfish of Tasmania, Australia. Seafloor imagery collected by AUVs can be used to identify individuals within their broader habitat context, but the sheer volume of imagery collected can overwhelm efforts to locate rare or cryptic individuals. Machine learning models can be used to identify the presence of a particular species in images using a trained object detector, but the lack of training examples reduces detection performance, particularly for rare species that may only have a small number of examples in the wild. In this paper, inspired by recent work in few-shot learning, images and annotations of common marine species are exploited to enhance the ability of the detector to identify rare and cryptic species. Annotated images of six common marine species are used in two ways. Firstly, the common species are used in a pre-training step to allow the backbone to create rich features for marine species. Secondly, a copy-paste operation is used with the common species images to augment the training data. While annotations for more common marine species are available in public datasets, they are often in point format, which is unsuitable for training an object detector. A popular semantic segmentation model efficiently generates bounding box annotations for training from the available point annotations. Our proposed framework is applied to AUV images of handfish, increasing average precision by up to 48\% compared to baseline object detection training. This approach can be applied to other objects with low numbers of annotations and promises to increase the ability to actively monitor threatened, endangered and protected species.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# 直交性因果性校正

Orthogonal Causal Calibration ( http://arxiv.org/abs/2406.01933v1 )

ライセンス: Link先を確認
Justin Whitehouse, Christopher Jung, Vasilis Syrgkanis, Bryan Wilder, Zhiwei Steven Wu, (参考訳) 条件平均処理効果や条件量子処理効果などの因果パラメータの推定は、実世界の意思決定において重要な役割を果たす。 この重要性を考えれば、これらの推定器を校正する必要がある。 非因果パラメータのキャリブレータのキャリブレータに関する文献は豊富にあるが、因果パラメータのキャリブレータのキャリブレータのキャリブレータのキャリブレータや、より一般的にはニュアンスパラメータを含む量のキャリブレータのキャリブレータのキャリブレータのキャリブレータはごく少数である。 本研究では,ニュアンス推定を含む予測器の校正のための一般的なフレームワークを提供する。 任意のニュアンス依存損失 $\ell$ に対して定義されるキャリブレーションの概念を考えると、推定値 $\theta$ がキャリブレーションされる。 我々は、Neyman Orthogonality という概念を用いて、任意の損失$\ell$に対して、任意の因果パラメータのキャリブレーション誤差$\theta$の一般的な上限を証明した。 ひとつは未知のニュアンスパラメータを推定する際の誤差を計測し、もう一つは学習されたニュアンス推定が真である仮説的世界における校正誤差を表す。 我々は、因果校正のための2つのサンプル分割アルゴリズムの収束解析に境界を用いる。 1つのアルゴリズムは、普遍的に直交可能な損失関数に適用され、データを一般化された擬似アウトカムに変換し、オフザシェルフキャリブレーション手順を適用する。 他のアルゴリズムは、条件付き直交可逆損失関数に適用され、古典的な一様質量双対アルゴリズムを拡張して、ニュアンス推定を含む。 以上の結果から,既存のキャリブレーションアルゴリズムを因果的設定で使用することが可能であり,ニュアンス推定における誤差のみによる損失が増大することが示唆された。

Estimates of causal parameters such as conditional average treatment effects and conditional quantile treatment effects play an important role in real-world decision making. Given this importance, one should ensure these estimators are calibrated. While there is a rich literature on calibrating estimators of non-causal parameters, very few methods have been derived for calibrating estimators of causal parameters, or more generally estimators of quantities involving nuisance parameters. In this work, we provide a general framework for calibrating predictors involving nuisance estimation. We consider a notion of calibration defined with respect to an arbitrary, nuisance-dependent loss $\ell$, under which we say an estimator $\theta$ is calibrated if its predictions cannot be changed on any level set to decrease loss. We prove generic upper bounds on the calibration error of any causal parameter estimate $\theta$ with respect to any loss $\ell$ using a concept called Neyman Orthogonality. Our bounds involve two decoupled terms - one measuring the error in estimating the unknown nuisance parameters, and the other representing the calibration error in a hypothetical world where the learned nuisance estimates were true. We use our bound to analyze the convergence of two sample splitting algorithms for causal calibration. One algorithm, which applies to universally orthogonalizable loss functions, transforms the data into generalized pseudo-outcomes and applies an off-the-shelf calibration procedure. The other algorithm, which applies to conditionally orthogonalizable loss functions, extends the classical uniform mass binning algorithm to include nuisance estimation. Our results are exceedingly general, showing that essentially any existing calibration algorithm can be used in causal settings, with additional loss only arising from errors in nuisance estimation.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# マルチモーダルエンティティリンクのための最適輸送誘導相関アサインメント

Optimal Transport Guided Correlation Assignment for Multimodal Entity Linking ( http://arxiv.org/abs/2406.01934v1 )

ライセンス: Link先を確認
Zefeng Zhang, Jiawei Sheng, Chuang Zhang, Yunzhi Liang, Wenyuan Zhang, Siqi Wang, Tingwen Liu, (参考訳) MEL(Multimodal Entity Linking)は、マルチモーダルなコンテキストにおける曖昧な言及をマルチモーダルな知識グラフ内のエンティティにリンクすることを目的としている。 重要な課題は、参照とエンティティ間の多要素相関を完全に活用して、モダリティギャップをブリッジし、きめ細かいセマンティックマッチングを可能にすることである。 既存の手法は、自動的に学習された注意重みに大きく依存し、部分的相関に過度に集中して、いくつかの局所的な相関機構を試みている。 この問題を緩和するために、相関代入問題を最適輸送(OT)問題として定式化し、新しいMELフレームワークであるOT-MELとOT誘導相関代入を提案する。 そこで我々は,マルチモーダル融合を向上するためのマルチモーダル特徴間の相関と,参照とエンティティ間の相関を利用して,きめ細かなマッチングを強化する。 モデル予測を高速化するために,知識蒸留を活用して,OT割当知識を注意機構に伝達する。 実験結果から,本モデルが先行技術ベースラインを著しく上回り,OT誘導相関代入の有効性が確認された。

Multimodal Entity Linking (MEL) aims to link ambiguous mentions in multimodal contexts to entities in a multimodal knowledge graph. A pivotal challenge is to fully leverage multi-element correlations between mentions and entities to bridge modality gap and enable fine-grained semantic matching. Existing methods attempt several local correlative mechanisms, relying heavily on the automatically learned attention weights, which may over-concentrate on partial correlations. To mitigate this issue, we formulate the correlation assignment problem as an optimal transport (OT) problem, and propose a novel MEL framework, namely OT-MEL, with OT-guided correlation assignment. Thereby, we exploit the correlation between multimodal features to enhance multimodal fusion, and the correlation between mentions and entities to enhance fine-grained matching. To accelerate model prediction, we further leverage knowledge distillation to transfer OT assignment knowledge to attention mechanism. Experimental results show that our model significantly outperforms previous state-of-the-art baselines and confirm the effectiveness of the OT-guided correlation assignment.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# 栄養管理のための栄養推定 : 深度センシングを用いたトランスフォーマーアプローチ

Nutrition Estimation for Dietary Management: A Transformer Approach with Depth Sensing ( http://arxiv.org/abs/2406.01938v1 )

ライセンス: Link先を確認
Zhengyi Kwan, Wei Zhang, Zhengkui Wang, Aik Beng Ng, Simon See, (参考訳) 栄養推定は、効果的な食事管理と全体の健康と幸福のために重要である。 既存の手法は、しばしば準最適精度と闘い、時間を要することがある。 本稿では,食品画像からのRGB情報と深度情報の両方を利用した栄養推定のためのトランスフォーマーネットワークであるNuNetを提案する。 我々は,5つの栄養因子を推定する機能融合モジュールとともに,マルチスケールエンコーダとデコーダを設計,実装した。 これらのモジュールは、特徴抽出の効率性と有効性と、カスタマイズされた注意機構と融合戦略の柔軟な利用とを効果的にバランスさせる。 実験により,NuNetは栄養推定において,その変種および既存ソリューションを著しく上回っていることが明らかとなった。 エラー率は15.65%で、最も低いのは我々のマルチスケールアーキテクチャと融合モジュールのためである。 本研究は、全国的な研究・展開の可能性を秘めた食事管理の実践的価値を持ち、様々な重要性を持つ複数のデータ型を含む他のアプリケーションに刺激を与えることができる。

Nutrition estimation is crucial for effective dietary management and overall health and well-being. Existing methods often struggle with sub-optimal accuracy and can be time-consuming. In this paper, we propose NuNet, a transformer-based network designed for nutrition estimation that utilizes both RGB and depth information from food images. We have designed and implemented a multi-scale encoder and decoder, along with two types of feature fusion modules, specialized for estimating five nutritional factors. These modules effectively balance the efficiency and effectiveness of feature extraction with flexible usage of our customized attention mechanisms and fusion strategies. Our experimental study shows that NuNet outperforms its variants and existing solutions significantly for nutrition estimation. It achieves an error rate of 15.65%, the lowest known to us, largely due to our multi-scale architecture and fusion modules. This research holds practical values for dietary management with huge potential for transnational research and deployment and could inspire other applications involving multiple data types with varying degrees of importance.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# サプライチェーンRLにおける政策シミュレーションの高速化

Speeding up Policy Simulation in Supply Chain RL ( http://arxiv.org/abs/2406.01939v1 )

ライセンス: Link先を確認
Vivek Farias, Joren Gijsbrechts, Aryan Khojandi, Tianyi Peng, Andrew Zheng, (参考訳) ある状態依存ポリシーの下で力学系の1つの軌道をシミュレートすることは、ポリシー最適化アルゴリズムにおける中核的なボトルネックである。 1つのシミュレーションで実行しなければならない多くの本質的にシリアルなポリシー評価は、このボトルネックの大部分を構成している。 考えてみると、サプライチェーン最適化(SCO)問題にポリシー最適化を適用する場合、サプライチェーンの1ヶ月のシミュレーションには数時間を要する可能性がある。 本稿では,Picard Iteration をダブしたポリシーシミュレーションの反復アルゴリズムを提案する。 このスキームは、政策評価タスクを独立プロセスに慎重に割り当てる。 イテレーション内では、ひとつのプロセスが割り当てられたタスクに対してのみポリシーを評価し、他のタスクに対して一定の"キャッシュ"評価を仮定する。 GPUに実装されたこのスキームは、単一の軌道上のポリシーのバッチ評価を認める。 多くのSCO問題によって得られる構造は、水平線に依存しない少数の反復において収束することができることを証明している。 我々は,1つのGPUでも大規模SCO問題に対して400倍の実用的高速化を示すとともに,他のRL環境においても実効性を示す。

Simulating a single trajectory of a dynamical system under some state-dependent policy is a core bottleneck in policy optimization algorithms. The many inherently serial policy evaluations that must be performed in a single simulation constitute the bulk of this bottleneck. To wit, in applying policy optimization to supply chain optimization (SCO) problems, simulating a single month of a supply chain can take several hours. We present an iterative algorithm for policy simulation, which we dub Picard Iteration. This scheme carefully assigns policy evaluation tasks to independent processes. Within an iteration, a single process evaluates the policy only on its assigned tasks while assuming a certain 'cached' evaluation for other tasks; the cache is updated at the end of the iteration. Implemented on GPUs, this scheme admits batched evaluation of the policy on a single trajectory. We prove that the structure afforded by many SCO problems allows convergence in a small number of iterations, independent of the horizon. We demonstrate practical speedups of 400x on large-scale SCO problems even with a single GPU, and also demonstrate practical efficacy in other RL environments.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# リーン4におけるプロセス駆動の自動化

Process-Driven Autoformalization in Lean 4 ( http://arxiv.org/abs/2406.01940v1 )

ライセンス: Link先を確認
Jianqiao Lu, Zhengying Liu, Yingjia Wan, Yinya Huang, Haiming Wang, Zhicheng Yang, Jing Tang, Zhijiang Guo, (参考訳) 自然言語を形式言語に変換するオートフォーマル化は、数学的推論を前進させる大きな可能性を秘めている。 しかし、既存の取り組みは、実質的なオンラインコーパスを持つフォーマルな言語に限られており、Lean 4.0のような急速に進化する言語とペースを維持するのに苦労している。 このギャップを埋めるために,大規模言語モデル(LLM)の自動形式化機能を評価するために設計された,新しいベンチマークである \textbf{L}ean~\textbf{4} (\textbf{\name}) を提案する。 このベンチマークは、質問、回答、公式なステートメント、証明の総合的な評価を含んでいる。 さらに、リーン4コンパイラからの正確なフィードバックを活用してオートフォーマル化を強化する、 \textbf{P}rocess-\textbf{S}upervised \textbf{V}erifier (\textbf{PSV})モデルを導入する。 実験の結果,PSV法ではオートフォーマライゼーションが向上し,フィルタの少ないトレーニングデータによる精度が向上した。 さらに、詳細なプロセス情報を含むデータを微調整すると、PSVはより効率的にデータを活用することができ、Lean 4.0のオートフォーマライゼーションが大幅に改善される。 データセットとコードは \url{https://github.com/rookie-joe/PDA} で利用可能です。

Autoformalization, the conversion of natural language mathematics into formal languages, offers significant potential for advancing mathematical reasoning. However, existing efforts are limited to formal languages with substantial online corpora and struggle to keep pace with rapidly evolving languages like Lean 4. To bridge this gap, we propose a new benchmark \textbf{Form}alization for \textbf{L}ean~\textbf{4} (\textbf{\name}) designed to evaluate the autoformalization capabilities of large language models (LLMs). This benchmark encompasses a comprehensive assessment of questions, answers, formal statements, and proofs. Additionally, we introduce a \textbf{P}rocess-\textbf{S}upervised \textbf{V}erifier (\textbf{PSV}) model that leverages the precise feedback from Lean 4 compilers to enhance autoformalization. Our experiments demonstrate that the PSV method improves autoformalization, enabling higher accuracy using less filtered training data. Furthermore, when fine-tuned with data containing detailed process information, PSV can leverage the data more effectively, leading to more significant improvements in autoformalization for Lean 4. Our dataset and code are available at \url{https://github.com/rookie-joe/PDA}.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# LLMにおける信頼を高める: LLMの比較と解釈のためのアルゴリズム

Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs ( http://arxiv.org/abs/2406.01943v1 )

ライセンス: Link先を確認
Nik Bear Brown, (参考訳) 本稿では,Large Language Models (LLM) の信頼性と理解を高めるための評価手法について検討する。 LLMへの依存が高まるにつれて、信頼性、公平性、透明性の確保が重要になります。 LLMの性能を評価し、弱点を特定し、より信頼性の高いアプリケーションに向けた開発を導くアルゴリズム手法とメトリクスについて検討する。 主な評価指標は、パープレキシティ測定、NLPメトリクス(BLEU, ROUGE, METEOR, BERTScore, GLEU, Word Error Rate, character Error Rate), Zero-Shot and Few-Shot Learning Performance, Transfer Learning Evaluation, Adversarial Testing, Fairness and Bias Evaluationである。 階層化評価のためのLCMMaps、競争評価のためのベンチマークとリーダーボード、深い理解のための階層分析、認知レベルの精度分布のためのブルーム分類の可視化、不正確性の定量化のための幻覚スコア、階層分析のための知識階層化戦略、階層生成のための機械学習モデルを導入する。 自動メトリクスが見逃す可能性のあるニュアンスをキャプチャするために、ヒューマン評価が強調される。 これらの技術は、透明性を高め、開発をガイドし、ユーザ信頼を確立することを目的として、LCMを評価するためのフレームワークを形成する。 今後の論文では、メトリクスの可視化について記述し、実例でそれぞれのアプローチを実証する。

This paper surveys evaluation techniques to enhance the trustworthiness and understanding of Large Language Models (LLMs). As reliance on LLMs grows, ensuring their reliability, fairness, and transparency is crucial. We explore algorithmic methods and metrics to assess LLM performance, identify weaknesses, and guide development towards more trustworthy applications. Key evaluation metrics include Perplexity Measurement, NLP metrics (BLEU, ROUGE, METEOR, BERTScore, GLEU, Word Error Rate, Character Error Rate), Zero-Shot and Few-Shot Learning Performance, Transfer Learning Evaluation, Adversarial Testing, and Fairness and Bias Evaluation. We introduce innovative approaches like LLMMaps for stratified evaluation, Benchmarking and Leaderboards for competitive assessment, Stratified Analysis for in-depth understanding, Visualization of Blooms Taxonomy for cognitive level accuracy distribution, Hallucination Score for quantifying inaccuracies, Knowledge Stratification Strategy for hierarchical analysis, and Machine Learning Models for Hierarchy Generation. Human Evaluation is highlighted for capturing nuances that automated metrics may miss. These techniques form a framework for evaluating LLMs, aiming to enhance transparency, guide development, and establish user trust. Future papers will describe metric visualization and demonstrate each approach on practical examples.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# スロー光とキャビティ強化光子ドラッグに基づくテーブルトップ高感度ジャイロスコープ

A table-top high-sensitivity gyroscope based on slow light and cavity enhanced photon drag ( http://arxiv.org/abs/2406.01944v1 )

ライセンス: Link先を確認
Min She, Jiangshan Tang, Keyu Xia, (参考訳) 高感度ジャイロスコープは、基礎物理学の研究と地球の振舞いの微妙な変化のモニタリングの両方に不可欠である。 しかし、地球の自転速度のごく一部に近づく感度を持つポータブルジャイロスコープを実現することは困難である。 本稿では, 回転誘電体物体の光子抵抗に基づく卓上ジャイロスコープの高感度化を理論的に提案する。 有限長20cmのFabry-P\'{e}rot光学キャビティに$\text{Er}^{3+}$ドープガラスロッドを挿入することにより、遅い光による巨大群屈折率と細いキャビティ線幅が本質的に光子ドラッグによる非相互位相シフトを増大させ、26$ frad/s/$\sqrt{Hz}$の回転感度を達成できることを理論的に示す。 この研究は、地球の自転速度と向きの小さな変化を正確に検出する方法を練り上げ、少量の機器で一般相対性理論によって予測される測地的およびフレーム描画効果をテストできる。

A high-sensitivity gyroscope is vital for both investigation of the fundamental physics and monitor of the subtle variation of Earth's behaviors. However, it is challenge to realize a portable gyroscope with sensitivity approaching a small fraction of the Earth's rotation rate. Here, we theoretically propose a method for implementing a table-top gyroscope with remarkably high sensitivity based on photon drag in a rotating dielectric object. By inserting an $\text{Er}^{3+}$-doped glass rod in a Fabry-P\'{e}rot optical cavity with only 20 cm length, we theoretically show that the giant group refractive index and the narrowing cavity linewidth due to slow light can essentially increase the nonreciprocal phase shift due to the photon drag to achieve a rotation sensitivity of $26$ frad/s/$\sqrt{Hz}$. This work paves the way to accurately detect tiny variations of the Earth's rotation rate and orientation, and even can test the geodetic and frame-dragging effects predicted by the general relativity with a small-volume equipment.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# Bileve: 双方向署名によるスポーフィングに対する大規模言語モデルにおけるテキストの保護

Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature ( http://arxiv.org/abs/2406.01946v1 )

ライセンス: Link先を確認
Tong Zhou, Xuandong Zhao, Xiaolin Xu, Shaolei Ren, (参考訳) 大規模言語モデル(LLM)のテキスト透かしは、ディープフェイクや有害なコンテンツと闘う際の責任評価を約束する機械生成コンテンツの起源を特定するために一般的に用いられてきた。 既存の透かし技術は、通常、除去攻撃に対する堅牢性を優先するが、残念ながら、悪質なアクターはLLM生成の応答の意味を微妙に変更したり、有害なコンテンツを偽造したり、LLM開発者の非難を招きかねない。 この問題を解決するために、二レベルシグネチャスキームであるBileveを導入する。これは、整合性チェック(スプーフィング攻撃の軽減)のためのきめ細かいシグネチャビットを埋め込むとともに、新しいランクベースのサンプリング戦略により、シグネチャが無効(検出可能性の向上)であるときにテキストソースをトレースする粗いシグネチャビットを埋め込む。 バイナリ結果のみを出力する従来の透かし検出器と比較して、Bileveは検出中に5つのシナリオを区別し、テキストの出所を確実に追跡し、LLMを調整できる。 OPT-1.3BとLLaMA-7Bで実施された実験は、検出性を高めたスプーフ攻撃を打破するBileveの有効性を実証した。

Text watermarks for large language models (LLMs) have been commonly used to identify the origins of machine-generated content, which is promising for assessing liability when combating deepfake or harmful content. While existing watermarking techniques typically prioritize robustness against removal attacks, unfortunately, they are vulnerable to spoofing attacks: malicious actors can subtly alter the meanings of LLM-generated responses or even forge harmful content, potentially misattributing blame to the LLM developer. To overcome this, we introduce a bi-level signature scheme, Bileve, which embeds fine-grained signature bits for integrity checks (mitigating spoofing attacks) as well as a coarse-grained signal to trace text sources when the signature is invalid (enhancing detectability) via a novel rank-based sampling strategy. Compared to conventional watermark detectors that only output binary results, Bileve can differentiate 5 scenarios during detection, reliably tracing text provenance and regulating LLMs. The experiments conducted on OPT-1.3B and LLaMA-7B demonstrate the effectiveness of Bileve in defeating spoofing attacks with enhanced detectability.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# 水中羽ばたきフィン推進システムにおけるスラスト予測のためのデータ駆動手法

Data-Driven Approaches for Thrust Prediction in Underwater Flapping Fin Propulsion Systems ( http://arxiv.org/abs/2406.01947v1 )

ライセンス: Link先を確認
Julian Lee, Kamal Viswanath, Alisha Sharma, Jason Geder, Ravi Ramamurti, Marius D. Pruessner, (参考訳) 羽ばたき式水中車両推進システムは、制約のある環境や高い操作性を必要とする状況下でプロペラ駆動システムに代わる手段を提供する。 実験や高忠実度シミュレーションを通じて新しい構成をテストすることは、新しいシステムの開発を遅らせる、高価なプロセスである。 これは特に新しいフィンジオメトリーを導入する際に当てはまる。 本研究では,システムのフィン測地とキネマティクスを考慮し,推力予測のための機械学習手法を提案する。 入力データに有限フィン形状が与えられた未確認フィンジオメトリのスラストプロファイルを予測するための,データ効率のよいフィン形状パラメータ化手法を提案する。 システムの迅速な開発に加えて、一般化可能なサロゲートモデルは、無人水中車両制御システムで使用可能な、高速で正確な予測を提供する。

Flapping-fin underwater vehicle propulsion systems provide an alternative to propeller-driven systems in situations that require involve a constrained environment or require high maneuverability. Testing new configurations through experiments or high-fidelity simulations is an expensive process, slowing development of new systems. This is especially true when introducing new fin geometries. In this work, we propose machine learning approaches for thrust prediction given the system's fin geometries and kinematics. We introduce data-efficient fin shape parameterization strategies that enable our network to predict thrust profiles for unseen fin geometries given limited fin shapes in input data. In addition to faster development of systems, generalizable surrogate models offer fast, accurate predictions that could be used on an unmanned underwater vehicle control system.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# エンタングルメント強化量子カーネルはデータの分類を改善するか?

Can Entanglement-enhanced Quantum Kernels Improve Data Classification? ( http://arxiv.org/abs/2406.01948v1 )

ライセンス: Link先を確認
Anand Babu, Saurabh G. Ghatnekar, Amit Saxena, Dipankar Mandal, (参考訳) さまざまなドメインにまたがって広く利用されている古典的な機械学習は、スピード、効率、並列性、複雑なデータセットの処理の制限に直面している。 対照的に、量子機械学習アルゴリズムには、指数関数的に高速な計算、データハンドリング能力の向上、固有の並列性、複雑な問題に対する最適化の改善など、大きな利点がある。 本研究では, 量子支援ベクトルマシンにおけるエンタングルメント強化量子カーネルを用いて, 複雑な呼吸データセットのトレーニングを行った。 古典的アルゴリズムと比較すると,QSVMは2量子ビットシステムで実行される古典的手法と比較して,線形データセットと同等の性能を維持しつつ,複雑な呼吸データセットに対して45%高い精度で性能が向上していることがわかった。 本研究では,量子ヒルベルト空間の高次元性を利用したQSVM-Kernelアルゴリズムの有効性について検討した。

Classical machine learning, extensively utilized across diverse domains, faces limitations in speed, efficiency, parallelism, and processing of complex datasets. In contrast, quantum machine learning algorithms offer significant advantages, including exponentially faster computations, enhanced data handling capabilities, inherent parallelism, and improved optimization for complex problems. In this study, we used the entanglement-enhanced quantum kernel in quantum support vector machine to train complex respiratory data sets. Compared to classical algorithms, our findings reveal that QSVM performs better with 45% higher accuracy for complex respiratory data sets while maintaining comparable performance with linear datasets in contrast to their classical counterparts executed on a 2-qubit system. Through our study, we investigate the efficacy of the QSVM-Kernel algorithm in harnessing the enhanced dimensionality of the quantum Hilbert space for effectively training complex datasets.
翻訳日:2024-06-05 20:03:30 公開日:2024-06-04
# FedHomeフレームワークにおけるクロスバリデーションを用いたサンプリング手法の比較検討

A Comparative Study of Sampling Methods with Cross-Validation in the FedHome Framework ( http://arxiv.org/abs/2406.01950v1 )

ライセンス: Link先を確認
Arash Ahmadi, Sarah S. Sharif, Yaser M. Banad, (参考訳) 本稿では,家庭内健康モニタリングの個人化を目的としたFedHomeフレームワークにおけるサンプリング手法の比較検討を行った。 FedHomeは、フェデレーション学習(FL)とジェネレーティブ畳み込みオートエンコーダ(GCAE)を活用して、データのプライバシを優先しながら、分散型エッジデバイス上でモデルをトレーニングする。 この領域で注目すべき課題は、転倒などの重要な事象が不足し、モデルのパフォーマンスに悪影響を及ぼす健康データにおけるクラス不均衡である。 そこで本研究では,SMOTE,Borderline-SMOTE,Random OverSampler,SMOTE-Tomek,SVM-SMOTE,SMOTE-ENNの6つのオーバーサンプリング手法を評価する。 これらの手法は、K-foldクロスバリデーションを成層化せずに200回以上のトレーニングラウンドでFedHomeの公開実装でテストされる。 その結果,SMOTE-ENNは標準偏差範囲0.0167-0.0176であり,他の試料より安定した性能を示した。 対照的に、SMOTEとSVM-SMOTEは、それぞれ0.0157-0.0180と0.0155-0.0180のより広い標準偏差範囲で反映されるように、性能の多様性が高い。 同様に、ランダムオーバーサンプラー法は0.0155-0.0176の偏差範囲を示す。 SMOTE-Tomekは0.0160-0.0175の範囲で、安定性も高いが、SMOTE-ENNほどではない。 この発見は、FedHomeフレームワーク内のパーソナライズされた健康モニタリングシステムの信頼性と精度を高めるSMOTE-ENNの可能性を強調している。

This paper presents a comparative study of sampling methods within the FedHome framework, designed for personalized in-home health monitoring. FedHome leverages federated learning (FL) and generative convolutional autoencoders (GCAE) to train models on decentralized edge devices while prioritizing data privacy. A notable challenge in this domain is the class imbalance in health data, where critical events such as falls are underrepresented, adversely affecting model performance. To address this, the research evaluates six oversampling techniques using Stratified K-fold cross-validation: SMOTE, Borderline-SMOTE, Random OverSampler, SMOTE-Tomek, SVM-SMOTE, and SMOTE-ENN. These methods are tested on FedHome's public implementation over 200 training rounds with and without stratified K-fold cross-validation. The findings indicate that SMOTE-ENN achieves the most consistent test accuracy, with a standard deviation range of 0.0167-0.0176, demonstrating stable performance compared to other samplers. In contrast, SMOTE and SVM-SMOTE exhibit higher variability in performance, as reflected by their wider standard deviation ranges of 0.0157-0.0180 and 0.0155-0.0180, respectively. Similarly, the Random OverSampler method shows a significant deviation range of 0.0155-0.0176. SMOTE-Tomek, with a deviation range of 0.0160-0.0175, also shows greater stability but not as much as SMOTE-ENN. This finding highlights the potential of SMOTE-ENN to enhance the reliability and accuracy of personalized health monitoring systems within the FedHome framework.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 量子スイッチによる熱力学則による情報容量向上の実験検証

Experimental Validation of Enhanced Information Capacity by Quantum Switch in Accordance with Thermodynamic Laws ( http://arxiv.org/abs/2406.01951v1 )

ライセンス: Link先を確認
Cheng Xi, Xiangjing Liu, Hongfeng Liu, Keyi Huang, Xinyue Long, Daniel Ebler, Xinfang Nie, Oscar Dahlsten, Dawei Lu, (参考訳) 熱力学の法則を用いて量子スイッチの相互作用を実験的に探索する。 量子スイッチは、2つのチャネルを順序の重畳に配置し、熱化チャネルに適用することができる。 量子スイッチング熱チャネルは第2法則に明らかに違反していることが示されている。 これらの明らかな違反の中心は、量子スイッチングチャネルが情報伝達能力を高める方法である。 この増加と熱力学の法則とどのように一致しているかを実験的に示し、熱力学資源がどのように消費されるかを示す。 我々は、核スピン量子ビットのコヒーレントに制御された相互作用を持つ核磁気共鳴法を用いる。 エネルギー状態と熱状態を保存するチャネルの容量増加に関する解析上界を検証し,エネルギー変化チャネルに対して境界を超過できることを実証する。 制御系のコヒーレンスに付随する自由エネルギーを消費しながら, 熱状態から熱的でない状態への切り替えが可能であることを示す。 この結果は、スイッチを量子熱力学実験に追加資源として組み込む方法を示している。

We experimentally probe the interplay of the quantum switch with the laws of thermodynamics. The quantum switch places two channels in a superposition of orders and may be applied to thermalizing channels. Quantum-switching thermal channels has been shown to give apparent violations of the second law. Central to these apparent violations is how quantum switching channels can increase the capacity to communicate information. We experimentally show this increase and how it is consistent with the laws of thermodynamics, demonstrating how thermodynamic resources are consumed. We use a nuclear magnetic resonance approach with coherently controlled interactions of nuclear spin qubits. We verify an analytical upper bound on the increase in capacity for channels that preserve energy and thermal states, and demonstrate that the bound can be exceeded for an energy-altering channel. We show that the switch can be used to take a thermal state to a state that is not thermal, whilst consuming free energy associated with the coherence of a control system. The results show how the switch can be incorporated into quantum thermodynamics experiments as an additional resource.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 遅延政策学習による航空・地上移動ロボットの一般化向上

Improving Generalization in Aerial and Terrestrial Mobile Robots Control Through Delayed Policy Learning ( http://arxiv.org/abs/2406.01952v1 )

ライセンス: Link先を確認
Ricardo B. Grando, Raul Steinmetz, Victor A. Kich, Alisson H. Kolling, Pablo M. Furik, Junior C. de Jesus, Bruna V. Guterres, Daniel T. Gamarra, Rodrigo S. Guerra, Paulo L. J. Drews-Jr, (参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)は、幅広いロボットアプリケーションを通じて、モーションコントロールと意思決定を強化するための有望なアプローチとして登場した。 従来の研究では、空中および地上の移動ロボットに対してDRLアルゴリズムが自律的なマップレスナビゲーションを促進する効果が実証されているが、これらの手法は未知のタスクや環境に直面した場合の一般化が不十分であることが多い。 本稿では,DPU(Delayed Policy Updates)技術が新たな状況への一般化を促進し,エージェントの全体的なパフォーマンスを向上させる効果について考察する。 空中・地上移動ロボットにおけるDPUの分析から,この手法が一般化の欠如を著しく軽減し,エージェントの学習プロセスを加速し,多様なタスクや未知のシナリオにおける効率を向上させることが判明した。

Deep Reinforcement Learning (DRL) has emerged as a promising approach to enhancing motion control and decision-making through a wide range of robotic applications. While prior research has demonstrated the efficacy of DRL algorithms in facilitating autonomous mapless navigation for aerial and terrestrial mobile robots, these methods often grapple with poor generalization when faced with unknown tasks and environments. This paper explores the impact of the Delayed Policy Updates (DPU) technique on fostering generalization to new situations, and bolstering the overall performance of agents. Our analysis of DPU in aerial and terrestrial mobile robots reveals that this technique significantly curtails the lack of generalization and accelerates the learning process for agents, enhancing their efficiency across diverse tasks and unknown scenarios.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# プラグアンドプレイ拡散蒸留

Plug-and-Play Diffusion Distillation ( http://arxiv.org/abs/2406.01954v1 )

ライセンス: Link先を確認
Yi-Ting Hsiao, Siavash Khodadadeh, Kevin Duarte, Wei-An Lin, Hui Qu, Mingi Kwon, Ratheesh Kalarot, (参考訳) 拡散モデルは画像生成に大きな結果をもたらした。 しかし,拡散過程の反復性や分類器フリー誘導に依存するため,推論時間は遅い。 本稿では,従来のテキスト・ツー・イメージモデルが凍結したまま,外部の軽量ガイドモデルをトレーニングする誘導拡散モデルに対する新しい蒸留手法を提案する。 提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論計算をほぼ半分に減らし,ベースモデルのトレーニング可能なパラメータを 1 % しか必要としないことを示す。 さらに、トレーニングが完了すれば、このガイドモデルは、追加のトレーニングを必要とせずに、様々な細調整されたドメイン固有のベース拡散モデルに適用することができる。 実験により,本手法は視覚的に魅力的な結果が得られ,教師に対して8段階から16段階のFIDスコアが得られた。

Diffusion models have shown tremendous results in image generation. However, due to the iterative nature of the diffusion process and its reliance on classifier-free guidance, inference times are slow. In this paper, we propose a new distillation approach for guided diffusion models in which an external lightweight guide model is trained while the original text-to-image model remains frozen. We show that our method reduces the inference computation of classifier-free guided latent-space diffusion models by almost half, and only requires 1\% trainable parameters of the base model. Furthermore, once trained, our guide model can be applied to various fine-tuned, domain-specific versions of the base diffusion model without the need for additional training: this "plug-and-play" functionality drastically improves inference computation while maintaining the visual fidelity of generated images. Empirically, we show that our approach is able to produce visually appealing results and achieve a comparable FID score to the teacher with as few as 8 to 16 steps.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# LLaVAプロンプトと負のプロンプトによる画像から画像へのエンハンス

Enhance Image-to-Image Generation with LLaVA Prompt and Negative Prompt ( http://arxiv.org/abs/2406.01956v1 )

ライセンス: Link先を確認
Zhicheng Ding, Panfeng Li, Qikai Yang, Siyang Li, (参考訳) 本稿では,Large Language and Vision Assistant (LLaVA) のマルチモーダル機能を活用することで,画像から画像へ変換する新たな手法を提案する。 LLaVAが入力画像を解析してテキスト記述を生成するフレームワークを提案する。 これらのプロンプトと元のイメージは、イメージ・ツー・イメージ生成パイプラインに入力される。 このリッチ表現は、入力画像とより強い類似性を示す出力に向けて生成過程を導く。 広汎な実験は、LLaVA生成プロンプトが画像類似性を促進する効果を示す。 従来の手法と比較して,生成画像と入力画像の視覚的コヒーレンスに大きな改善が見られた。 今後は、クリエイティビティプロセスのコントロールを強化するための、微調整のLLaVAプロンプトを探求する予定である。 プロンプト内でより具体的な情報を提供することにより、生成した出力における原画像への忠実度と芸術表現との微妙なバランスを達成することを目指している。

This paper presents a novel approach to enhance image-to-image generation by leveraging the multimodal capabilities of the Large Language and Vision Assistant (LLaVA). We propose a framework where LLaVA analyzes input images and generates textual descriptions, hereinafter LLaVA-generated prompts. These prompts, along with the original image, are fed into the image-to-image generation pipeline. This enriched representation guides the generation process towards outputs that exhibit a stronger resemblance to the input image. Extensive experiments demonstrate the effectiveness of LLaVA-generated prompts in promoting image similarity. We observe a significant improvement in the visual coherence between the generated and input images compared to traditional methods. Future work will explore fine-tuning LLaVA prompts for increased control over the creative process. By providing more specific details within the prompts, we aim to achieve a delicate balance between faithfulness to the original image and artistic expression in the generated outputs.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# ウェイカー推定による確率最適化の適応変数削減

Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions ( http://arxiv.org/abs/2406.01959v1 )

ライセンス: Link先を確認
Wei Jiang, Sifan Yang, Yibo Wang, Lijun Zhang, (参考訳) 本稿では,STORM法に基づく確率的最適化のための適応分散低減法について検討する。 既存のSTORMの適応拡張は、有界勾配や有界関数の値のような強い仮定に依存するか、あるいは収束率の$\mathcal{O}(\log T)$項を負う。 これらの制約に対処するため、我々は、新たに設計された学習率戦略を持つ非凸関数に対して、$\mathcal{O}(T^{-1/3})$の最適収束率を達成する新しい適応STORM法を導入する。 既存の手法と比較して、我々の手法はより弱い仮定を必要とし、追加の$\mathcal{O}(\log T)$項なしで最適な収束率を得る。 また、提案手法を確率的合成最適化に拡張し、$\mathcal{O}(T^{-1/3})$と同じ最適率を得る。 さらに、非凸有限サム問題を調査し、$n$が成分関数の数を表す$\mathcal{O}(n^{1/4} T^{-1/2} )$の最適収束率を達成する別の革新的な適応分散還元法を開発する。 様々なタスクにわたる数値実験により,本手法の有効性が検証された。

This paper explores adaptive variance reduction methods for stochastic optimization based on the STORM technique. Existing adaptive extensions of STORM rely on strong assumptions like bounded gradients and bounded function values, or suffer an additional $\mathcal{O}(\log T)$ term in the convergence rate. To address these limitations, we introduce a novel adaptive STORM method that achieves an optimal convergence rate of $\mathcal{O}(T^{-1/3})$ for non-convex functions with our newly designed learning rate strategy. Compared with existing approaches, our method requires weaker assumptions and attains the optimal convergence rate without the additional $\mathcal{O}(\log T)$ term. We also extend the proposed technique to stochastic compositional optimization, obtaining the same optimal rate of $\mathcal{O}(T^{-1/3})$. Furthermore, we investigate the non-convex finite-sum problem and develop another innovative adaptive variance reduction method that achieves an optimal convergence rate of $\mathcal{O}(n^{1/4} T^{-1/2} )$, where $n$ represents the number of component functions. Numerical experiments across various tasks validate the effectiveness of our method.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# Byzantine-Robust Federated Conformal Prediction

Certifiably Byzantine-Robust Federated Conformal Prediction ( http://arxiv.org/abs/2406.01960v1 )

ライセンス: Link先を確認
Mintong Kang, Zhen Lin, Jimeng Sun, Cao Xiao, Bo Li, (参考訳) コンフォーマル予測は、交換可能なデータサンプルを用いた機械学習モデルのための統計的に厳密な予測セットを構築する上で、印象的な能力を示している。 サイロ化されたデータセットは、ローカルなデータ共有に関連するプライバシー上の懸念のエスカレートと相まって、分散データサンプルによって、共形予測をフェデレートされた環境に拡張する最近のイノベーションに影響を与えている。 しかし、この分散不確実性定量化の枠組みはビザンツの失敗の影響を受けやすい。 悪意のあるクライアントの小さなサブセットは、カバレッジ保証の実用性を著しく損なう可能性がある。 この脆弱性に対処するために、ロブ-FCPという新しいフレームワークを導入し、ロブ-FCPは頑健な共形予測を実行し、共形校正プロセスで任意の統計を報告できる悪意のあるクライアントを効果的に対応させる。 理論的には、ビザンチン設定におけるRob-FCPの共形カバレッジ境界を提供し、Rob-FCPのカバレッジが所望のカバレッジレベルに漸近していることを示す。 また,悪意のあるクライアントの数が不明な,より困難な状況に対処するための,悪意のあるクライアント数推定器を提案し,その有効性を理論的に示す。 5つの標準ベンチマークと実世界の医療データセットに対するさまざまなビザンチン攻撃の下で、悪意のあるクライアントの多様な割合に対するRob-FCPの堅牢性を実証的に実証した。

Conformal prediction has shown impressive capacity in constructing statistically rigorous prediction sets for machine learning models with exchangeable data samples. The siloed datasets, coupled with the escalating privacy concerns related to local data sharing, have inspired recent innovations extending conformal prediction into federated environments with distributed data samples. However, this framework for distributed uncertainty quantification is susceptible to Byzantine failures. A minor subset of malicious clients can significantly compromise the practicality of coverage guarantees. To address this vulnerability, we introduce a novel framework Rob-FCP, which executes robust federated conformal prediction, effectively countering malicious clients capable of reporting arbitrary statistics with the conformal calibration process. We theoretically provide the conformal coverage bound of Rob-FCP in the Byzantine setting and show that the coverage of Rob-FCP is asymptotically close to the desired coverage level. We also propose a malicious client number estimator to tackle a more challenging setting where the number of malicious clients is unknown to the defender and theoretically shows its effectiveness. We empirically demonstrate the robustness of Rob-FCP against diverse proportions of malicious clients under a variety of Byzantine attacks on five standard benchmark and real-world healthcare datasets.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 事前インフォームドHDマップ予測モデルにおける実世界地図変化の一般化の探索

Exploring Real World Map Change Generalization of Prior-Informed HD Map Prediction Models ( http://arxiv.org/abs/2406.01961v1 )

ライセンス: Link先を確認
Samuel M. Bateman, Ning Xu, H. Charles Zhao, Yael Ben Shalom, Vince Gong, Greg Long, Will Maddern, (参考訳) ハイディフィニション(HD)マップの構築と維持は、自動運転車の配備にとって大きな障壁となる。 これは、現代のオンライン地図検出モデルの進歩とともに、オンライン地図問題への新たな関心を呼び起こした。 しかし、安全で自律的なデプロイメントを可能にするために、オンラインマップを十分な品質で効果的に予測することは、大きな課題である。 これらのモデルに関する最近の研究は、古いHDマップの先行をシミュレートするために、合成摂動を用いた低品質マップ事前を用いた堅牢なオンラインマッピングシステムのトレーニングを提案する。 本稿では,これらの合成摂動マップで訓練されたモデルが,展開規模,実世界の地図変化における性能を一般化する方法について検討する。 本研究では,複数年にわたる実世界の自律運転データを用いて,実世界のHDマップ変化を一般化する上で,どの合成摂動が最も有用かを決定するための大規模実験を行った。 合成先行摂動と観測された実世界の変化の間には、依然としてかなりのsim2realギャップがあることが示され、これは現在の事前インフォームドHDマップ予測モデルの有用性を制限している。

Building and maintaining High-Definition (HD) maps represents a large barrier to autonomous vehicle deployment. This, along with advances in modern online map detection models, has sparked renewed interest in the online mapping problem. However, effectively predicting online maps at a high enough quality to enable safe, driverless deployments remains a significant challenge. Recent work on these models proposes training robust online mapping systems using low quality map priors with synthetic perturbations in an attempt to simulate out-of-date HD map priors. In this paper, we investigate how models trained on these synthetically perturbed map priors generalize to performance on deployment-scale, real world map changes. We present a large-scale experimental study to determine which synthetic perturbations are most useful in generalizing to real world HD map changes, evaluated using multiple years of real-world autonomous driving data. We show there is still a substantial sim2real gap between synthetic prior perturbations and observed real-world changes, which limits the utility of current prior-informed HD map prediction models.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 測度-観測値-測度-測度-測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度・測度

Measure-Observe-Remeasure: An Interactive Paradigm for Differentially-Private Exploratory Analysis ( http://arxiv.org/abs/2406.01964v1 )

ライセンス: Link先を確認
Priyanka Nanayakkara, Hyeok Kim, Yifan Wu, Ali Sarvghad, Narges Mahyar, Gerome Miklau, Jessica Hullman, (参考訳) 差別化プライバシ(DP)は、機密データに対するプライバシー保護分析を可能にする可能性があるが、アナリストは限定的な ‘‘プライバシ損失予算’' の$\epsilon$ のクエリを行なわなければならない。 しかし、探索分析を行うアナリストは、事前に全てのクエリを知っておらず、DPの専門知識はめったにない。 したがって、分析の前にクエリ間で$\epsilon$アロケートを指定する能力は制限されている。 アナリストが$\epsilon$を効率的に使うのをサポートするために、我々は新しい対話型分析パラダイムであるMessage-Observe-Remeasureを提案し、そこでは、アナリストが$\epsilon$を限られた量でデータベースを'measure'し、見積もりとエラーを観察し、必要に応じて$\epsilon$で再測定する。 インタラクティブなビジュアライゼーションインターフェースでパラダイムをインスタンス化し、アナリストが総予算で$\epsilon$を使えるようにします。 インターフェースを介して分析者が測定・観測・測定パラダイムとどのように相互作用するかを観察するため、我々は、$\epsilon$アロケーションの有用性と、機密データ参加者の発見と、同じ決定課題に直面している有理エージェントの期待するアロケーションと結果を比較するユーザスタディを実施している。 参加者は、$\epsilon$のアロケーションから得られるユーティリティの半分以上を最大化する予算配分戦略など、ワークフローを比較的うまく利用できることが分かりました。 合理的なエージェントに対するパフォーマンスの損失は、$\epsilon$を割り当てるよりも、情報にアクセスできなくなり、それを報告できないことが原因のようだ。

Differential privacy (DP) has the potential to enable privacy-preserving analysis on sensitive data, but requires analysts to judiciously spend a limited ``privacy loss budget'' $\epsilon$ across queries. Analysts conducting exploratory analyses do not, however, know all queries in advance and seldom have DP expertise. Thus, they are limited in their ability to specify $\epsilon$ allotments across queries prior to an analysis. To support analysts in spending $\epsilon$ efficiently, we propose a new interactive analysis paradigm, Measure-Observe-Remeasure, where analysts ``measure'' the database with a limited amount of $\epsilon$, observe estimates and their errors, and remeasure with more $\epsilon$ as needed. We instantiate the paradigm in an interactive visualization interface which allows analysts to spend increasing amounts of $\epsilon$ under a total budget. To observe how analysts interact with the Measure-Observe-Remeasure paradigm via the interface, we conduct a user study that compares the utility of $\epsilon$ allocations and findings from sensitive data participants make to the allocations and findings expected of a rational agent who faces the same decision task. We find that participants are able to use the workflow relatively successfully, including using budget allocation strategies that maximize over half of the available utility stemming from $\epsilon$ allocation. Their loss in performance relative to a rational agent appears to be driven more by their inability to access information and report it than to allocate $\epsilon$.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 創造性、創造的AI、そしてソフトウェア開発:研究アジェンダ

Creativity, Generative AI, and Software Development: A Research Agenda ( http://arxiv.org/abs/2406.01966v1 )

ライセンス: Link先を確認
Victoria Jackson, Bogdan Vasilescu, Daniel Russo, Paul Ralph, Maliheh Izadi, Rafael Prikladnicki, Sarah D'Angelo, Sarah Inman, Anielle Lisboa, Andre van der Hoek, (参考訳) 私たちは、GenAIが開発者ツールチェーンや作業プラクティスに組み込まれるにつれて、ソフトウェア開発における創造性の重要性が高まると信じています。 本稿では,GenAIがソフトウェア開発において創造性に与える影響を明らかにするために,GenAIがソフトウェア開発をより広範囲に破壊するシナリオと並行して,McLuhanテトラッドを用いる。 個人の能力、チームの能力、製品、意図しない結果、社会、人間的側面にどのように影響するかを考察する。

Creativity has always been considered a major differentiator to separate the good from the great, and we believe the importance of creativity for software development will only increase as GenAI becomes embedded in developer tool-chains and working practices. This paper uses the McLuhan tetrad alongside scenarios of how GenAI may disrupt software development more broadly, to identify potential impacts GenAI may have on creativity within software development. The impacts are discussed along with a future research agenda comprising six connected themes that consider how individual capabilities, team capabilities, the product, unintended consequences, society, and human aspects can be affected.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# DrEureka: 言語モデルガイドによるSim-to-Real Transfer

DrEureka: Language Model Guided Sim-To-Real Transfer ( http://arxiv.org/abs/2406.01967v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, William Liang, Hung-Ju Wang, Sam Wang, Yuke Zhu, Linxi Fan, Osbert Bastani, Dinesh Jayaraman, (参考訳) シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。 しかしながら、sim-to-realアプローチは通常、タスク報酬関数とシミュレーション物理パラメータのマニュアル設計とチューニングに依存し、プロセスが遅く人間の作業が集中的に行われる。 本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。 LLM-Guided sim-to-real アプローチであるDrEurekaは、目標タスクの物理シミュレーションのみを必要とし、実世界の移動をサポートするために適切な報酬関数とドメインランダム化分布を自動構築する。 提案手法は,従来の人間設計と競合するシミュレート・トゥ・リアルな構成を,四足歩行や器用な操作タスクで発見できることを最初に実証した。 そこで本研究では,ヨーガボールの上を歩きながら,反復的な手動設計を行うことなく,四足歩行や四足歩行などの新しいロボットタスクを解くことができることを示す。

Transferring policies learned in simulation to the real world is a promising strategy for acquiring robot skills at scale. However, sim-to-real approaches typically rely on manual design and tuning of the task reward function as well as the simulation physics parameters, rendering the process slow and human-labor intensive. In this paper, we investigate using Large Language Models (LLMs) to automate and accelerate sim-to-real design. Our LLM-guided sim-to-real approach, DrEureka, requires only the physics simulation for the target task and automatically constructs suitable reward functions and domain randomization distributions to support real-world transfer. We first demonstrate that our approach can discover sim-to-real configurations that are competitive with existing human-designed ones on quadruped locomotion and dexterous manipulation tasks. Then, we showcase that our approach is capable of solving novel robot tasks, such as quadruped balancing and walking atop a yoga ball, without iterative manual design.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 潜時空間アライメントを用いたクロス・エンボディメント・ロボットマニピュレーション・スキル・トランスファー

Cross-Embodiment Robot Manipulation Skill Transfer using Latent Space Alignment ( http://arxiv.org/abs/2406.01968v1 )

ライセンス: Link先を確認
Tianyu Wang, Dwait Bhatt, Xiaolong Wang, Nikolay Atanasov, (参考訳) 本稿では,形態の異なるロボットマニピュレータ間の制御ポリシの伝達に着目した。 強化学習(RL)手法は、ロボット操作タスクにおいて成功した結果を示す一方で、シミュレーションから実際のロボットへ、あるいは異なる状態、行動、運動学を持ったロボットに、訓練されたポリシーをデプロイすることは困難である。 クロス・エボディメント・ポリシー・トランスファーを実現するために、我々の重要な洞察は、ソースの状態と動作空間を投影し、ターゲットロボットを共通の潜在空間表現に投射することである。 まず、まずエンコーダとデコーダを導入し、ソースロボットの状態と動作を潜在空間に関連付ける。 エンコーダ、デコーダ、及び遅延空間制御ポリシーは、タスク性能、遅延ダイナミクスの一貫性、および元の状態と動作を再構築するエンコーダ・デコーダ能力を用いて同時に訓練される。 学習した制御ポリシーを転送するには、新しいターゲットドメインを潜在空間に整列させるターゲットエンコーダとデコーダのみをトレーニングする必要がある。 我々は,目標領域におけるタスク報酬や報酬のチューニングを必要とせずに,サイクル整合性および潜時ダイナミクス損失を伴う生成的対位トレーニングを使用する。 我々は、異なる状態、行動、実施形態のソースとターゲットロボットによるシム・トゥ・シム・トゥ・シム・トゥ・シム・トゥ・リアルな操作ポリシーの伝達を実証する。 ソースコードは \url{https://github.com/ExistentialRobotics/cross_embodiment_transfer} で公開されている。

This paper focuses on transferring control policies between robot manipulators with different morphology. While reinforcement learning (RL) methods have shown successful results in robot manipulation tasks, transferring a trained policy from simulation to a real robot or deploying it on a robot with different states, actions, or kinematics is challenging. To achieve cross-embodiment policy transfer, our key insight is to project the state and action spaces of the source and target robots to a common latent space representation. We first introduce encoders and decoders to associate the states and actions of the source robot with a latent space. The encoders, decoders, and a latent space control policy are trained simultaneously using loss functions measuring task performance, latent dynamics consistency, and encoder-decoder ability to reconstruct the original states and actions. To transfer the learned control policy, we only need to train target encoders and decoders that align a new target domain to the latent space. We use generative adversarial training with cycle consistency and latent dynamics losses without access to the task reward or reward tuning in the target domain. We demonstrate sim-to-sim and sim-to-real manipulation policy transfer with source and target robots of different states, actions, and embodiments. The source code is available at \url{https://github.com/ExistentialRobotics/cross_embodiment_transfer}.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# マルチウェイマルチスライスPHATE:トレーニングによるRNNの隠れダイナミクスの可視化

Multiway Multislice PHATE: Visualizing Hidden Dynamics of RNNs through Training ( http://arxiv.org/abs/2406.01969v1 )

ライセンス: Link先を確認
Jiancheng Xie, Lou C. Kohler Voinov, Noga Mudrik, Gal Mishne, Adam Charles, (参考訳) リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルなデータ分析に広く使われているツールであるが、計算のブラックボックスとしてよく見られる。 これらのネットワークの機能原理を理解することは、理想的なモデルアーキテクチャと最適化戦略を開発する上で重要である。 これまでの研究では、トレーニング全体を通して進化過程を見渡すことで、トレーニング後のネットワーク表現のみを強調する研究が一般的だった。 本稿では,RNNの隠れ状態の進化を可視化する新しい手法であるMultiway Multislice PHATE(MM-PHATE)を提案する。 MM-PHATEは、時間、訓練エポック、ユニットなど、RNNにまたがる複数の次元にまたがる構造化カーネルを使用したグラフベースの埋め込みである。 MM-PHATEは、単位間の隠れ表現コミュニティ構造をユニークに保存し、トレーニング中に情報処理と圧縮フェーズを識別する様々なデータセットを実証する。 この埋め込みにより、ユーザーはトレーニング全体にわたってRNNのボンネットの下を見ることができ、ネットワークの内部のダイナミクスを理解し、結論を引き出すための直感的で包括的な戦略を提供する。

Recurrent neural networks (RNNs) are a widely used tool for sequential data analysis, however, they are still often seen as black boxes of computation. Understanding the functional principles of these networks is critical to developing ideal model architectures and optimization strategies. Previous studies typically only emphasize the network representation post-training, overlooking their evolution process throughout training. Here, we present Multiway Multislice PHATE (MM-PHATE), a novel method for visualizing the evolution of RNNs' hidden states. MM-PHATE is a graph-based embedding using structured kernels across the multiple dimensions spanned by RNNs: time, training epoch, and units. We demonstrate on various datasets that MM-PHATE uniquely preserves hidden representation community structure among units and identifies information processing and compression phases during training. The embedding allows users to look under the hood of RNNs across training and provides an intuitive and comprehensive strategy to understanding the network's internal dynamics and draw conclusions, e.g., on why and how one model outperforms another or how a specific architecture might impact an RNN's learning ability.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 拡散モデルにおける結晶球仮説:初期雑音からの物体位置予測

The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise ( http://arxiv.org/abs/2406.01970v1 )

ライセンス: Link先を確認
Yuanhao Ban, Ruochen Wang, Tianyi Zhou, Boqing Gong, Cho-Jui Hsieh, Minhao Cheng, (参考訳) 拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めてきたが、初期ノイズの役割を探求することはめったにない。 本研究では,初期ノイズ画像中の特定の領域,すなわちトリガーパッチを同定し,オブジェクト生成に重要な役割を担っている。 特に、これらのパッチは'universal''であり、様々な位置、種、プロンプトにまたがって一般化することができる。 具体的には、これらのパッチをあるノイズから抽出し、別のノイズに注入すると、対象領域におけるオブジェクト生成につながる。 生成した画像間のオブジェクト境界ボックスの分散を分析してこれらのパッチを同定し、後部解析手法の開発に繋がる。 さらに、生成画像に現れる物体に対応する境界ボックスをラベル付けしたガウスノイズからなるデータセットを作成し、これらのパッチを初期ノイズから識別する検出器を訓練する。 これらのパッチの形成を説明するために、ガウス雑音の外れ値であり、2サンプル試験により異なる分布に従うことを明らかにする。 最後に、プロンプトとトリガーパッチパターンの不一致は、画像生成に失敗する可能性があることを発見した。 本研究は,画像生成における適応性や位置の多様性の向上を目的とした,最適な雑音を得るためのリジェクションサンプリング戦略を提案する。

Diffusion models have achieved remarkable success in text-to-image generation tasks; however, the role of initial noise has been rarely explored. In this study, we identify specific regions within the initial noise image, termed trigger patches, that play a key role for object generation in the resulting images. Notably, these patches are ``universal'' and can be generalized across various positions, seeds, and prompts. To be specific, extracting these patches from one noise and injecting them into another noise leads to object generation in targeted areas. We identify these patches by analyzing the dispersion of object bounding boxes across generated images, leading to the development of a posterior analysis technique. Furthermore, we create a dataset consisting of Gaussian noises labeled with bounding boxes corresponding to the objects appearing in the generated images and train a detector that identifies these patches from the initial noise. To explain the formation of these patches, we reveal that they are outliers in Gaussian noise, and follow distinct distributions through two-sample tests. Finally, we find the misalignment between prompts and the trigger patch patterns can result in unsuccessful image generations. The study proposes a reject-sampling strategy to obtain optimal noise, aiming to improve prompt adherence and positional diversity in image generation.
翻訳日:2024-06-05 18:00:19 公開日:2024-06-04
# 長距離相互作用からのギフト:量子スピン鎖における創発的ギャップレス位相挙動

Gifts from long-range interaction: Emergent gapless topological behaviors in quantum spin chain ( http://arxiv.org/abs/2406.01974v1 )

ライセンス: Link先を確認
Sheng Yang, Hai-Qing Lin, Xue-Jia Yu, (参考訳) 凝縮物質物理学のトポロジーは典型的にはバルクエネルギーギャップと関連している。 しかし、最近の研究では、バルクエネルギーギャップのない位相位相位相に焦点を移し、非自明な隙間のない位相挙動を示した。 本稿では,長距離反強磁性相互作用を持つクラスターIsing鎖について検討する。 相補的数値的および解析的手法を用いて、長距離相互作用が代数的位相位相と位相的ガウス普遍性を曖昧に誘導できることを示し、どちらも非自明なギャップのない位相的挙動を示す。 我々の研究は、量子多体系の基礎物理を研究するためのプラットフォームを提供するだけでなく、現実的な量子シミュレーターにおけるギャップレス位相を探すための新しい経路も提供する。

Topology in condensed matter physics is typically associated with a bulk energy gap. However, recent research has shifted focus to topological phases without a bulk energy gap, exhibiting nontrivial gapless topological behaviors. In this letter, we explore a cluster Ising chain with long-range antiferromagnetic interactions that decay as a power law with the distance. Using complementary numerical and analytical techniques, we demonstrate that long-range interactions can unambiguously induce an algebraic topological phase and a topological Gaussian universality, both of which exhibit nontrivial gapless topological behaviors. Our study not only provides a platform to investigate the fundamental physics of quantum many-body systems but also offers a novel route toward searching for gapless topological phases in realistic quantum simulators.
翻訳日:2024-06-05 18:00:18 公開日:2024-06-04
# ディエンス接続性はアウトレーヤ検出に相応しいか? : NASとのオデュッセイ

Can Dense Connectivity Benefit Outlier Detection? An Odyssey with NAS ( http://arxiv.org/abs/2406.01975v1 )

ライセンス: Link先を確認
Hao Fu, Tunhou Zhang, Hai Li, Yiran Chen, (参考訳) 近年のOOD(Out-of-Distribution)検出の進歩は,CNN(Convolutional Neural Networks)を現実世界のアプリケーションに安全かつ信頼性の高い展開の原動力となっている。 しかし、既存の研究では、DNN構造の影響を考慮せずに、信頼性スコアと深部生成モデルに基づくOOD検出に焦点を当てている。 さらに、既存の異常検出手法は、一般化性能に高いばらつきを示し、異なる異常検出器の評価とランク付けに安定性と信頼性が欠如している。 本研究では,ニューラルアーキテクチャサーチ(NAS)を用いた近OOD検出タスクにおいて,CNNアーキテクチャの密接な接続性を自動的に探索する,Dense Connectivity Search of Outlier Detector(DCSOD)を提案する。 汎用な畳み込み演算子と高密度接続を含む階層型探索空間を導入し,多様な接続パターンを持つCNNアーキテクチャの柔軟な探索を可能にする。 探索中のOOD検出における評価の質を向上させるため,多視点特徴学習説明に基づく蒸留の進化を提案する。 蒸留の進化はOOD検出評価の訓練を安定化させ,探索の質を向上させる。 OOD検出プロトコルを用いてCIFARベンチマークのDCSODを徹底的に検討する。 実験の結果,DCSODは広く使用されているアーキテクチャや以前のNASベースラインよりも優れた性能を示した。 特に、DCSODはCIFARベンチマーク上での最先端(SOTA)性能を達成し、AUROCは$\sim$1.0%改善した。

Recent advances in Out-of-Distribution (OOD) Detection is the driving force behind safe and reliable deployment of Convolutional Neural Networks (CNNs) in real world applications. However, existing studies focus on OOD detection through confidence score and deep generative model-based methods, without considering the impact of DNN structures, especially dense connectivity in architecture fabrications. In addition, existing outlier detection approaches exhibit high variance in generalization performance, lacking stability and confidence in evaluating and ranking different outlier detectors. In this work, we propose a novel paradigm, Dense Connectivity Search of Outlier Detector (DCSOD), that automatically explore the dense connectivity of CNN architectures on near-OOD detection task using Neural Architecture Search (NAS). We introduce a hierarchical search space containing versatile convolution operators and dense connectivity, allowing a flexible exploration of CNN architectures with diverse connectivity patterns. To improve the quality of evaluation on OOD detection during search, we propose evolving distillation based on our multi-view feature learning explanation. Evolving distillation stabilizes training for OOD detection evaluation, thus improves the quality of search. We thoroughly examine DCSOD on CIFAR benchmarks under OOD detection protocol. Experimental results show that DCSOD achieve remarkable performance over widely used architectures and previous NAS baselines. Notably, DCSOD achieves state-of-the-art (SOTA) performance on CIFAR benchmark, with AUROC improvement of $\sim$1.0%.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 文脈を用いた条件付き言語学習

Conditional Language Learning with Context ( http://arxiv.org/abs/2406.01976v1 )

ライセンス: Link先を確認
Xiao Zhang, Miao Li, Ji Wu, (参考訳) 言語モデルは、原文を適合させることで、洗練された言語理解スキルを学ぶことができる。 彼らはまた、特にドメイン固有のコーパスの微調整中に、役に立たないコーパス統計とバイアスを非選択的に学習する。 本稿では,コンテクストに基づく言語モデリングを行う条件ファインタニング( Conditional Finetuning)と呼ばれる,因果言語モデリングの簡易な修正を提案する。 我々は、あるコンテキストが特定のコーパス統計を「説明」し、モデルがそれらを学ぶのを避けることができることを示す。 このように、条件付微調整は、トピックバイアスのような無駄なコーパス統計を学習することなく、ダウンストリームタスクに有用な学習知識であるコーパスからの選択的学習を実現する。 この選択的な学習効果は、ドメインの微調整における忘れを少なくし、安定性と塑性のトレードオフを改善させ、言語モデルによる生涯学習の恩恵をもたらす可能性がある。

Language models can learn sophisticated language understanding skills from fitting raw text. They also unselectively learn useless corpus statistics and biases, especially during finetuning on domain-specific corpora. In this paper, we propose a simple modification to causal language modeling called conditional finetuning, which performs language modeling conditioned on a context. We show that a context can "explain away" certain corpus statistics and make the model avoid learning them. In this fashion, conditional finetuning achieves selective learning from a corpus, learning knowledge useful for downstream tasks while avoiding learning useless corpus statistics like topic biases. This selective learning effect leads to less forgetting and better stability-plasticity tradeoff in domain finetuning, potentially benefitting lifelong learning with language models.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# グラフ変換器の一般化を改善するものは何か? : 自己注意と位置エンコーディングへの理論的考察

What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding ( http://arxiv.org/abs/2406.01977v1 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Tengfei Ma, Sijia Liu, Zaixi Zhang, Pin-Yu Chen, (参考訳) 自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、最近、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。 その印象的な性能にもかかわらず、層間の複雑な非凸相互作用と再帰的なグラフ構造は、学習と一般化の理論的基盤を確立することを困難にしている。 本研究では,半教師付きノード分類のための浅層グラフ変換器について,相対的な位置エンコーディングと2層パーセプトロンを備えた自己アテンション層を含む理論的検討を行った。 ノードラベルと非識別ノードを識別する識別ノードを持つグラフデータモデルに着目し,確率勾配降下法(SGD)を訓練することにより,望ましい一般化誤差を達成するために必要なサンプルの複雑さを特徴付ける。 本稿では,識別ノードの分数,支配的パターン,初期モデル誤差に依存する収束の複雑さと回数を定量的に評価する。 さらに,注意マップのスパース化と学習中のコアエリアの促進により,自己注意と位置エンコーディングが一般化を促進することを示し,グラフ変換器の優れた特徴表現を説明する。 我々の理論結果は、合成および実世界のベンチマークに関する実証実験によって支持されている。

Graph Transformers, which incorporate self-attention and positional encoding, have recently emerged as a powerful architecture for various graph learning tasks. Despite their impressive performance, the complex non-convex interactions across layers and the recursive graph structure have made it challenging to establish a theoretical foundation for learning and generalization. This study introduces the first theoretical investigation of a shallow Graph Transformer for semi-supervised node classification, comprising a self-attention layer with relative positional encoding and a two-layer perceptron. Focusing on a graph data model with discriminative nodes that determine node labels and non-discriminative nodes that are class-irrelevant, we characterize the sample complexity required to achieve a desirable generalization error by training with stochastic gradient descent (SGD). This paper provides the quantitative characterization of the sample complexity and number of iterations for convergence dependent on the fraction of discriminative nodes, the dominant patterns, and the initial model errors. Furthermore, we demonstrate that self-attention and positional encoding enhance generalization by making the attention map sparse and promoting the core neighborhood during training, which explains the superior feature representation of Graph Transformers. Our theoretical results are supported by empirical experiments on synthetic and real-world benchmarks.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# Zyda: オープン言語モデリングのための1.3Tデータセット

Zyda: A 1.3T Dataset for Open Language Modeling ( http://arxiv.org/abs/2406.01981v1 )

ライセンス: Link先を確認
Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony, (参考訳) 近年,大規模言語モデル (LLM) の規模は劇的に拡大しており,その計算量やデータ要求量は増加傾向にある。 最先端の言語モデルは、比較的小さなサイズであっても、通常、少なくとも1兆トークンのトレーニングを必要とします。 この急速な進歩は、大規模LLM事前トレーニングで利用可能なオープンソースデータセットの成長を超えている。 本稿では,1.3兆のトークンからなるパーミッシブ・ライセンス下のデータセットであるZyda(Zyphra Dataset)を紹介する。 厳密なフィルタリングと復号化プロセスを適用して、元のデータセットから派生した品質を維持し、強化する。 我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。 我々の厳密なデータ処理手法は、Zydaの有効性を著しく向上させ、独立して使用する場合、その構成データセットの最高のものよりも優れています。

The size of large language models (LLMs) has scaled dramatically in recent years and their computational and data requirements have surged correspondingly. State-of-the-art language models, even at relatively smaller sizes, typically require training on at least a trillion tokens. This rapid advancement has eclipsed the growth of open-source datasets available for large-scale LLM pretraining. In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open-source datasets into a single, high-quality corpus. We apply rigorous filtering and deduplication processes, both within and across datasets, to maintain and enhance the quality derived from the original datasets. Our evaluations show that Zyda not only competes favorably with other open datasets like Dolma, FineWeb, and RefinedWeb, but also substantially improves the performance of comparable models from the Pythia suite. Our rigorous data processing methods significantly enhance Zyda's effectiveness, outperforming even the best of its constituent datasets when used independently.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 空間機械学習モデルの多変数重要度測定と大気汚染暴露予測への応用

Variable importance measure for spatial machine learning models with application to air pollution exposure prediction ( http://arxiv.org/abs/2406.01982v1 )

ライセンス: Link先を確認
Si Cheng, Magali N. Blanco, Lianne Sheppard, Ali Shojaie, Adam Szpiro, (参考訳) 大気汚染コホート研究には大気汚染の評価が不可欠である。 本研究の目的は, 大気汚染の健康影響を学習する能力を最大限に活用するために, データのない場所での被験者の大気汚染の予測を行うことである。 露出測定誤差を最小限に抑えるための正確な予測を生成することに加えて、モデルが捉えたメカニズムを理解することは、機械学習手法の複雑な性質と、変数の重要性の統一概念の欠如により、必ずしも簡単ではない重要な側面である。 これは空間相関の存在による大気汚染モデリングにおいてさらに複雑である。 これらの課題を、米国国家PM2.5亜種規制データの硫黄(S)と、シアトルの交通関連大気汚染データセットの超微粒子(UFP)の2つのデータセットで解決する。 我々の重要な貢献は、変数の重要度を保留するアプローチであり、分離可能な平均と共分散成分を持つ幅広いモデルの解釈可能かつ同等の尺度をもたらす。 提案手法を空間機械学習モデルを用いて説明し, 類似した予測を行う場合であっても, モデルメカニズムの違いを明確に示す。 我々は,SとUFPの2つの露光モデルに対して,類似のサンプル外予測精度を持つが,異なる種類の空間情報に基づいて予測を行うような相対的実用性を評価するために,この変動重要度尺度からの洞察を利用する。

Exposure assessment is fundamental to air pollution cohort studies. The objective is to predict air pollution exposures for study subjects at locations without data in order to optimize our ability to learn about health effects of air pollution. In addition to generating accurate predictions to minimize exposure measurement error, understanding the mechanism captured by the model is another crucial aspect that may not always be straightforward due to the complex nature of machine learning methods, as well as the lack of unifying notions of variable importance. This is further complicated in air pollution modeling by the presence of spatial correlation. We tackle these challenges in two datasets: sulfur (S) from regulatory United States national PM2.5 sub-species data and ultrafine particles (UFP) from a new Seattle-area traffic-related air pollution dataset. Our key contribution is a leave-one-out approach for variable importance that leads to interpretable and comparable measures for a broad class of models with separable mean and covariance components. We illustrate our approach with several spatial machine learning models, and it clearly highlights the difference in model mechanisms, even for those producing similar predictions. We leverage insights from this variable importance measure to assess the relative utilities of two exposure models for S and UFP that have similar out-of-sample prediction accuracies but appear to draw on different types of spatial information to make predictions.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# RKLD:大規模言語モデルにおける未学習個人情報に対する逆KL-Divergenceに基づく知識蒸留

RKLD: Reverse KL-Divergence-based Knowledge Distillation for Unlearning Personal Information in Large Language Models ( http://arxiv.org/abs/2406.01983v1 )

ライセンス: Link先を確認
Bichen Wang, Yuzhe Zi, Yixin Sun, Yanyan Zhao, Bing Qin, (参考訳) RTBF(Right to Be Forgotten)規制の成立と、言語モデルトレーニングデータセットのスケールアップにより、大規模言語モデル(LLM)におけるモデルアンラーニングの研究がより重要になっている。 LLMの時代以前、機械学習の研究は主に小さなパラメータを持つモデルの分類タスクに焦点を当てていた。 これらのタスクでは、忘れられるか、保持されるコンテンツは明確で簡単です。 しかし,パラメータのサイズが拡大し,タスクが複雑化するにつれて,特に分類結果ではなく個人データを含むシナリオにおいて,品質とモデルの有用性のバランスをとることが困難になっている。 勾配上昇に基づく既存手法とその変種は、しばしばこのバランスに苦しむため、意図しない情報損失や部分的な忘れが生じる。 この課題に対処するために,個人情報の未学習をターゲットとしたLLMのための,新しいRKLD, RKLD, a novel \textbf{R}everse \textbf{KL}-divergence-based Knowledge \textbf{D}istillation unlearning Algorithmを提案する。 RKLDを通し, 精度の大幅な向上を実現し, 実験におけるモデルの有用性を効果的に維持する。

With the passage of the Right to Be Forgotten (RTBF) regulations and the scaling up of language model training datasets, research on model unlearning in large language models (LLMs) has become more crucial. Before the era of LLMs, machine unlearning research focused mainly on classification tasks in models with small parameters. In these tasks, the content to be forgotten or retained is clear and straightforward. However, as parameter sizes have grown and tasks have become more complex, balancing forget quality and model utility has become more challenging, especially in scenarios involving personal data instead of classification results. Existing methods based on gradient ascent and its variants often struggle with this balance, leading to unintended information loss or partial forgetting. To address this challenge, we propose RKLD, a novel \textbf{R}everse \textbf{KL}-Divergence-based Knowledge \textbf{D}istillation unlearning algorithm for LLMs targeting the unlearning of personal information. Through RKLD, we achieve significant forget quality and effectively maintain the model utility in our experiments.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 全段階欠落モダリティによる対処:ロバスト再構築とパーソナライゼーションによるユニバーサルモデルに向けて

Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization ( http://arxiv.org/abs/2406.01987v1 )

ライセンス: Link先を確認
Yunpeng Zhao, Cheng Chen, Qing You Pang, Quanzheng Li, Carol Tang, Beng-Ti Ang, Yueming Jin, (参考訳) 欠落したモダリティに対処することは、マルチモーダル学習において重要な課題となる。 現在のアプローチでは、トレーニング中のすべてのデータに対して完全なモダリティのセットが利用できると仮定して、推論中にモダリティ不完全入力を処理できるモデルの開発に重点を置いている。 このトレーニングのための完全なモダリティデータへの依存は、実用的な環境でしばしば遭遇する豊富なモダリティ不完全なサンプルの使用を制限する。 本稿では,モダリティの再構築とモデルパーソナライゼーションを併用したロバストなユニバーサルモデルを提案する。 本手法では,マルチモーダルマスク方式のオートエンコーダを用いて,欠落したモダリティとマスクされたパッチを同時に再構築し,モダリティ完全データとモダリティ不完全データの両方を完全に活用する,革新的な分布近似機構を組み込んだ。 再構成されたモダリティは、欠落したモダリティの存在下でモデル学習を導くために、設計したデータモデル共蒸留方式に寄与する。 さらに、部分モデルパラメータをパーソナライズするCLIP駆動型ハイパーネットワークを提案する。 本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。 提案手法は, 従来手法を常に上回り, 欠落率の異なる全段欠落条件下で有望な性能を示す実験結果を得た。 コードは利用可能です。

Addressing missing modalities presents a critical challenge in multimodal learning. Current approaches focus on developing models that can handle modality-incomplete inputs during inference, assuming that the full set of modalities are available for all the data during training. This reliance on full-modality data for training limits the use of abundant modality-incomplete samples that are often encountered in practical settings. In this paper, we propose a robust universal model with modality reconstruction and model personalization, which can effectively tackle the missing modality at both training and testing stages. Our method leverages a multimodal masked autoencoder to reconstruct the missing modality and masked patches simultaneously, incorporating an innovative distribution approximation mechanism to fully utilize both modality-complete and modality-incomplete data. The reconstructed modalities then contributes to our designed data-model co-distillation scheme to guide the model learning in the presence of missing modalities. Moreover, we propose a CLIP-driven hyper-network to personalize partial model parameters, enabling the model to adapt to each distinct missing modality scenario. Our method has been extensively validated on two brain tumor segmentation benchmarks. Experimental results demonstrate the promising performance of our method, which consistently exceeds previous state-of-the-art approaches under the all-stage missing modality settings with different missing ratios. Code will be available.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# トピックグラウンド対話のためのパーソナライズされたトピック選択モデル

Personalized Topic Selection Model for Topic-Grounded Dialogue ( http://arxiv.org/abs/2406.01988v1 )

ライセンス: Link先を確認
Shixuan Fan, Wei Wei, Xiaofei Wen, Xianling Mao, Jixiong Chen, Dangyang Chen, (参考訳) 近年,トピック・グラウンドド・ダイアログ(TGD)システムは,トピック・グラウンドド・会話を通じてユーザに対して,特定のタスクを積極的に指導する能力として人気が高まっている。 既存の作業の多くは、トピック選択能力を高めるために、サイド情報(トピックやペルソナ)を分離して利用しています。 しかし、これらの補助情報ソース内のノイズや相互影響を無視するため、現在のモデルは、ユーザ不関心や文脈的に無関係なトピックを予測しがちである。 ユーザエンゲージメントとコヒーレントな対話エージェントを構築するために,ユーザエンハンスメントとコヒーレントな対話エージェントを構築するために,擬人化トピック s\textbf{E} レクレーションモデルを提案する。 具体的には,グローバルトピックとペルソナの相関性を評価し,ユーザペルソナに合わせたグローバルトピックを選択的に取り入れる。 さらに、関連するペルソナアノテーションを欠く制約の下で、無関係なペルソナをフィルタリングする対照的な学習に基づくペルソナセレクタを提案する。 選択と生成を通じて、多様な関連側情報を考察する。 大規模実験により,提案手法は多種多様な応答を生成できることを示す。

Recently, the topic-grounded dialogue (TGD) system has become increasingly popular as its powerful capability to actively guide users to accomplish specific tasks through topic-guided conversations. Most existing works utilize side information (\eg topics or personas) in isolation to enhance the topic selection ability. However, due to disregarding the noise within these auxiliary information sources and their mutual influence, current models tend to predict user-uninteresting and contextually irrelevant topics. To build user-engaging and coherent dialogue agent, we propose a \textbf{P}ersonalized topic s\textbf{E}lection model for \textbf{T}opic-grounded \textbf{D}ialogue, named \textbf{PETD}, which takes account of the interaction of side information to selectively aggregate such information for more accurately predicting subsequent topics. Specifically, we evaluate the correlation between global topics and personas and selectively incorporate the global topics aligned with user personas. Furthermore, we propose a contrastive learning based persona selector to filter out irrelevant personas under the constraint of lacking pertinent persona annotations. Throughout the selection and generation, diverse relevant side information is considered. Extensive experiments demonstrate that our proposed method can generate engaging and diverse responses, outperforming state-of-the-art baselines across various evaluation metrics.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# Indocyanine Green Angiography 画像におけるヒト- in-the-Loop Labeling による脈絡膜血管の分画

Choroidal Vessel Segmentation on Indocyanine Green Angiography Images via Human-in-the-Loop Labeling ( http://arxiv.org/abs/2406.01993v1 )

ライセンス: Link先を確認
Ruoyu Chen, Ziwei Zhao, Mayinuer Yusufu, Xianwen Shang, Danli Shi, Mingguang He, (参考訳) 近年,医療画像処理分野においてHuman-in-the-loop(HITL)戦略が導入されている。 Indocyanine green angiography (ICGA) は脈絡膜血管の可視化と脈絡膜疾患の診断に有用である。 しかし,脈絡膜血管網の複雑な性質は,ICGA画像の大規模な手動分割を困難にしている。 そこで本研究では,HITLフレームワークを用いて,限られた労力で高精度な脈絡膜細管分割モデルを構築することを目的とする。 我々は,55度ビューと超広視野ICGA(UWF-ICGA)画像を含むマルチソースICGAデータセットをモデル開発に利用した。 脈絡膜管網は, 事前訓練した血管分割モデルを用いて, 2人の眼科医が手動で修正した。 脈絡膜血管径, 密度, 複雑さ, 靭帯, 分岐角は, セグメンテーションに基づいて自動的に定量された。 最終的に4サイクルのHITLを施行した。 最初の3サイクル(1サイクルあたり50画像)には100から55度のICGA画像が、最後のサイクルには20のUWF-ICGA画像が使用された。 手動で1サイクルあたりのICGA画像の修正に必要な平均時間は20分から1分に短縮された。 55度のICGA画像とUWF-ICGA画像の両方で高いセグメンテーション精度が達成されている。 また,多次元脈絡膜血管パラメータは各種の脈絡膜疾患と有意に関連していた。 本研究は, 手指ラベリングを減らしてセグメンテーション性能を向上させるためのHITL戦略の有効性を実証しただけでなく, 脈絡膜異常の危険予測器を革新的に導入した。

Human-in-the-loop (HITL) strategy has been recently introduced into the field of medical image processing. Indocyanine green angiography (ICGA) stands as a well-established examination for visualizing choroidal vasculature and detecting chorioretinal diseases. However, the intricate nature of choroidal vascular networks makes large-scale manual segmentation of ICGA images challenging. Thus, the study aims to develop a high-precision choroidal vessel segmentation model with limited labor using HITL framework. We utilized a multi-source ICGA dataset, including 55 degree view and ultra-widefield ICGA (UWF-ICGA) images for model development. The choroidal vessel network was pre-segmented by a pre-trained vessel segmentation model, and then manually modified by two ophthalmologists. Choroidal vascular diameter, density, complexity, tortuosity, and branching angle were automatically quantified based on the segmentation. We finally conducted four cycles of HITL. One hundred and fifty 55 degree view ICGA images were used for the first three cycles (50 images per cycle), and twenty UWF-ICGA images for the last cycle. The average time needed to manually correct a pre-segmented ICGA image per cycle reduced from 20 minutes to 1 minute. High segmentation accuracy has been achieved on both 55 degree view ICGA and UWF-ICGA images. Additionally, the multi-dimensional choroidal vascular parameters were significantly associated with various chorioretinal diseases. Our study not only demonstrated the feasibility of the HITL strategy in improving segmentation performance with reduced manual labeling, but also innovatively introduced several risk predictors for choroidal abnormalities.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# Fusing Polarimetric and Deflectometric Information による複素特異表面の3次元イメージング

3D Imaging of Complex Specular Surfaces by Fusing Polarimetric and Deflectometric Information ( http://arxiv.org/abs/2406.01994v1 )

ライセンス: Link先を確認
Jiazhang Wang, Oliver Cossairt, Florian Willomitzer, (参考訳) 分光面の高精度かつ高速な3Dイメージングは、現在でも最先端の光学計測原理に大きな課題を呈している。 位相測定偏向法(PMD)や形状偏極法(SfP)のような頻繁に用いられる手法は、測定対象に関する強い仮定に依存し、医療画像、産業検査、バーチャルリアリティー、文化遺産分析などの幅広い応用分野におけるそれらの一般化性を制限する。 本稿では,新しい手法を用いて,光界に反射した光の情報を効果的に符号化し,復号する計測原理を提案する。 我々は,SfPから得られる偏光キューとMDから得られる幾何学的情報を組み合わせて,3次元計測におけるすべての曖昧さを解消する。 さらに,本手法では,SfPの非現実的正像像像の仮定を除去し,それぞれの結果を大幅に改善する。 複素形状の特異面上での単発・多発計測を実演し,0.6^\circ$以下の表面の正常値の評価精度を示す。

Accurate and fast 3D imaging of specular surfaces still poses major challenges for state-of-the-art optical measurement principles. Frequently used methods, such as phase-measuring deflectometry (PMD) or shape-from-polarization (SfP), rely on strong assumptions about the measured objects, limiting their generalizability in broader application areas like medical imaging, industrial inspection, virtual reality, or cultural heritage analysis. In this paper, we introduce a measurement principle that utilizes a novel technique to effectively encode and decode the information contained in a light field reflected off a specular surface. We combine polarization cues from SfP with geometric information obtained from PMD to resolve all arising ambiguities in the 3D measurement. Moreover, our approach removes the unrealistic orthographic imaging assumption for SfP, which significantly improves the respective results. We showcase our new technique by demonstrating single-shot and multi-shot measurements on complex-shaped specular surfaces, displaying an evaluated accuracy of surface normals below $0.6^\circ$.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# エンジニアリング性能予測を支援するグラフニューラルネットワークのベイジアンメッシュ最適化

Bayesian Mesh Optimization for Graph Neural Networks to Enhance Engineering Performance Prediction ( http://arxiv.org/abs/2406.01996v1 )

ライセンス: Link先を確認
Jangseop Park, Namwoo Kang, (参考訳) 工学設計においては、計算機支援設計(CAD)モデルから設計変数と幾何パラメータを活用することにより、計算コストのかかるシミュレーションを置き換えるためにサロゲートモデルが広く用いられている。 しかし、これらのモデルは、特に産業データセットでよく見られる複雑な3次元形状において、低次元に単純化され、パラメータ定義における課題に直面したとき、重要な情報を失うことが多い。 これらの制約に対処するために,メッシュ表現を用いてCADから幾何学的特徴を直接学習することにより,エンジニアリング性能を予測する3次元ディープラーニングベースサロゲートモデルのためのベイズグラフニューラルネットワーク(GNN)フレームワークを提案する。 我々のフレームワークはベイズ最適化によってメッシュ要素の最適サイズを決定し、その結果、高精度なサロゲートモデルが得られる。 さらに、3D CADの非規則構造と複雑な構造を効果的に扱うことができ、これは一般的にディープラーニングで使用される2D画像の通常の画素構造と均一な画素構造とは大きく異なる。 実験結果から,メッシュの品質はサロゲートモデルの予測精度に大きく影響し,最適サイズのメッシュが優れた性能を発揮することが示された。 ボクセル,点雲,グラフなどの様々な3次元表現に基づくモデルの性能を比較し,モンテカルロシミュレーションとベイズ最適化手法の計算コストを評価し,最適メッシュサイズを求める。 提案するフレームワークは,計算機支援工学でよく用いられる物理情報を活用することにより,様々な工学分野にわたるメッシュベースのシミュレーションに適用できる可能性が期待されている。

In engineering design, surrogate models are widely employed to replace computationally expensive simulations by leveraging design variables and geometric parameters from computer-aided design (CAD) models. However, these models often lose critical information when simplified to lower dimensions and face challenges in parameter definition, especially with the complex 3D shapes commonly found in industrial datasets. To address these limitations, we propose a Bayesian graph neural network (GNN) framework for a 3D deep-learning-based surrogate model that predicts engineering performance by directly learning geometric features from CAD using mesh representation. Our framework determines the optimal size of mesh elements through Bayesian optimization, resulting in a high-accuracy surrogate model. Additionally, it effectively handles the irregular and complex structures of 3D CADs, which differ significantly from the regular and uniform pixel structures of 2D images typically used in deep learning. Experimental results demonstrate that the quality of the mesh significantly impacts the prediction accuracy of the surrogate model, with an optimally sized mesh achieving superior performance. We compare the performance of models based on various 3D representations such as voxel, point cloud, and graph, and evaluate the computational costs of Monte Carlo simulation and Bayesian optimization methods to find the optimal mesh size. We anticipate that our proposed framework has the potential to be applied to mesh-based simulations across various engineering fields, leveraging physics-based information commonly used in computer-aided engineering.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# パラメータ化量子回路のエンタングル能力予測のための機械学習フレームワーク

Machine learning framework for predicting the entangling capability of parameterized quantum circuits ( http://arxiv.org/abs/2406.01997v1 )

ライセンス: Link先を確認
Shikun Zhang, Yang Zhou, Zheng Qin, Rui Li, Chunxiao Du, Zhisong Xiao, Yongyou Zhang, (参考訳) ノイズの多い中間スケール量子(NISQ)時代には、量子デバイスは重大な制限に直面している。 変分量子アルゴリズム(VQA)は有望な解であるが、その性能はそれらが利用するパラメータ化量子回路(PQC)に大きく依存する。 PQCsの絡み合いはPQCsを構築する上で重要な計量である。 これは、絡み合いが量子と古典コンピューティングを区別する重要な性質であるだけでなく、VQAの計算性能にも影響を及ぼすためである。 しかし、広い量子状態サンプリングを必要とするため、計算コストは非常に高い。 この課題に対処するために,長い短期記憶モデルとゲートエンコーディング技術を用いて,PQCの絡み合う能力を予測する機械学習フレームワークを提案する。 ゲート符号化技術を用いてPQCを行列列に符号化し、異なる時間ステップでLSTMモデルに供給することにより、量子力学の進化を効果的にシミュレートする。 ランダムなPQCのデータセットを用いてLSTMモデルを訓練した。 テストシナリオでは, ピアソン相関係数0.9791, 根平均二乗誤差0.05を達成し, 高い予測精度を示し, フレームワークの有効性を検証した。 このアプローチは、サンプリング量子状態に関連する絡み合い計算コストを大幅に削減し、PQCの構造を設計し、PQCにおける絡み合いの役割を理論的に解析するための実用的なツールを提供する。

In the noisy intermediate-scale quantum (NISQ) era, quantum devices face significant limitations. Variational quantum algorithms (VQAs) are promising solutions, but their performance heavily depends on the parameterized quantum circuits (PQCs) they utilize. The entanglement of PQCs is an important metric for constructing PQCs. This is because entanglement is not only a key property that distinguishes quantum from classical computing, but it also affects the computational performance of VQAs. However, due to the extensive quantum state sampling required, its computational cost is very high. To address this challenge, we propose a machine learning framework that utilizes a long short-term memory (LSTM) model and gate encoding technology to predict the entangling capability of PQCs. By encoding PQCs into matrix sequences via gate encoding technology and feeding them into an LSTM model at different time steps, our method effectively simulates quantum dynamic evolution. We trained the LSTM model on a dataset of random PQCs. For testing scenarios, our model achieved a pearson correlation coefficient (Pc) of 0.9791 and an root mean square error (RMSE) of 0.05, demonstrating high prediction accuracy and validating the framework's effectiveness. This approach significantly reduces the entanglement computational cost associated with sampling quantum states and provides a practical tool for designing PQC structures and theoretically analyzing the role of entanglement in PQCs.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 長期対話における因果知覚のための微調整位置ずれ

Position Debiasing Fine-Tuning for Causal Perception in Long-Term Dialogue ( http://arxiv.org/abs/2406.02002v1 )

ライセンス: Link先を確認
Shixuan Fan, Wei Wei, Wendi Li, Xian-Ling Mao, Wenfeng Xie, Dangyang Chen, (参考訳) 対話システムの中核は、広範囲な対話履歴に基づいて、関連性、情報的、人間的な応答を生成することである。 近年,対話生成領域では,発話生成能力の強い大規模言語モデル(LLM)が主流となっている。 しかし、そのようなモデルには自然な欠陥があり、すなわち位置バイアスは、因果関係のあるものではなく、近隣の発話により多くの注意を払って、長期的な対話において無関係で一般的な応答を生じさせる可能性がある。 そこで本研究では、摂動に基づく因果変数探索法を用いて、対話履歴からカジュアルに関連のある発声を抽出し、微調整時のモデル因果認識を強化する、Causal Perception Long-term Dialogue framework (CPD) という新しい手法を提案する。 具体的には,CPDにおける係り受け位置相関除去のための局所位置認識手法を提案し,摂動に基づく因果関係発話の抽出を支援する。 そこで, カジュアル・パーセプションの微調整戦略を提案し, 応答生成に因果的・非因果的・因果的を異なる摂動によって因果的不変因子を発見する能力を高める。 2つのデータセットに対する実験結果から,提案手法は複数のLCMの位置バイアスを効果的に軽減し,既存のベースラインと比較して大きな進歩を達成できることが示された。

The core of the dialogue system is to generate relevant, informative, and human-like responses based on extensive dialogue history. Recently, dialogue generation domain has seen mainstream adoption of large language models (LLMs), due to its powerful capability in generating utterances. However, there is a natural deficiency for such models, that is, inherent position bias, which may lead them to pay more attention to the nearby utterances instead of causally relevant ones, resulting in generating irrelevant and generic responses in long-term dialogue. To alleviate such problem, in this paper, we propose a novel method, named Causal Perception long-term Dialogue framework (CPD), which employs perturbation-based causal variable discovery method to extract casually relevant utterances from the dialogue history and enhances model causal perception during fine-tuning. Specifically, a local-position awareness method is proposed in CPD for inter-sentence position correlation elimination, which helps models extract causally relevant utterances based on perturbations. Then, a casual-perception fine-tuning strategy is also proposed, to enhance the capability of discovering the causal invariant factors, by differently perturbing causally relevant and non-casually relevant ones for response generation. Experimental results on two datasets prove that our proposed method can effectively alleviate the position bias for multiple LLMs and achieve significant progress compared with existing baselines.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# コア毎のクリッピングによる低メモリ化と性能向上を効果的に訓練するASRモデル

Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping ( http://arxiv.org/abs/2406.02004v1 )

ライセンス: Link先を確認
Lun Wang, Om Thakkar, Zhong Meng, Nicole Rafidi, Rohit Prabhavalkar, Arun Narayanan, (参考訳) グラディエント・クリッピングは、大規模自動音声認識(ASR)モデルの訓練において重要な役割を果たす。 一般的には、勾配の爆発を防ぐためのミニバッチ勾配や、意図しない暗記を緩和するために個々のサンプル勾配に適用される。 この研究は、幅広いASRモデルのトレーニングにおいて、勾配クリッピングの特定の粒度、すなわちコアごとのクリッピング(PCC)の影響を体系的に調査する。 我々は,PCCがASRモデルにおける意図しない記憶を効果的に緩和できることを実証的に実証した。 驚くべきことに、PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の低減につながっている。 さらに,PCCが導入したハイパーパラメータの調整を避けるため,並列化最適化のための新しい変種アダプティブ・パー・コア・クリッピング(APCC)を提案する。 本研究は,PCCの多面的メリットを,堅牢でプライバシ・フォワードなASRモデルトレーニングの戦略として強調した。

Gradient clipping plays a vital role in training large-scale automatic speech recognition (ASR) models. It is typically applied to minibatch gradients to prevent gradient explosion, and to the individual sample gradients to mitigate unintended memorization. This work systematically investigates the impact of a specific granularity of gradient clipping, namely per-core clip-ping (PCC), across training a wide range of ASR models. We empirically demonstrate that PCC can effectively mitigate unintended memorization in ASR models. Surprisingly, we find that PCC positively influences ASR performance metrics, leading to improved convergence rates and reduced word error rates. To avoid tuning the additional hyperparameter introduced by PCC, we further propose a novel variant, adaptive per-core clipping (APCC), for streamlined optimization. Our findings highlight the multifaceted benefits of PCC as a strategy for robust, privacy-forward ASR model training.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 最適化のためのODEベースの学習

ODE-based Learning to Optimize ( http://arxiv.org/abs/2406.02006v1 )

ライセンス: Link先を確認
Zhonglin Xie, Wotao Yin, Zaiwen Wen, (参考訳) 近年、通常の微分方程式(ODE)のレンズを通して加速法を理解することへの関心が高まっている。 理論的な進歩にもかかわらず、連続時間モデルで観測される急激な収束を離散時間反復法に変換することは大きな課題となる。 本稿では,慣性系をヘッセン駆動制振方程式(ISHD)と統合した包括的枠組みと,理論的洞察の深い相乗効果による最適化手法開発のための学習に基づくアプローチを提案する。 まず、ISHDの解軌道の収束を保証する収束条件を確立する。 次に,ISHDの係数に関する他の緩和条件である安定性条件を条件として,ISHDの明示的なオイラー離散化によって生成されるシーケンスが収束し,実用的な最適化手法が多数存在することを示す。 特定の問題に対して最適な最適化手法を選択するために,ISHDから派生した最適化手法が予め定義された準最適レベルを達成するのに必要な停止時間と時間を導入する。 そこで,本研究では,収束と安定条件を考慮した停止時間を最小化することを目的とした,L2O(L2O)問題を最適化するための新しい学習法を定式化する。 そこで本研究では,確率的最適化とペナルティ法(StoPM)を組み合わせたアルゴリズムを提案する。 保守勾配を用いたStoPMの収束性を実証した。 本フレームワークの実証検証は,多種多様な最適化問題に対する広範な数値実験を通じて行われる。 これらの実験は、学習した最適化手法の優れた性能を示す。

Recent years have seen a growing interest in understanding acceleration methods through the lens of ordinary differential equations (ODEs). Despite the theoretical advancements, translating the rapid convergence observed in continuous-time models to discrete-time iterative methods poses significant challenges. In this paper, we present a comprehensive framework integrating the inertial systems with Hessian-driven damping equation (ISHD) and learning-based approaches for developing optimization methods through a deep synergy of theoretical insights. We first establish the convergence condition for ensuring the convergence of the solution trajectory of ISHD. Then, we show that provided the stability condition, another relaxed requirement on the coefficients of ISHD, the sequence generated through the explicit Euler discretization of ISHD converges, which gives a large family of practical optimization methods. In order to select the best optimization method in this family for certain problems, we introduce the stopping time, the time required for an optimization method derived from ISHD to achieve a predefined level of suboptimality. Then, we formulate a novel learning to optimize (L2O) problem aimed at minimizing the stopping time subject to the convergence and stability condition. To navigate this learning problem, we present an algorithm combining stochastic optimization and the penalty method (StoPM). The convergence of StoPM using the conservative gradient is proved. Empirical validation of our framework is conducted through extensive numerical experiments across a diverse set of optimization problems. These experiments showcase the superior performance of the learned optimization methods.
翻訳日:2024-06-05 17:50:34 公開日:2024-06-04
# 音声合成のための音声強調言語モデリング

Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis ( http://arxiv.org/abs/2406.02009v1 )

ライセンス: Link先を確認
Kun Zhou, Shengkui Zhao, Yukun Ma, Chong Zhang, Hao Wang, Dianwen Ng, Chongjia Ni, Nguyen Trung Hieu, Jia Qi Yip, Bin Ma, (参考訳) 最近の言語モデルに基づくTTS(Text-to-Speech)フレームワークは、スケーラビリティとコンテキスト内学習能力を実証している。 しかし, 自己回帰型言語モデリングにおける音声単位予測における誤りの蓄積により, 頑健性に悩まされる。 本稿では,TSモデルの性能向上のための音素拡張言語モデリング手法を提案する。 我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。 その後、非自己回帰モデルを用いて、きめ細かい音響の詳細を含む離散音響コーデックを予測する。 TTSモデルは、自己回帰訓練中の言語モデルにのみ焦点をあて、非自己回帰訓練で発生する誤りの伝播を減らす。 客観評価と主観評価の両方が提案手法の有効性を検証した。

Recent language model-based text-to-speech (TTS) frameworks demonstrate scalability and in-context learning capabilities. However, they suffer from robustness issues due to the accumulation of errors in speech unit predictions during autoregressive language modeling. In this paper, we propose a phonetic enhanced language modeling method to improve the performance of TTS models. We leverage self-supervised representations that are phonetically rich as the training target for the autoregressive language model. Subsequently, a non-autoregressive model is employed to predict discrete acoustic codecs that contain fine-grained acoustic details. The TTS model focuses solely on linguistic modeling during autoregressive training, thereby reducing the error propagation that occurs in non-autoregressive training. Both objective and subjective evaluations validate the effectiveness of our proposed method.
翻訳日:2024-06-05 17:40:42 公開日:2024-06-04
# Androidアプリケーションにおけるネイティブコード脆弱性のリスク推定に関する研究

A Risk Estimation Study of Native Code Vulnerabilities in Android Applications ( http://arxiv.org/abs/2406.02011v1 )

ライセンス: Link先を確認
Silvia Lucia Sanna, Diego Soi, Davide Maiorca, Giorgio Fumera, Giorgio Giacinto, (参考訳) Androidは世界中のモバイルデバイスで最も使われているオペレーティングシステムであり、毎日何十万ものアプリがダウンロードされている。 これらのアプリは主としてJavaとKotlinで書かれているが、グラフィックや暗号といった高度な機能はネイティブのC/C++ライブラリを通じて提供される。 これらのライブラリは、C/C++コードの一般的な脆弱性(例えば、バッファオーバーフローのようなメモリエラー)に影響され、攻撃者がデータを読み取り、修正したり、任意のコードを実行することができる。 Androidネイティブコードの脆弱性の検出と評価は、最近の研究でのみ行われた。 本稿では,Androidアプリケーションのネイティブな部分に関連するリスクスコアを提供する,高速なリスクベースのアプローチを提案する。 このようにして、アプリがリリースされる前に、開発者は、アプリがネイティブコードに脆弱性を含んでいるかどうかをチェックでき、もし存在するなら、よりセキュアなアプリケーションをパブリッシュするためにパッチをパッチする。 この目的のために、我々はまず高速な正規表現を使用してライブラリのバージョンと脆弱性のある機能を検出する。 次に,脆弱性データベースから抽出したスコアを解析対象アプリケーションに適用し,アプリケーション全体のリスクスコアを求める。 10万ドルあまりのアプリケーション(ネイティブコードを含むのはわずか40$%)と、既知の脆弱性を持つ15ドルの人気ライブラリに対して、大規模な分析を行うことで、このアプローチの有効性を実証する。 得られた結果は、多くのアプリケーションが悪用される可能性のある、よく知られた脆弱性を含んでおり、Androidアプリケーション全体のセキュリティに深刻な懸念を抱いていることを示している。

Android is the most used Operating System worldwide for mobile devices, with hundreds of thousands of apps downloaded daily. Although these apps are primarily written in Java and Kotlin, advanced functionalities such as graphics or cryptography are provided through native C/C++ libraries. These libraries can be affected by common vulnerabilities in C/C++ code (e.g., memory errors such as buffer overflow), through which attackers can read/modify data or execute arbitrary code. The detection and assessment of vulnerabilities in Android native code have only been recently explored by previous research work. In this paper, we propose a fast risk-based approach that provides a risk score related to the native part of an Android application. In this way, before an app is released, the developer can check if the app may contain vulnerabilities in the Native Code and, if present, patch them to publish a more secure application. To this end, we first use fast regular expressions to detect library versions and possible vulnerable functions. Then, we apply scores extracted from a vulnerability database to the analyzed application, thus obtaining a risk score representative of the whole app. We demonstrate the validity of our approach by performing a large-scale analysis on more than $100,000$ applications (but only $40\%$ contained native code) and $15$ popular libraries carrying known vulnerabilities. The attained results show that many applications contain well-known vulnerabilities that miscreants can potentially exploit, posing serious concerns about the security of the whole Android applications landscape.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# 意思決定者としてのMamba:オフライン強化学習におけるマルチスケールシーケンスモデリングの探索

Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning ( http://arxiv.org/abs/2406.02013v1 )

ライセンス: Link先を確認
Jiahang Cao, Qiang Zhang, Ziqing Wang, Jiaxu Wang, Hao Cheng, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu, (参考訳) 逐次モデリングはオフライン強化学習(RL)において顕著な能力を示しており、決定変換器(DT)は最も顕著な代表者の一人であり、大きな成功を収めている。 しかしながら、RLトラジェクトリは、従来のシーケンス(例えば、テキストや音声)と区別される独自の特性を持っている: 1)RLの次の状態が、マルコフ決定過程(MDP)に基づく現在の状態と行動のみによって理論的に決定される局所的相関、(2)グローバル的相関、そして、各ステップの特徴が、トラジェクトリの時間的連続性に起因する長期的な歴史的情報に関連付けられている。 本稿では,Mamba Decision Maker (MambaDM) と呼ばれる新しいアクションシーケンス予測器を提案する。 特に,入力シーケンスのグローバルな特徴とローカルな特徴を巧みに抽出し,統合する新しいミキサーモジュールを導入し,RLデータセットの相互関係を効果的に捉える。 大規模な実験により、MambaDMはAtariとOpenAI Gymデータセットで最先端のパフォーマンスを達成した。 さらに,MambaDMのスケーリング法則を実証的に検討し,モデルサイズの増加は性能改善をもたらすものではないが,MambaDMのデータセット量を2倍に拡張することで,Atariデータセットのスコア改善率を最大33.7%向上させることができることを示した。 本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。 私たちのコードはhttps://github.com/AndyCao1125/MambaDMで公開されます。

Sequential modeling has demonstrated remarkable capabilities in offline reinforcement learning (RL), with Decision Transformer (DT) being one of the most notable representatives, achieving significant success. However, RL trajectories possess unique properties to be distinguished from the conventional sequence (e.g., text or audio): (1) local correlation, where the next states in RL are theoretically determined solely by current states and actions based on the Markov Decision Process (MDP), and (2) global correlation, where each step's features are related to long-term historical information due to the time-continuous nature of trajectories. In this paper, we propose a novel action sequence predictor, named Mamba Decision Maker (MambaDM), where Mamba is expected to be a promising alternative for sequence modeling paradigms, owing to its efficient modeling of multi-scale dependencies. In particular, we introduce a novel mixer module that proficiently extracts and integrates both global and local features of the input sequence, effectively capturing interrelationships in RL datasets. Extensive experiments demonstrate that MambaDM achieves state-of-the-art performance in Atari and OpenAI Gym datasets. Furthermore, we empirically investigate the scaling laws of MambaDM, finding that increasing model size does not bring performance improvement, but scaling the dataset amount by 2x for MambaDM can obtain up to 33.7% score improvement on Atari dataset. This paper delves into the sequence modeling capabilities of MambaDM in the RL domain, paving the way for future advancements in robust and efficient decision-making systems. Our code will be available at https://github.com/AndyCao1125/MambaDM.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# 物理インフォームド・エンベディングネットワークを用いたマルチタスク変換器を用いた聴覚誘発脳信号の理解

Understanding Auditory Evoked Brain Signal via Physics-informed Embedding Network with Multi-Task Transformer ( http://arxiv.org/abs/2406.02014v1 )

ライセンス: Link先を確認
Wanli Ma, Xuegang Tang, Jin Gu, Ying Wang, Yuling Xia, (参考訳) 脳とコンピュータの相互作用と認知神経科学の分野では、タスクベースの機能的磁気共鳴画像(fMRI)から聴覚信号の効果的な復号化が、脳が複雑な聴覚情報をどのように処理するかを理解する鍵となる。 既存の手法ではデコード機能が強化されているが、情報利用やモデル表現に制限が残っている。 これらの課題を克服するために,本研究では,物理インフォームド埋め込みと深層学習によるデコード性能を向上させる,革新的なマルチタスク学習モデルであるPhysor-informed Embedding Network with Multi-Task Transformer (PEMT-Net)を提案する。 PEMT-Netは機能拡張と分類の2つの主要コンポーネントで構成されている。 機能拡張のために,ノード埋め込みによるニューラル埋め込みグラフを作成し,ランダムウォークを利用してニューラルネットワークの物理的拡散をシミュレートする手法を提案する。 本手法は,局所的および非局所的な情報オーバーフローを捕捉し,相対的な物理座標に基づく位置符号化を提案する。 分類セグメントでは,線形および非線形特性を最大に捉えるために,適応的な埋め込み融合を提案する。 さらに,抽出した特徴の保持と学習を最適化する,革新的なパラメータ共有機構を提案する。 特定のデータセットの実験では、PEMT-Netがマルチタスクの聴覚信号デコードにおいて重要なパフォーマンスを示し、既存の手法を超越し、複雑な聴覚情報を処理する脳のメカニズムに関する新たな洞察を提供する。

In the fields of brain-computer interaction and cognitive neuroscience, effective decoding of auditory signals from task-based functional magnetic resonance imaging (fMRI) is key to understanding how the brain processes complex auditory information. Although existing methods have enhanced decoding capabilities, limitations remain in information utilization and model representation. To overcome these challenges, we propose an innovative multi-task learning model, Physics-informed Embedding Network with Multi-Task Transformer (PEMT-Net), which enhances decoding performance through physics-informed embedding and deep learning techniques. PEMT-Net consists of two principal components: feature augmentation and classification. For feature augmentation, we propose a novel approach by creating neural embedding graphs via node embedding, utilizing random walks to simulate the physical diffusion of neural information. This method captures both local and non-local information overflow and proposes a position encoding based on relative physical coordinates. In the classification segment, we propose adaptive embedding fusion to maximally capture linear and non-linear characteristics. Furthermore, we propose an innovative parameter-sharing mechanism to optimize the retention and learning of extracted features. Experiments on a specific dataset demonstrate PEMT-Net's significant performance in multi-task auditory signal decoding, surpassing existing methods and offering new insights into the brain's mechanisms for processing complex auditory information.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# 再現可能な研究のための連立連続学習のパラメータ化

Parameterizing Federated Continual Learning for Reproducible Research ( http://arxiv.org/abs/2406.02015v1 )

ライセンス: Link先を確認
Bart Cox, Jeroen Galjaard, Aditya Shankar, Jérémie Decouchant, Lydia Y. Chen, (参考訳) フェデレートラーニング(FL)システムは、不均一で進化し続ける環境の中で進化し、パフォーマンスに挑戦する。 実際のデプロイメントでは、クライアントの学習タスクも時間とともに進化し、継続的な学習のような方法論の統合が求められます。 そこで本研究では,複雑な学習シナリオを正確にキャプチャし,エミュレートする実験的ベストプラクティスを提案する。 私たちのフレームワークであるFreddieは、フェデレートされた継続的学習(FCL)のための、初めて完全に構成可能なフレームワークです。 二つのユースケースにおけるFreddieの有効性を実証する。 (i)CIFAR100上の大規模FL (II) FCLにおける不均一なタスクシーケンスは、FCLシナリオにおける非適応的なパフォーマンス課題を浮き彫りにする。

Federated Learning (FL) systems evolve in heterogeneous and ever-evolving environments that challenge their performance. Under real deployments, the learning tasks of clients can also evolve with time, which calls for the integration of methodologies such as Continual Learning. To enable research reproducibility, we propose a set of experimental best practices that precisely capture and emulate complex learning scenarios. Our framework, Freddie, is the first entirely configurable framework for Federated Continual Learning (FCL), and it can be seamlessly deployed on a large number of machines thanks to the use of Kubernetes and containerization. We demonstrate the effectiveness of Freddie on two use cases, (i) large-scale FL on CIFAR100 and (ii) heterogeneous task sequence on FCL, which highlight unaddressed performance challenges in FCL scenarios.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# 最小値最適化のための適応的および最適二階最適化法

Adaptive and Optimal Second-order Optimistic Methods for Minimax Optimization ( http://arxiv.org/abs/2406.02016v1 )

ライセンス: Link先を確認
Ruichen Jiang, Ali Kavis, Qiujiang Jin, Sujay Sanghavi, Aryan Mokhtari, (参考訳) コンベックス・コンケーブ min-max 問題の解法として最適収束率を持つ適応線形探索自由二階法を提案する。 適応的なステップサイズにより、我々のアルゴリズムは、1イテレーションごとに1つの線形システムだけを解決し、行探索やバックトラッキング機構の不要な単純な更新ルールを特徴としている。 具体的には,アルゴリズムを楽観的手法に基づいて2次情報と適切に組み合わせる。 さらに、一般的な適応スキームと異なり、楽観的な更新において、ステップサイズを勾配ノルムと予測誤差の関数として再帰的に定義する。 まず、ステップサイズがヘッセンのリプシッツ定数の知識を必要とする変種を解析する。 リプシッツ連続勾配のさらなる仮定の下で、ヘッセン・リプシッツ定数を局所的に追跡し、イテレートが有界であることを保証することにより、パラメータフリー版をさらに設計する。 また,提案アルゴリズムの実用性能を,既存の2次アルゴリズムと比較して評価した。

We propose adaptive, line search-free second-order methods with optimal rate of convergence for solving convex-concave min-max problems. By means of an adaptive step size, our algorithms feature a simple update rule that requires solving only one linear system per iteration, eliminating the need for line search or backtracking mechanisms. Specifically, we base our algorithms on the optimistic method and appropriately combine it with second-order information. Moreover, distinct from common adaptive schemes, we define the step size recursively as a function of the gradient norm and the prediction error in the optimistic update. We first analyze a variant where the step size requires knowledge of the Lipschitz constant of the Hessian. Under the additional assumption of Lipschitz continuous gradients, we further design a parameter-free version by tracking the Hessian Lipschitz constant locally and ensuring the iterates remain bounded. We also evaluate the practical performance of our algorithm by comparing it to existing second-order algorithms for minimax optimization.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# ランゲヴィンダイナミクスのモード探索特性について

On the Mode-Seeking Properties of Langevin Dynamics ( http://arxiv.org/abs/2406.02017v1 )

ライセンス: Link先を確認
Xiwei Cheng, Kexin Fu, Farzan Farnia, (参考訳) 確率分布のスコア関数からサンプルを生成することを目的としたLangevin Dynamicsフレームワークは、スコアベース生成モデルの解析と解釈に広く利用されている。 ランゲヴィン・ダイナミクスの単調分布下での収束挙動は文献で広く研究されているが、実際にはデータ分布は複数の異なるモードから構成される可能性がある。 本研究では,マルチモーダル分布からのサンプル生成におけるLangevin Dynamicsについて検討し,そのモード探索特性について理論的に検討する。 種々のガウス混合の下では、ランゲヴィン・ダイナミクスはデータ次元において、全ての混合成分を指数以下のステップ数で見つけることは不可能である。 本稿では,Langevin Dynamicsのモード探索傾向を低減するために,データベクトルを一定サイズのパッチに分割し,前回のパッチで逐次条件付きパッチを生成するChained Langevin Dynamicsを提案する。 定次元分布からのサンプリングに還元することで,連鎖ランゲヴィンダイナミクスの理論解析を行う。 本稿では,合成および実画像データセットに関する数値実験を行い,鎖状およびバニラランゲヴィンダイナミクスを用いた混合分布からのサンプル生成の繰り返し複雑度に関する理論的結果を示す。 コードはhttps://github.com/Xiwei-Cheng/Chained_LDで公開されている。

The Langevin Dynamics framework, which aims to generate samples from the score function of a probability distribution, is widely used for analyzing and interpreting score-based generative modeling. While the convergence behavior of Langevin Dynamics under unimodal distributions has been extensively studied in the literature, in practice the data distribution could consist of multiple distinct modes. In this work, we investigate Langevin Dynamics in producing samples from multimodal distributions and theoretically study its mode-seeking properties. We prove that under a variety of sub-Gaussian mixtures, Langevin Dynamics is unlikely to find all mixture components within a sub-exponential number of steps in the data dimension. To reduce the mode-seeking tendencies of Langevin Dynamics, we propose Chained Langevin Dynamics, which divides the data vector into patches of constant size and generates every patch sequentially conditioned on the previous patches. We perform a theoretical analysis of Chained Langevin Dynamics by reducing it to sampling from a constant-dimensional distribution. We present the results of several numerical experiments on synthetic and real image datasets, supporting our theoretical results on the iteration complexities of sample generation from mixture distributions using the chained and vanilla Langevin Dynamics. The code is available at https://github.com/Xiwei-Cheng/Chained_LD.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# なぜそれを提案するのか? 言語モデルに対する人間の信頼

Why Would You Suggest That? Human Trust in Language Model Responses ( http://arxiv.org/abs/2406.02018v1 )

ライセンス: Link先を確認
Manasi Sharma, Ho Chit Siu, Rohan Paleja, Jaime D. Peña, (参考訳) 大規模言語モデル(LLM)の出現は、特に信頼と信頼が最重要である創造的な意思決定シナリオにおいて、人間とAIのコラボレーションの必要性が高まっていることを明らかにしている。 本研究では,LaMPベンチマークを用いたオープンエンドニュース見出し生成タスクの人間による研究とモデル評価を通じて,フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスに与える影響を分析する。 全体として、モデル応答に説明を加えて推論を正当化する証拠は、ユーザが様々な応答を比較する機会がある場合に、モデルに対する自己報告されたユーザ信頼を著しく増大させる。 これらの説明の位置と忠実性もまた重要な要素である。 しかし,ユーザが個別に反応を見せると,これらの利得は消失し,人間が独立して表示した場合に等しく,偽りを含むすべてのモデル応答を信頼する可能性が示唆された。 今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。

The emergence of Large Language Models (LLMs) has revealed a growing need for human-AI collaboration, especially in creative decision-making scenarios where trust and reliance are paramount. Through human studies and model evaluations on the open-ended News Headline Generation task from the LaMP benchmark, we analyze how the framing and presence of explanations affect user trust and model performance. Overall, we provide evidence that adding an explanation in the model response to justify its reasoning significantly increases self-reported user trust in the model when the user has the opportunity to compare various responses. Position and faithfulness of these explanations are also important factors. However, these gains disappear when users are shown responses independently, suggesting that humans trust all model responses, including deceptive ones, equitably when they are shown in isolation. Our findings urge future research to delve deeper into the nuanced evaluation of trust in human-machine teaming systems.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# MetaMixerは必要なものすべて

MetaMixer Is All You Need ( http://arxiv.org/abs/2406.02021v1 )

ライセンス: Link先を確認
Seokju Yun, Dongheon Lee, Youngmin Ro, (参考訳) Transformerは、自己注意とフィードフォワードネットワークで構成され、様々なビジョンタスクにわたるネットワークデザインの展望に革命をもたらした。 FFNは、リッチ表現を効果的に活用するために、ほぼすべてのAIモデルにシームレスに統合された汎用演算子である。 最近の研究は、FFNがキー値記憶のような機能を持っていることも示している。 このように、自己アテンション内のクエリキー値機構と同様に、FFNはメモリネットワークとして見ることができ、入力はクエリとして機能し、2つのプロジェクション重みはそれぞれキーと値として動作する。 我々は、クエリキー値フレームワーク自体が自己注意よりも重要であると仮定する。 これを検証するために,クエリキー値フレームワーク,すなわちFFNificationを維持しながら,畳み込みのみによるよりFFN的な効率的なトークンミキサに自己アテンションを変換することを提案する。 具体的には、FFNificationはクエリキーとアテンション係数-値の相互作用を大きなカーネル畳み込みに置き換え、ソフトマックスの代わりにGELUアクティベーション関数を採用する。 導出トークンミキサー(FFNified attention)は、局所的な分散空間パターンを検出するキー値メモリとして機能し、クエリキー-値フレームワークの各サブオペレーション内で、ConvNeXtブロックと反対次元で動作する。 上記の2つのモジュールに基づいて、ファストフォワードネットワークのファミリーを提示する。 我々のFFNetは、様々なタスクにわたる従来の最先端手法よりも顕著なパフォーマンス向上を実現しています。 提案手法の強大かつ一般的な性能は,我々の仮説を検証し,クエリキー値フレームワーク内でのサブオペレーションを規定しない一般ミキサーアーキテクチャであるMetaMixerを導入することにつながる。 畳み込みやGELUのような単純な操作のみをMetaMixerで使用すると、優れた性能が得られることを示す。

Transformer, composed of self-attention and Feed-Forward Network, has revolutionized the landscape of network design across various vision tasks. FFN is a versatile operator seamlessly integrated into nearly all AI models to effectively harness rich representations. Recent works also show that FFN functions like key-value memories. Thus, akin to the query-key-value mechanism within self-attention, FFN can be viewed as a memory network, where the input serves as query and the two projection weights operate as keys and values, respectively. We hypothesize that the importance lies in query-key-value framework itself rather than in self-attention. To verify this, we propose converting self-attention into a more FFN-like efficient token mixer with only convolutions while retaining query-key-value framework, namely FFNification. Specifically, FFNification replaces query-key and attention coefficient-value interactions with large kernel convolutions and adopts GELU activation function instead of softmax. The derived token mixer, FFNified attention, serves as key-value memories for detecting locally distributed spatial patterns, and operates in the opposite dimension to the ConvNeXt block within each corresponding sub-operation of the query-key-value framework. Building upon the above two modules, we present a family of Fast-Forward Networks. Our FFNet achieves remarkable performance improvements over previous state-of-the-art methods across a wide range of tasks. The strong and general performance of our proposed method validates our hypothesis and leads us to introduce MetaMixer, a general mixer architecture that does not specify sub-operations within the query-key-value framework. We show that using only simple operations like convolution and GELU in the MetaMixer can achieve superior performance.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# ShadowBound: 高度なメタデータ管理とカスタムコンパイラ最適化による効率的なヒープメモリ保護

ShadowBound: Efficient Heap Memory Protection Through Advanced Metadata Management and Customized Compiler Optimization ( http://arxiv.org/abs/2406.02023v1 )

ライセンス: Link先を確認
Zheng Yu, Ganxiang Yang, Xinyu Xing, (参考訳) ソフトウェア開発では、CやC++のような安全でない言語が普及しており、特にヒープ内では、動的メモリ割り当てのための重要なコンポーネントである潜在的な脆弱性が導入されている。 その重要性にもかかわらず、ヒープ管理の複雑さはヒープの汚職を広く浸透させ、システムのセキュリティに深刻な脅威をもたらしている。 時間的および空間的メモリ安全性を目標とする以前のソリューションでは、オーバーヘッドが非現実的と考えられる一方で、ユニークなヒープメモリ保護設計であるShadowBoundを提示する。 コアとなるShadowBoundは効率的なアウト・オブ・バウンド・ディフェンスであり、互換性の制約なしに様々な使用後フリーディフェンス(MarkUs、FFMalloc、PUMMなど)で動作することができる。 シャドーメモリベースのメタデータ管理機構を用いて,ヒープチャンク境界を格納し,境界チェックに適したコンパイラ最適化を適用する。 LLVMフレームワーク上にShadowBoundを実装し、最先端の3つの無防備を統合しました。 評価の結果,ShadowBoundは時間とメモリのオーバーヘッドを最小限に抑えた堅牢なヒープ保護を実現している。

In software development, the prevalence of unsafe languages such as C and C++ introduces potential vulnerabilities, especially within the heap, a pivotal component for dynamic memory allocation. Despite its significance, heap management complexities have made heap corruption pervasive, posing severe threats to system security. While prior solutions aiming for temporal and spatial memory safety exhibit overheads deemed impractical, we present ShadowBound, a unique heap memory protection design. At its core, ShadowBound is an efficient out-of-bounds defense that can work with various use-after-free defenses (e.g. MarkUs, FFMalloc, PUMM) without compatibility constraints. We harness a shadow memory-based metadata management mechanism to store heap chunk boundaries and apply customized compiler optimizations tailored for boundary checking. We implemented ShadowBound atop the LLVM framework and integrated three state-of-the-art use-after-free defenses. Our evaluations show that ShadowBound provides robust heap protection with minimal time and memory overhead, suggesting its effectiveness and efficiency in safeguarding real-world programs against prevalent heap vulnerabilities.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# ディープ・ラーニングのアウト・オブ・ディストリビューション領域への一般化の検証

Verifying the Generalization of Deep Learning to Out-of-Distribution Domains ( http://arxiv.org/abs/2406.02024v1 )

ライセンス: Link先を確認
Guy Amir, Osher Maayan, Tom Zelazny, Guy Katz, Michael Schapira, (参考訳) ディープラーニング(Deep Neural Network, DNN)は、機械学習の分野において重要な役割を担い、さまざまなアプリケーションドメインにわたる最先端のパフォーマンスを示す。 しかし、その成功にもかかわらず、DNNベースのモデルは時折一般化の難しさを示すことがある。 この制限は、安全なクリティカルなタスクのためのディープラーニングをデプロイする上で、大きな課題になります。 本稿では,DNN による決定ルールを識別するために,DNN 検証技術を活用する新しい手法を提案する。 本手法は,この領域における入力に対して,独立に訓練された深層ニューラルネットワーク間の一致度を測定することにより,入力領域内の一般化を評価する。 また、市販のDNN検証エンジンを用いて、我々のアプローチを効率よく実現し、インターネット混雑制御のための深層強化学習(DRL)システムを含む教師付きおよび教師なしのDNNベンチマークでこれを広範囲に評価し、我々のアプローチを実世界の設定に適用可能であることを示す。 さらに,本研究では,実世界のシナリオにおけるDNN駆動システムの展開に伴う課題を軽減し,形式検証の新たな目標を提案する。

Deep neural networks (DNNs) play a crucial role in the field of machine learning, demonstrating state-of-the-art performance across various application domains. However, despite their success, DNN-based models may occasionally exhibit challenges with generalization, i.e., may fail to handle inputs that were not encountered during training. This limitation is a significant challenge when it comes to deploying deep learning for safety-critical tasks, as well as in real-world settings characterized by substantial variability. We introduce a novel approach for harnessing DNN verification technology to identify DNN-driven decision rules that exhibit robust generalization to previously unencountered input domains. Our method assesses generalization within an input domain by measuring the level of agreement between independently trained deep neural networks for inputs in this domain. We also efficiently realize our approach by using off-the-shelf DNN verification engines, and extensively evaluate it on both supervised and unsupervised DNN benchmarks, including a deep reinforcement learning (DRL) system for Internet congestion control -- demonstrating the applicability of our approach for real-world settings. Moreover, our research introduces a fresh objective for formal verification, offering the prospect of mitigating the challenges linked to deploying DNN-driven systems in real-world scenarios.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# マシンラーニング・アズ・ア・サービスにおける推論攻撃 - 分類学、レビュー、予測の方向性

Inference Attacks in Machine Learning as a Service: A Taxonomy, Review, and Promising Directions ( http://arxiv.org/abs/2406.02027v1 )

ライセンス: Link先を確認
Feng Wu, Lei Cui, Shaowen Yao, Shui Yu, (参考訳) 機械学習の繁栄は、データのプライバシに関する人々の懸念も引き起こした。 中でも推論攻撃は、さまざまなMLaaSシナリオやモデルトレーニング/予測フェーズで、プライバシ侵害を実装することができる。 具体的には、推論攻撃は、統計、会員シップ、セマンティクス、データ表現などを含むターゲットモデルの出力に基づいて、未開示のターゲットトレーニングセットに対して、プライバシ推論を実行することができる。 例えば、ターゲットデータにAIDSの特性があるかどうかを推測する。 さらに、近年の機械学習コミュニティの急速な発展、特にモデルタイプやアプリケーションシナリオの急増は、推論攻撃の研究をさらに刺激している。 したがって、推論攻撃を研究し、それらを深く分析することは緊急かつ重要なことである。 しかし、分類学、世界的視点、攻撃、防衛の観点からの推論攻撃に関する体系的な議論には、まだギャップがある。 この調査は、分類学および最新の研究に基づくML-as-a-serviceにおける攻撃の詳細な包括的推測とそれに対応する対策を提供する。 研究者の直感を損なうことなく,まず,コミュニティ研究状況に基づく3MP分類法を提案する。 また、各種類の推論攻撃の長所と短所、ワークフロー、対策、およびそれらが他の攻撃とどのように相互作用するかを分析する。 最後に、より包括的で斬新な視点から研究者に有望な方向性をいくつか指摘する。

The prosperity of machine learning has also brought people's concerns about data privacy. Among them, inference attacks can implement privacy breaches in various MLaaS scenarios and model training/prediction phases. Specifically, inference attacks can perform privacy inference on undisclosed target training sets based on outputs of the target model, including but not limited to statistics, membership, semantics, data representation, etc. For instance, infer whether the target data has the characteristics of AIDS. In addition, the rapid development of the machine learning community in recent years, especially the surge of model types and application scenarios, has further stimulated the inference attacks' research. Thus, studying inference attacks and analyzing them in depth is urgent and significant. However, there is still a gap in the systematic discussion of inference attacks from taxonomy, global perspective, attack, and defense perspectives. This survey provides an in-depth and comprehensive inference of attacks and corresponding countermeasures in ML-as-a-service based on taxonomy and the latest researches. Without compromising researchers' intuition, we first propose the 3MP taxonomy based on the community research status, trying to normalize the confusing naming system of inference attacks. Also, we analyze the pros and cons of each type of inference attack, their workflow, countermeasure, and how they interact with other attacks. In the end, we point out several promising directions for researchers from a more comprehensive and novel perspective.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# マルチモーダル知識グラフを用いたマルチモーダル推論

Multimodal Reasoning with Multimodal Knowledge Graph ( http://arxiv.org/abs/2406.02030v1 )

ライセンス: Link先を確認
Junlin Lee, Yequan Wang, Jing Li, Min Zhang, (参考訳) 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚やLLM内の欠陥や時代遅れな知識の存在に悩まされることが多い。 テキストナレッジグラフを用いてこれらの問題を緩和しようとするアプローチもあるが、その特異な知識のモダリティは総合的なクロスモーダル理解を制限している。 本稿では,マルチモーダル知識グラフ(MMKG)を利用した多モーダル知識グラフを用いたマルチモーダル推論手法を提案する。 特に、MMKGの符号化に関係グラフアテンションネットワークを用い、画像テキストアライメントを最適化するクロスモーダルアライメントモジュールを設計する。 MMKGを基底としたデータセットは、事前学習によるマルチモーダル推論において、初期の専門知識を持つLLMを装備するために構築される。 注目すべきは、MR-MKG は LLM のパラメータの約 2.25% である少数のパラメータのみをトレーニングしながら、優れた性能を達成することである。 マルチモーダル質問応答とマルチモーダル類似推論タスクの実験結果から, MR-MKG法が従来の最先端モデルより優れていることが示された。

Multimodal reasoning with large language models (LLMs) often suffers from hallucinations and the presence of deficient or outdated knowledge within LLMs. Some approaches have sought to mitigate these issues by employing textual knowledge graphs, but their singular modality of knowledge limits comprehensive cross-modal understanding. In this paper, we propose the Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG) method, which leverages multimodal knowledge graphs (MMKGs) to learn rich and semantic knowledge across modalities, significantly enhancing the multimodal reasoning capabilities of LLMs. In particular, a relation graph attention network is utilized for encoding MMKGs and a cross-modal alignment module is designed for optimizing image-text alignment. A MMKG-grounded dataset is constructed to equip LLMs with initial expertise in multimodal reasoning through pretraining. Remarkably, MR-MKG achieves superior performance while training on only a small fraction of parameters, approximately 2.25% of the LLM's parameter size. Experimental results on multimodal question answering and multimodal analogy reasoning tasks demonstrate that our MR-MKG method outperforms previous state-of-the-art models.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# タイプベース変異型ジェネレータ

Generator-Based Fuzzers with Type-Based Targeted Mutation ( http://arxiv.org/abs/2406.02034v1 )

ライセンス: Link先を確認
Soha Hussein, Stephen McCamant, Mike Whalen, (参考訳) ファジィアと同様に、特定のコードターゲットに到達するためにジェネレータベースファジィア(GBF)を指示することで、ファジィアの有効性を高めることができる。 以前の研究では、カバレッジ誘導ファジィザは静的解析、テイント解析、制約解決アプローチを混合してこの問題に対処していた。 しかし、これらの技術は、入力ジェネレータを使用してプログラム入力を構築するGBFのために特に開発されなかった。 入力ジェネレータは、プログラム入力のタイピング構成を介して自然に存在する入力構造に関する情報を搬送する。 本稿では,Java GBF の文字列検索とともに,型ベースの突然変異ヒューリスティックを導入する。 私たちの重要な直感は、入力のどの部分(型)が分岐決定に影響を及ぼす可能性があるかを識別できるなら、これらの型を構成するジェネレータの選択を変更することに重点を置くことは、望ましいカバレッジを達成する可能性が高いということです。 当社のテクニックは,AWSLambdaアプリケーションをファッズするために使用しました。 ベースラインのGBFツールと比較すると、アプリケーションカバレッジが平均20倍改善され、サードパーティのコードを含める場合の大幅な改善が示されている。

As with any fuzzer, directing Generator-Based Fuzzers (GBF) to reach particular code targets can increase the fuzzer's effectiveness. In previous work, coverage-guided fuzzers used a mix of static analysis, taint analysis, and constraint-solving approaches to address this problem. However, none of these techniques were particularly crafted for GBF where input generators are used to construct program inputs. The observation is that input generators carry information about the input structure that is naturally present through the typing composition of the program input. In this paper, we introduce a type-based mutation heuristic, along with constant string lookup, for Java GBF. Our key intuition is that if one can identify which sub-part (types) of the input will likely influence the branching decision, then focusing on mutating the choices of the generators constructing these types is likely to achieve the desired coverages. We used our technique to fuzz AWSLambda applications. Results compared to a baseline GBF tool show an almost 20\% average improvement in application coverage, and larger improvements when third-party code is included.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# アクション・コンディション型自己予測強化学習のための統一フレームワーク

A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning ( http://arxiv.org/abs/2406.02035v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Zhaohan Daniel Guo, Bernardo Avila Pires, Yunhao Tang, Clare Lyle, Mark Rowland, Nicolas Heess, Diana Borsa, Arthur Guez, Will Dabney, (参考訳) 優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。 自己予測学習は、将来の潜伏表現(BYOL)からブートストラップすることで、潜伏表現と動的モデルを共同で学習する手段を提供する。 最近の研究は、アルゴリズムが固定ポリシー(BYOL-$\Pi$)に依存しているという仮定を単純化し、自己予測表現学習のための連続時間ODEモデルを研究することで、これらのアルゴリズムに関する理論的洞察を発達させてきた。 本研究では、ODEフレームワークを用いて行動条件自己予測目標(BYOL-AC)を解析し、その収束特性を特徴づけ、BYOL-$\Pi$とBYOL-ACの制限解間の重要な区別を強調することにより、理論と実践のギャップを埋める。 この2つの表現が分散方程式によってどのように関連しているかを示す。 この接続により、新しい分散様行動条件目的(BYOL-VAR)とその対応するODEが導かれる。 2つの相補レンズによる3つの目的の研究を統一し、各目的が特定のダイナミクスの低ランク近似と等価であることを示すモデルベース視点と、目的とそれぞれの値、Q-値、利点関数の関係を確立するモデルフリー視点とで統一する。 線形関数近似と深部RL環境の両方を包含した実証実験により,BYOL-ACは様々な環境において総合的に優れていることが示された。

Learning a good representation is a crucial challenge for Reinforcement Learning (RL) agents. Self-predictive learning provides means to jointly learn a latent representation and dynamics model by bootstrapping from future latent representations (BYOL). Recent work has developed theoretical insights into these algorithms by studying a continuous-time ODE model for self-predictive representation learning under the simplifying assumption that the algorithm depends on a fixed policy (BYOL-$\Pi$); this assumption is at odds with practical instantiations of such algorithms, which explicitly condition their predictions on future actions. In this work, we take a step towards bridging the gap between theory and practice by analyzing an action-conditional self-predictive objective (BYOL-AC) using the ODE framework, characterizing its convergence properties and highlighting important distinctions between the limiting solutions of the BYOL-$\Pi$ and BYOL-AC dynamics. We show how the two representations are related by a variance equation. This connection leads to a novel variance-like action-conditional objective (BYOL-VAR) and its corresponding ODE. We unify the study of all three objectives through two complementary lenses; a model-based perspective, where each objective is shown to be equivalent to a low-rank approximation of certain dynamics, and a model-free perspective, which establishes relationships between the objectives and their respective value, Q-value, and advantage function. Our empirical investigations, encompassing both linear function approximation and Deep RL environments, demonstrates that BYOL-AC is better overall in a variety of different settings.
翻訳日:2024-06-05 17:40:41 公開日:2024-06-04
# 赤外線小ターゲット検出のためのマルチスケール方向認識ネットワーク

Multi-Scale Direction-Aware Network for Infrared Small Target Detection ( http://arxiv.org/abs/2406.02037v1 )

ライセンス: Link先を確認
Jinmiao Zhao, Zelin Shi, Chuang Yu, Yunpeng Liu, (参考訳) 赤外小目標検出は、背景とターゲットを効果的に分離することが難しい問題に直面している。 既存のディープラーニングベースの手法は、外観特徴に焦点をあて、高周波指向性を無視する。 そこで本研究では、ニューラルネットワークに先立つ領域知識として、赤外線小ターゲットの高周波指向性機能を統合するためのマルチスケール指向ネットワーク(MSDA-Net)を提案する。 具体的には、ターゲットの事前知識を十分に活用し、高周波指向性に重点を置く、革新的な多方向特徴認識モジュール(MDFA)を構築している。 マルチスケール局所関係学習(MLRL)モジュールと組み合わせて,マルチスケール方向認識(MSDA)モジュールをさらに構築する。 MSDAモジュールは、異なるスケールでの局所的な関係の完全な抽出と、異なる方向における重要な特徴の完全な認識を促進する。 一方、トレーニングパラメータのない高周波方向注入(HFDI)モジュールを構築し、元の画像の高周波方向情報をネットワークに注入する。 これにより、ネットワークはターゲットエッジや形状といった詳細な情報に注意を払うことができる。 さらに,複数レベルの特徴を集約して,より深い特徴マップで消失する小さなターゲットの問題を解決する機能集約(FA)構造を提案する。 さらに、マルチレベルの特徴マップ融合に存在する画素オフセットを効果的に緩和できる軽量な特徴アライメント融合(FAF)モジュールを構築する。 我々のMSDA-Netは、パブリックNUDT-SIRST、SIRST、IRSTD-1kデータセットに対して、最先端のSOTA(State-of-the-art)を達成している。

Infrared small target detection faces the problem that it is difficult to effectively separate the background and the target. Existing deep learning-based methods focus on appearance features and ignore high-frequency directional features. Therefore, we propose a multi-scale direction-aware network (MSDA-Net), which is the first attempt to integrate the high-frequency directional features of infrared small targets as domain prior knowledge into neural networks. Specifically, an innovative multi-directional feature awareness (MDFA) module is constructed, which fully utilizes the prior knowledge of targets and emphasizes the focus on high-frequency directional features. On this basis, combined with the multi-scale local relation learning (MLRL) module, a multi-scale direction-aware (MSDA) module is further constructed. The MSDA module promotes the full extraction of local relations at different scales and the full perception of key features in different directions. Meanwhile, a high-frequency direction injection (HFDI) module without training parameters is constructed to inject the high-frequency directional information of the original image into the network. This helps guide the network to pay attention to detailed information such as target edges and shapes. In addition, we propose a feature aggregation (FA) structure that aggregates multi-level features to solve the problem of small targets disappearing in deep feature maps. Furthermore, a lightweight feature alignment fusion (FAF) module is constructed, which can effectively alleviate the pixel offset existing in multi-level feature map fusion. Extensive experimental results show that our MSDA-Net achieves state-of-the-art (SOTA) results on the public NUDT-SIRST, SIRST and IRSTD-1k datasets.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# シーングラフ生成のための述語とトリプレット学習の活用

Leveraging Predicate and Triplet Learning for Scene Graph Generation ( http://arxiv.org/abs/2406.02038v1 )

ライセンス: Link先を確認
Jiankai Li, Yunhong Wang, Xiefan Guo, Ruijie Yang, Weixin Li, (参考訳) SGG(Scene Graph Generation)は、視覚的なシーンにおいて、エンティティを識別し、関係トリプレット \textit{\textless subject, predicate, object\textgreater } を予測することを目的としている。 同じ述語でも対象と対象のペアの大きな視覚的変動の頻度を考えると、そのようなペア間で直接述語表現をモデル化・洗練することは極めて困難であり、しかしながら、既存のSGG法で採用されている一般的な戦略である。 同一の3重項内の視覚的変化は比較的小さく、同一の3重項で特定の関係キューが共有されていることが観察され、SGGにおける関係学習が促進される可能性が示唆された。 さらに,SGGタスクで広く研究されている長尾問題に対しては,尾部述語における三つ子の種類や量に制限を加えることも重要である。 そこで本稿では,大きめの述語に加えて,細粒度三重項キューを利用するためのDRM(Dual-granularity Relation Modeling)ネットワークを提案する。 DRMは2つの視点からコンパクトでバランスの取れた表現を生成し、関係認識を容易にする。 さらに、頭部述語/トリップレットから尾部への変化を伝達するDKT(Dual-granularity Knowledge Transfer)戦略を導入し、尾部のパターンの多様性を強化し、尾部の問題を緩和する。 広汎な実験により,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する手法の有効性が実証された。 私たちのコードは \url{https://github.com/jkli1998/DRM} で利用可能です。

Scene Graph Generation (SGG) aims to identify entities and predict the relationship triplets \textit{\textless subject, predicate, object\textgreater } in visual scenes. Given the prevalence of large visual variations of subject-object pairs even in the same predicate, it can be quite challenging to model and refine predicate representations directly across such pairs, which is however a common strategy adopted by most existing SGG methods. We observe that visual variations within the identical triplet are relatively small and certain relation cues are shared in the same type of triplet, which can potentially facilitate the relation learning in SGG. Moreover, for the long-tail problem widely studied in SGG task, it is also crucial to deal with the limited types and quantity of triplets in tail predicates. Accordingly, in this paper, we propose a Dual-granularity Relation Modeling (DRM) network to leverage fine-grained triplet cues besides the coarse-grained predicate ones. DRM utilizes contexts and semantics of predicate and triplet with Dual-granularity Constraints, generating compact and balanced representations from two perspectives to facilitate relation recognition. Furthermore, a Dual-granularity Knowledge Transfer (DKT) strategy is introduced to transfer variation from head predicates/triplets to tail ones, aiming to enrich the pattern diversity of tail classes to alleviate the long-tail problem. Extensive experiments demonstrate the effectiveness of our method, which establishes new state-of-the-art performance on Visual Genome, Open Image, and GQA datasets. Our code is available at \url{https://github.com/jkli1998/DRM}
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# DFA-GNN:直接フィードバックアライメントによるグラフニューラルネットワークの前方学習

DFA-GNN: Forward Learning of Graph Neural Networks by Direct Feedback Alignment ( http://arxiv.org/abs/2406.02040v1 )

ライセンス: Link先を確認
Gongpei Zhao, Tao Wang, Congyan Lang, Yi Jin, Yidong Li, Haibin Ling, (参考訳) グラフニューラルネットワークは、多くのGNNモデルの開発において、バックプロパゲーションアルゴリズムが中心的な役割を果たすなど、さまざまなアプリケーション間での強力なパフォーマンスで認識されている。 しかし、その効果にもかかわらず、BPはその生物学的な妥当性に挑戦し、グラフベースのタスクのためにニューラルネットワークをトレーニングする際の効率、スケーラビリティ、並列性に影響を与える制限がある。 直接フィードバックアライメントのようないくつかの非BPトレーニングアルゴリズムはユークリッドデータを扱うための完全接続および畳み込みネットワークコンポーネントにうまく適用されているが、非BPフレームワークを直接適用して非ユークリッドグラフデータをGNNモデルで管理することは重大な課題である。 これらの課題は、主にグラフデータにおけるi.d.仮定の違反と、グラフ内のすべてのサンプル(ノード)の予測エラーにアクセスすることの難しさから生じる。 本稿では,これらの障害を克服するために,半教師付き学習を事例として,GNNに適した新しい前方学習フレームワークであるDFA-GNNを提案する。 提案手法は,専用フォワードトレーニング機構を用いてBPの限界を破る。 具体的には、DFA-GNNはグラフデータに適応するDFAの原理を拡張し、グラフトポロジの情報をフィードバックリンクに組み込んで、グラフデータの非ユークリッド特性に対応する。 さらに、半教師付きグラフ学習タスクにおいて、トレーニングデータから残差エラーを拡散し、ラベルなしノード毎に擬似エラーを生成する擬似エラー生成器を開発した。 これらの疑似エラーは、DFAを使用してGNNのトレーニングに使用される。 10の公開ベンチマークにおいて、我々の学習フレームワークは従来の非BP法だけでなく標準BP法よりも優れており、様々な種類のノイズや攻撃に対して優れた堅牢性を示す。

Graph neural networks are recognized for their strong performance across various applications, with the backpropagation algorithm playing a central role in the development of most GNN models. However, despite its effectiveness, BP has limitations that challenge its biological plausibility and affect the efficiency, scalability and parallelism of training neural networks for graph-based tasks. While several non-BP training algorithms, such as the direct feedback alignment, have been successfully applied to fully-connected and convolutional network components for handling Euclidean data, directly adapting these non-BP frameworks to manage non-Euclidean graph data in GNN models presents significant challenges. These challenges primarily arise from the violation of the i.i.d. assumption in graph data and the difficulty in accessing prediction errors for all samples (nodes) within the graph. To overcome these obstacles, in this paper we propose DFA-GNN, a novel forward learning framework tailored for GNNs with a case study of semi-supervised learning. The proposed method breaks the limitations of BP by using a dedicated forward training mechanism. Specifically, DFA-GNN extends the principles of DFA to adapt to graph data and unique architecture of GNNs, which incorporates the information of graph topology into the feedback links to accommodate the non-Euclidean characteristics of graph data. Additionally, for semi-supervised graph learning tasks, we developed a pseudo error generator that spreads residual errors from training data to create a pseudo error for each unlabeled node. These pseudo errors are then utilized to train GNNs using DFA. Extensive experiments on 10 public benchmarks reveal that our learning framework outperforms not only previous non-BP methods but also the standard BP methods, and it exhibits excellent robustness against various types of noise and attacks.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# 定常制御場に駆動された重複二段系の伝送・反射の位相制御

Phase control of transmission and reflection in a sample of duplicated two-level systems driven by a stationary control field ( http://arxiv.org/abs/2406.02043v1 )

ライセンス: Link先を確認
F. A. Hashmi, E. Brion, M. A. Bouchene, (参考訳) 本稿では, 互いに直交偏光する強い定常場と弱い共伝播プローブ場に印加された複層原子媒体の光学応答について検討する。 プローブの反射成分と透過成分の両方を吸収・増幅することを示した。 さらに、低光深度では、反射係数と透過係数は制御フィールドとプローブフィールドの相対位相で制御されるため、位相制御スイッチなどの光学デバイスの開発を約束する構成となっている。

In this article, we investigate the optical response of a duplicated two-level atomic medium submitted to a strong stationnary control field and a weak co-propagating probe field, orthogonally polarized to each other. We show that both reflected and transmitted components of the probe may be absorbed and amplified. Moreover, for low optical depths, reflection and transmission factors are controlled by the relative phase between control and probe fields, which makes the configuration we present here promising for the development of optical devices, such as phase-controlled switches.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# QROA: LLM上でのブラックボックスクエリ応答最適化攻撃

QROA: A Black-Box Query-Response Optimization Attack on LLMs ( http://arxiv.org/abs/2406.02044v1 )

ライセンス: Link先を確認
Hussein Jawad, Nicolas J. -B. BRUNEL, (参考訳) 大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成できる機能を持っている。 本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。 QROAはLLMに有害なコンテンツを生成するよう強制する悪意のある命令に最適化されたトリガーを追加する。 従来のアプローチとは異なり、QROAはモデルのロジット情報や他の内部データへのアクセスを必要とせず、LCMの標準クエリ応答インタフェースを介してのみ動作する。 ディープQ-ラーニングとグリーディ座標降下にインスパイアされたこの手法は、デザインされた報酬関数を最大化するためにトークンを反復的に更新する。 我々は、Vicuna、Falcon、Mistralなどの様々なLLM上で、アタック成功率(ASR)を80%以上達成し、本手法を試験した。 また,Jailbreak攻撃に対するLlama2の微調整版であるLlama2-chatに対して実験を行った。 本研究は、ブラックボックス最適化手法を用いて、パブリックドメインに配備されたLLMに対してジェイルブレイク攻撃を発生させる可能性を示し、LLMのより包括的な安全性試験を可能にする。

Large Language Models (LLMs) have surged in popularity in recent months, yet they possess concerning capabilities for generating harmful content when manipulated. This study introduces the Query-Response Optimization Attack (QROA), an optimization-based strategy designed to exploit LLMs through a black-box, query-only interaction. QROA adds an optimized trigger to a malicious instruction to compel the LLM to generate harmful content. Unlike previous approaches, QROA does not require access to the model's logit information or any other internal data and operates solely through the standard query-response interface of LLMs. Inspired by deep Q-learning and Greedy coordinate descent, the method iteratively updates tokens to maximize a designed reward function. We tested our method on various LLMs such as Vicuna, Falcon, and Mistral, achieving an Attack Success Rate (ASR) over 80\%. We also tested the model against Llama2-chat, the fine-tuned version of Llama2 designed to resist Jailbreak attacks, achieving good ASR with a suboptimal initial trigger seed. This study demonstrates the feasibility of generating jailbreak attacks against deployed LLMs in the public domain using black-box optimization methods, enabling more comprehensive safety testing of LLMs.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# 基本コヒーレント-状態速度限界を超える実験的な単一光子量子鍵分布

Experimental single-photon quantum key distribution surpassing the fundamental coherent-state rate limit ( http://arxiv.org/abs/2406.02045v1 )

ライセンス: Link先を確認
Yang Zhang, Xing Ding, Yang Li, Likang Zhang, Yong-Peng Guo, Gao-Qiang Wang, Zhen Ning, Mo-Chi Xu, Run-Ze Liu, Jun-Yi Zhao, Geng-Yan Zou, Hui Wang, Yuan Cao, Yu-Ming He, Cheng-Zhi Peng, Yong-Heng Huo, Sheng-Kai Liao, Chao-Yang Lu, Feihu Xu, Jian-Wei Pan, (参考訳) 単一光子源は量子ネットワークに必須であり、量子鍵分布(QKD)から急成長する量子インターネットへの応用を可能にする。 顕著な進歩にもかかわらず、コヒーレント(レーザー)光源へのQKDの現在の依存は秘密鍵レート(SKR)に根本的な制限を課している。 この制約は主にコヒーレント光における単一光子成分の不足に起因するものであり、固有上界は1/eである。 本稿では、高効率単一光子源を用いた高速QKDを報告し、コヒーレント光の基本速度限界を超越するSKRを実現する。 我々は、コヒーレント光の固有の境界を約2.87dBで越え、効率0.71(2)のオンデマンドで明るい半導体量子ドット単光子源を開発した。 狭帯域フィルタとランダム偏光変調を実装し、14.6(1.1)-dB-loss自由空間都市チャネル上でQKD試験を行い、1パルスあたり0.00108ビットのSKRを実現した。 これはコヒーレント光ベースのQKDの実用限界を2.53dB超える。 我々の研究は、QKDアプリケーションにおけるコヒーレント光よりもナノテクノロジーベースの単一光子源の方が優れた性能を示し、グローバル量子インターネットの実現に向けて重要な一歩を踏み出した。

Single-photon sources are essential for quantum networks, enabling applications ranging from quantum key distribution (QKD) to the burgeoning quantum internet. Despite the remarkable advancements, the current reliance of QKD on attenuated coherent (laser) light sources has imposed a fundamental limit on the secret key rate (SKR). This constraint is primarily attributable to the scarcity of single-photon components within coherent light, confined by an inherent upper bound of 1/e. Here, we report high-rate QKD using a high-efficiency single-photon source, enabling an SKR transcending the fundamental rate limit of coherent light. We developed an on-demand, bright semiconductor quantum-dot single-photon source with an efficiency of 0.71(2), exceeding the inherent bound of coherent light by approximately 2.87 dB. Implementing narrow-bandwidth filtering and random polarization modulation, we conducted a field QKD trial over a 14.6(1.1)-dB-loss free-space urban channel, achieving an SKR of 0.00108 bits per pulse. This surpasses the practical limit of coherent-light-based QKD by 2.53 dB. Our findings conclusively demonstrate the superior performance of nanotechnology-based single-photon sources over coherent light for QKD applications, marking a pivotal stride towards the realization of a global quantum internet.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# 潜在共同設立者のLiNGAMモデルにおける因果関係の同定

Causal Effect Identification in LiNGAM Models with Latent Confounders ( http://arxiv.org/abs/2406.02049v1 )

ライセンス: Link先を確認
Daniele Tramontano, Yaroslav Kivva, Saber Salehkaleybar, Mathias Drton, Negar Kiyavash, (参考訳) 線形非ガウス非環モデル (LiNGAM) における因果効果の一般同定可能性について検討した。 因果グラフが先入観であることと、それが未知であることの2つの主要な設定でこの問題を考察する。 いずれの設定においても、観察変数間の直接因果効果や全因果効果の完全なグラフィカルな特徴を提供する。 さらに,グラフィカルな条件を認証するための効率的なアルゴリズムを提案する。 最後に、その因果グラフから因果効果を推定する再構成独立成分分析(RICA)アルゴリズムの適応性を提案する。 実験結果から, 因果効果を推定するための提案手法の有効性が示された。

We study the generic identifiability of causal effects in linear non-Gaussian acyclic models (LiNGAM) with latent variables. We consider the problem in two main settings: When the causal graph is known a priori, and when it is unknown. In both settings, we provide a complete graphical characterization of the identifiable direct or total causal effects among observed variables. Moreover, we propose efficient algorithms to certify the graphical conditions. Finally, we propose an adaptation of the reconstruction independent component analysis (RICA) algorithm that estimates the causal effects from the observational data given the causal graph. Experimental results show the effectiveness of the proposed method in estimating the causal effects.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# 日本語大言語モデルにおける社会的バイアスの分析

Analyzing Social Biases in Japanese Large Language Models ( http://arxiv.org/abs/2406.02050v1 )

ライセンス: Link先を確認
Hitomi Yanaka, Han Namgi, Ryoma Kumon, Jie Lu, Masashi Takeshita, Ryo Sekizawa, Taisei Kato, Hiromi Arai, (参考訳) LLM(Large Language Models)の発展に伴い、LLMの社会的偏見は重要な問題となっている。 言語によって様々な社会的バイアスのベンチマークが提供されているが、日本人のLLMが社会的バイアスを示す程度については、十分に調査されていない。 本研究では、英語バイアスベンチマークBBQに基づいて日本語バイアスベンチマーク(JBBQ)を構築し、日本語LLMにおける社会的バイアスを分析する。 その結果,現在の日本語LLMでは,JBBQの精度は指導訓練によって向上するが,バイアススコアは大きくなることがわかった。 さらに、社会的バイアスに関する警告でプロンプトを増強することで、一部のモデルにおけるバイアスの影響を減らすことができる。

With the development of Large Language Models (LLMs), social biases in the LLMs have become a crucial issue. While various benchmarks for social biases have been provided across languages, the extent to which Japanese LLMs exhibit social biases has not been fully investigated. In this study, we construct the Japanese Bias Benchmark dataset for Question Answering (JBBQ) based on the English bias benchmark BBQ, and analyze social biases in Japanese LLMs. The results show that while current Japanese LLMs improve their accuracies on JBBQ by instruction-tuning, their bias scores become larger. In addition, augmenting their prompts with warning about social biases reduces the effect of biases in some models.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# PETRA: 可逆的アーキテクチャによるエンドツーエンドの並列トレーニング

PETRA: Parallel End-to-end Training with Reversible Architectures ( http://arxiv.org/abs/2406.02052v1 )

ライセンス: Link先を確認
Stéphane Rivaud, Louis Fournier, Thomas Pumir, Eugene Belilovsky, Michael Eickenberg, Edouard Oyallon, (参考訳) 可逆的アーキテクチャは、その非可逆的アーキテクチャと同等に動作できることが示されている。 本研究は, 深層モデルトレーニングの並列化における課題に対して, 可逆的アーキテクチャがいかに解決できるかを示す。 本稿では,並列化勾配計算のためのバックプロパゲーションの代替となるPETRAを紹介する。 PETRAは、異なるデバイス上で独立して計算できる段階(すなわち層)を許容し、互いにアクティベーションと勾配を伝達するだけを必要とすることで、効果的なモデル並列化を促進する。 前方と後方のパスを分離し、パラメータの単一の更新バージョンを保持することで、重み付けも不要になる。 CIFAR-10, ImageNet32, ImageNetでは,ResNet-18, ResNet-34, ResNet-50モデルを用いたバックプロパゲーションに匹敵する競争力のあるアキュレーションを実現する。

Reversible architectures have been shown to be capable of performing on par with their non-reversible architectures, being applied in deep learning for memory savings and generative modeling. In this work, we show how reversible architectures can solve challenges in parallelizing deep model training. We introduce PETRA, a novel alternative to backpropagation for parallelizing gradient computations. PETRA facilitates effective model parallelism by enabling stages (i.e., a set of layers) to compute independently on different devices, while only needing to communicate activations and gradients between each other. By decoupling the forward and backward passes and keeping a single updated version of the parameters, the need for weight stashing is also removed. We develop a custom autograd-like training framework for PETRA, and we demonstrate its effectiveness on CIFAR-10, ImageNet32, and ImageNet, achieving competitive accuracies comparable to backpropagation using ResNet-18, ResNet-34, and ResNet-50 models.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# CAP:NASのためのコンテキスト対応ニューラルネットワーク予測器

CAP: A Context-Aware Neural Predictor for NAS ( http://arxiv.org/abs/2406.02056v1 )

ライセンス: Link先を確認
Han Ji, Yuqi Feng, Yanan Sun, (参考訳) ニューラル・アーキテクチャー・サーチ(NAS)において、ニューラル・予測器は、目に見えないアーキテクチャを直接推定するため、時間を要するパフォーマンス評価の段階を強化するのに有効である。 この効果にもかかわらず、注釈付きアーキテクチャの少ない強力なニューラルネットワーク予測器をトレーニングすることは、依然として大きな課題である。 本稿では,アーキテクチャのコンテキスト情報に基づくトレーニングを行うために,いくつかのアノテートアーキテクチャのみを必要とする文脈認識型ニューラル予測器(CAP)を提案する。 具体的には、入力アーキテクチャをグラフにエンコードし、予測器は各グラフ内のノードの周囲のコンテキスト構造を推論する。 そして、提案した文脈認識型自己教師型タスクによって強化され、事前学習された予測器は、アーキテクチャの表現的および一般化可能な表現を得ることができる。 したがって、トレーニングに十分なアノテートされたアーキテクチャはわずかである。 異なる探索空間における実験結果は、最先端のニューラル予測器と比較してCAPの優れた性能を示す。 特にCAPはNAS-Bench-101の172のアノテートアーキテクチャの予算を正確にランク付けできる。 さらに、CAPはNAS-Bench-101とDARTSの検索空間をCIFAR-10データセットで探索し、NASが探索空間を効率的に探索するのに有用なナビゲータとして機能する。

Neural predictors are effective in boosting the time-consuming performance evaluation stage in neural architecture search (NAS), owing to their direct estimation of unseen architectures. Despite the effectiveness, training a powerful neural predictor with fewer annotated architectures remains a huge challenge. In this paper, we propose a context-aware neural predictor (CAP) which only needs a few annotated architectures for training based on the contextual information from the architectures. Specifically, the input architectures are encoded into graphs and the predictor infers the contextual structure around the nodes inside each graph. Then, enhanced by the proposed context-aware self-supervised task, the pre-trained predictor can obtain expressive and generalizable representations of architectures. Therefore, only a few annotated architectures are sufficient for training. Experimental results in different search spaces demonstrate the superior performance of CAP compared with state-of-the-art neural predictors. In particular, CAP can rank architectures precisely at the budget of only 172 annotated architectures in NAS-Bench-101. Moreover, CAP can help find promising architectures in both NAS-Bench-101 and DARTS search spaces on the CIFAR-10 dataset, serving as a useful navigator for NAS to explore the search space efficiently.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# ウィトル指数のタブラリと深層学習

Tabular and Deep Learning for the Whittle Index ( http://arxiv.org/abs/2406.02057v1 )

ライセンス: Link先を確認
Francisco Robledo Relaño, Vivek Borkar, Urtzi Ayesta, Konstantin Avrachenkov, (参考訳) Whittle Index Policyは、RMABP(Restless Multi-Armed Bandit Problems)と呼ばれる問題に適用されると、驚くほど優れたパフォーマンス(漸近的最適性を保証する)を示すヒューリスティックである。 本稿では,2つの強化学習アルゴリズムであるQWIとQWINNを紹介し,合計割引基準のWhittle指数を学習する。 重要な特徴は、2つの時間スケールの使用、状態アクションのQ値更新の高速化、Whittleインデックス更新の比較的遅い機能である。 主な理論的結果から、表の実装である QWI が真のウィトル指標に収束することを示す。 次に、ニューラルネットワークを用いたQWIアルゴリズムを適応して、より高速な時間スケールでのQ値を計算するQWINNを提案し、ある状態から別の状態への情報を抽出し、大きな状態空間環境に自然にスケールすることができる。 QWINN の場合、ベルマン誤差の局所最小値はすべて局所的に安定な平衡値であることが示され、これは DQN に基づくスキームの種別の最初の結果である。 数値計算により、QWIとQWINNは、標準的なQ-ラーニングアルゴリズム、ニューラルネットワークに基づく近似Q-ラーニング、その他の最先端アルゴリズムよりも高速に収束することが示された。

The Whittle index policy is a heuristic that has shown remarkably good performance (with guaranteed asymptotic optimality) when applied to the class of problems known as Restless Multi-Armed Bandit Problems (RMABPs). In this paper we present QWI and QWINN, two reinforcement learning algorithms, respectively tabular and deep, to learn the Whittle index for the total discounted criterion. The key feature is the use of two time-scales, a faster one to update the state-action Q -values, and a relatively slower one to update the Whittle indices. In our main theoretical result we show that QWI, which is a tabular implementation, converges to the real Whittle indices. We then present QWINN, an adaptation of QWI algorithm using neural networks to compute the Q -values on the faster time-scale, which is able to extrapolate information from one state to another and scales naturally to large state-space environments. For QWINN, we show that all local minima of the Bellman error are locally stable equilibria, which is the first result of its kind for DQN-based schemes. Numerical computations show that QWI and QWINN converge faster than the standard Q -learning algorithm, neural-network based approximate Q-learning and other state of the art algorithms.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# OpenGaussian: ポイントレベル3Dガウスベースのオープン語彙理解を目指して

OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding ( http://arxiv.org/abs/2406.02058v1 )

ライセンス: Link先を確認
Yanmin Wu, Jiarui Meng, Haijie Li, Chenming Wu, Yahao Shi, Xinhua Cheng, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Jian Zhang, (参考訳) 本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。 我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。 これらの手法は特徴表現力の弱さと不正確な2D-3D特徴関連のために3次元点レベル課題に対処する。 堅牢な特徴提示と3Dポイントレベルの理解を確保するため、私たちはまず、クロスフレームアソシエーションなしでSAMマスクを使用して、3D一貫性のあるインスタンス機能をトレーニングします。 これらの特徴は、オブジェクト間の一貫性とオブジェクト間の区別の両方を示す。 そこで我々は,これらの特徴を粗いレベルから細かいレベルまで識別する2段階のコードブックを提案する。 粗いレベルでは、位置に基づくクラスタリングを実現するために3Dポイントの位置情報を考慮し、細かなレベルで精査する。 最後に,3次元点と2次元マスクをリンクするインスタンスレベルの3D-2D特徴関連手法を提案する。 オープンな語彙に基づく3Dオブジェクト選択,3Dポイントクラウド理解,クリックベースの3Dオブジェクト選択,アブレーション研究などの大規模な実験により,提案手法の有効性が示された。 プロジェクトページ:https://3d-aigc.github.io/OpenGaussian

This paper introduces OpenGaussian, a method based on 3D Gaussian Splatting (3DGS) capable of 3D point-level open vocabulary understanding. Our primary motivation stems from observing that existing 3DGS-based open vocabulary methods mainly focus on 2D pixel-level parsing. These methods struggle with 3D point-level tasks due to weak feature expressiveness and inaccurate 2D-3D feature associations. To ensure robust feature presentation and 3D point-level understanding, we first employ SAM masks without cross-frame associations to train instance features with 3D consistency. These features exhibit both intra-object consistency and inter-object distinction. Then, we propose a two-stage codebook to discretize these features from coarse to fine levels. At the coarse level, we consider the positional information of 3D points to achieve location-based clustering, which is then refined at the fine level. Finally, we introduce an instance-level 3D-2D feature association method that links 3D points to 2D masks, which are further associated with 2D CLIP features. Extensive experiments, including open vocabulary-based 3D object selection, 3D point cloud understanding, click-based 3D object selection, and ablation studies, demonstrate the effectiveness of our proposed method. Project page: https://3d-aigc.github.io/OpenGaussian
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# Graph Adversarial Diffusion Convolution

Graph Adversarial Diffusion Convolution ( http://arxiv.org/abs/2406.02059v1 )

ライセンス: Link先を確認
Songtao Liu, Jinghui Chen, Tianfan Fu, Lu Lin, Marinka Zitnik, Dinghao Wu, (参考訳) 本稿では,グラフ信号デノイング(GSD)問題に対する min-max 最適化の定式化を提案する。 この定式化において、まず、ラプラシア距離に基づくグラフ構造に摂動を導入し、GSDの全体的な損失を最小化することにより、GSDの第二項を最大化する。 min-max最適化問題を解くことにより、グラフ拡散畳み込み(GDC)アーキテクチャの新しい変種を導出する。 GADCはGDCと異なり、グラフ構造とノード特徴のノイズに対する敵対攻撃に対する堅牢性を高める追加用語を取り入れている。 さらに、GADCは異種グラフ上でのGDCの性能を向上させる。 広範囲にわたる実験は、GADCが様々なデータセットにまたがって有効であることを実証している。 コードはhttps://github.com/SongtaoLiu0823/GADCで入手できる。

This paper introduces a min-max optimization formulation for the Graph Signal Denoising (GSD) problem. In this formulation, we first maximize the second term of GSD by introducing perturbations to the graph structure based on Laplacian distance and then minimize the overall loss of the GSD. By solving the min-max optimization problem, we derive a new variant of the Graph Diffusion Convolution (GDC) architecture, called Graph Adversarial Diffusion Convolution (GADC). GADC differs from GDC by incorporating an additional term that enhances robustness against adversarial attacks on the graph structure and noise in node features. Moreover, GADC improves the performance of GDC on heterophilic graphs. Extensive experiments demonstrate the effectiveness of GADC across various datasets. Code is available at https://github.com/SongtaoLiu0823/GADC.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# LLMs Hidden State in Question Answering の解釈

I've got the "Answer"! Interpretation of LLMs Hidden States in Question Answering ( http://arxiv.org/abs/2406.02060v1 )

ライセンス: Link先を確認
Valeriya Goloviznina, Evgeny Kotelnikov, (参考訳) 大規模言語モデル(LLM)の急速な発展を背景に、AIの解釈可能性と説明可能性の重要性はますます重要になっている。 本稿では,知識に基づく質問応答の文脈におけるLLMの解釈について検討する。 この研究の主な仮説は、正誤モデル行動は隠れた状態のレベルで区別できるというものである。 量子化モデルLLaMA-2-7B-Chat、Mistral-7B、Vicuna-7BおよびMuSeRC質問回答データセットを用いてこの仮説をテストする。 分析結果は提案された仮説を支持する。 また、モデルの振る舞いに悪影響を及ぼすレイヤを特定します。 本研究は,本仮説の実用化に向けて,タスクソリューションの品質向上のために,このような「弱」層をさらに訓練することを提案する。

Interpretability and explainability of AI are becoming increasingly important in light of the rapid development of large language models (LLMs). This paper investigates the interpretation of LLMs in the context of the knowledge-based question answering. The main hypothesis of the study is that correct and incorrect model behavior can be distinguished at the level of hidden states. The quantized models LLaMA-2-7B-Chat, Mistral-7B, Vicuna-7B and the MuSeRC question-answering dataset are used to test this hypothesis. The results of the analysis support the proposed hypothesis. We also identify the layers which have a negative effect on the model's behavior. As a prospect of practical application of the hypothesis, we propose to train such "weak" layers additionally in order to improve the quality of the task solution.
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models ( http://arxiv.org/abs/2406.02061v1 )

ライセンス: Link先を確認
Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev, (参考訳) 大規模言語モデル(LLM)は、しばしば基礎モデルの例として記述される。すなわち、様々なタスクや状況に対して、ほとんどショーやゼロショットの方法で強く移行するモデルであると同時に、事前トレーニングスケールを拡大する際の関数改善を予測するスケーリング法則を示す。 これらの異なる機能やタスクが優れているという主張は、そのようなモデルに対して高いスコアを示す標準化されたベンチマークの様々なセットにまたがる測定に依存する。 ここでは,人間によって容易に解ける簡潔で簡潔な自然言語で定式化された従来の共通感覚問題を用いて,強機能を主張する最大規模で訓練された最先端モデルの機能と推論能力の劇的な分解を実演する。 モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明は、明らかに失敗した応答の妥当性を正当化し、バックアップすることに似ている。 正しいソリューションを得るための様々な標準的な介入、例えば、様々な種類の強化プロンプト、あるいは、複数のステップの再評価によって間違ったソリューションを再考するようモデルに促す、といったことは失敗します。 これらの最初の観察は、科学・技術界に、現在のLLMの主張する能力の緊急な再評価を刺激するものであり、このような再評価は、現在の最先端の評価手順やベンチマークによって明らかに発見されないような基本的な理由づけ欠陥を適切に検出できるような、標準化されたベンチマークを作成するための共通の行動も必要である。 論文における実験の再現コードと生の実験データはhttps://github.com/LAION-AI/AIWで見ることができる。

Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models also express strong overconfidence in their wrong solutions, while providing often non-sensical "reasoning"-like explanations akin to confabulations to justify and backup the validity of their clearly failed responses, making them sound plausible. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs, Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW
翻訳日:2024-06-05 17:30:56 公開日:2024-06-04
# 認知バイアスと習慣を考慮したエージェントベースモーダル選択モデル

An agent-based model of modal choice with perception biases and habits ( http://arxiv.org/abs/2406.02063v1 )

ライセンス: Link先を確認
Carole Adam, Benoit Gaudou, (参考訳) 本稿では,習慣や知覚バイアスといった人的要因の影響を受け,エージェントによる移動選択モデルを提案する。 Netlogoシミュレータで実装されており、モビリティの知覚に関するオンライン調査の結果から校正されている。 シミュレーターはオンラインでプレイできます。 都市インフラを改造し、モーダルレポートを観察することができる。

This paper presents an agent-based model of mobility choice, influenced by human factors such as habits and perception biases. It is implemented in a Netlogo simulator, calibrated from results of an online survey about perceptions of mobility. The simulator can be played online. It allows to modify urban infrastructure and observe modal report.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 2レベル最適化と動的シーケンストラニケーションを導出した初期化による一般化転送攻撃の高速化

Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation ( http://arxiv.org/abs/2406.02064v1 )

ライセンス: Link先を確認
Yaohua Liu, Jiaxin Gao, Xuan Liu, Xianghao Jiao, Xin Fan, Risheng Liu, (参考訳) トランスファー攻撃は、サロゲートモデルを通じてトランスファー可能な敵例を作成することで、現実世界のブラックボックスアプリケーションに重要な関心を生んでいる。 一方、既存の研究は本質的には単一レベルの目標 w.r.t. サロゲートモデルを直接最適化するものであり、これは攻撃機構の弱い解釈可能性と未知の犠牲者モデルに対する限定的な一般化性能をもたらす。 本研究では,上レベル(UL)擬似ビック攻撃者と下層レベル(LL)サロゲート攻撃者との間のネスト制約関係を明示的に再構成する初期化導出双レベル最適化パラダイムを確立することにより,bf{B}il\textbf{E}vel \textbf{T}ransfer \textbf{A}ttac\textbf{K} (BETAK) フレームワークを提案する。 本稿では,HGRのバックプロパゲーションパスを動的に調整し,計算オーバーヘッドを同時に低減する動的シーケンストラニケーション(DST)技術を提案する。 一方,LLサロゲート攻撃者の非凸性をサポートするために,詳細なアルゴリズム解析を行い,収束保証を行う。 BETAK (例: $\mathbf{53.41}$\% 攻撃成功率のIncRes-v$2_{ens}$) は、標的と未目標の攻撃シナリオにおける様々な犠牲者や防御方法に対して大幅に改善されている。 ソースコードはhttps://github.com/callous-youth/BETAK.comで入手できる。

Transfer attacks generate significant interest for real-world black-box applications by crafting transferable adversarial examples through surrogate models. Whereas, existing works essentially directly optimize the single-level objective w.r.t. the surrogate model, which always leads to poor interpretability of attack mechanism and limited generalization performance over unknown victim models. In this work, we propose the \textbf{B}il\textbf{E}vel \textbf{T}ransfer \textbf{A}ttac\textbf{K} (BETAK) framework by establishing an initialization derived bilevel optimization paradigm, which explicitly reformulates the nested constraint relationship between the Upper-Level (UL) pseudo-victim attacker and the Lower-Level (LL) surrogate attacker. Algorithmically, we introduce the Hyper Gradient Response (HGR) estimation as an effective feedback for the transferability over pseudo-victim attackers, and propose the Dynamic Sequence Truncation (DST) technique to dynamically adjust the back-propagation path for HGR and reduce computational overhead simultaneously. Meanwhile, we conduct detailed algorithmic analysis and provide convergence guarantee to support non-convexity of the LL surrogate attacker. Extensive evaluations demonstrate substantial improvement of BETAK (e.g., $\mathbf{53.41}$\% increase of attack success rates against IncRes-v$2_{ens}$) against different victims and defense methods in targeted and untargeted attack scenarios. The source code is available at https://github.com/callous-youth/BETAK.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 条件付き残留エネルギーモデルを用いた分子合成の優先最適化

Preference Optimization for Molecule Synthesis with Conditional Residual Energy-based Models ( http://arxiv.org/abs/2406.02066v1 )

ライセンス: Link先を確認
Songtao Liu, Hanjun Dai, Yue Zhao, Peng Liu, (参考訳) 機械学習による分子合成は、薬物発見の根本的な問題の1つである。 現在のデータ駆動型戦略では、トップボトム方式で合成経路を予測するために、一段階の逆合成モデルと探索アルゴリズムを使用している。 効果的な性能にもかかわらず、これらの戦略は分子合成経路生成の限界に直面している。 さらに、既存の戦略では、材料コスト、収量、歩数といった可能な基準に基づき、合成経路の生成を制御できない。 本研究では, 条件付き残留エネルギーベースモデル(EBMs)を用いて, 特定の基準に基づいて, 合成経路全体の品質に焦点をあてた, 汎用的で原則化された枠組みを提案する。 我々の確率モデルにエネルギー関数を付加することにより、提案アルゴリズムは、様々な戦略によって生成される最も確率の高い合成経路(高い確率)の品質を向上させることができる。 大規模な実験により、我々のフレームワークは様々な戦略をまたいだパフォーマンスを継続的に向上させ、最先端のトップ1の精度を2.5%向上させることが実証された。 コードはhttps://github.com/SongtaoLiu0823/CREBMで入手できる。

Molecule synthesis through machine learning is one of the fundamental problems in drug discovery. Current data-driven strategies employ one-step retrosynthesis models and search algorithms to predict synthetic routes in a top-bottom manner. Despite their effective performance, these strategies face limitations in the molecule synthetic route generation due to a greedy selection of the next molecule set without any lookahead. Furthermore, existing strategies cannot control the generation of synthetic routes based on possible criteria such as material costs, yields, and step count. In this work, we propose a general and principled framework via conditional residual energy-based models (EBMs), that focus on the quality of the entire synthetic route based on the specific criteria. By incorporating an additional energy-based function into our probabilistic model, our proposed algorithm can enhance the quality of the most probable synthetic routes (with higher probabilities) generated by various strategies in a plug-and-play fashion. Extensive experiments demonstrate that our framework can consistently boost performance across various strategies and outperforms previous state-of-the-art top-1 accuracy by a margin of 2.5%. Code is available at https://github.com/SongtaoLiu0823/CREBM.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# ピラミッドKV:ピラミッド情報ファネリングに基づく動的KVキャッシュ圧縮

PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling ( http://arxiv.org/abs/2406.02069v1 )

ライセンス: Link先を確認
Zefan Cai., Yichi Zhang, Bofei Gao, Tianyu Liu, Keming Lu, Wayne Xiong, Yue Dong, Baobao Chang, Junjie Hu, Wen Xiao, (参考訳) 本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されているかを検討する。 我々の観測では、LLMは、下層に注意が広く散らばっているピラミッド情報ファンリングを通じて情報を集約し、特定のコンテキスト内で徐々に統合し、最終的に、上層に重要なトークン(大規模なアクティベーションやアテンションシンク)に焦点を当てている。 これらの知見に触発され,新しいKVキャッシュ圧縮手法であるPraamidKVを開発した。 このアプローチは、異なる層にわたるKVキャッシュサイズを動的に調整し、下位層でより多くのキャッシュを割り当て、上位層では少ないキャッシュを割り当て、均一なKVキャッシュサイズを維持する従来の方法から切り離す。 実験では,LongBenchベンチマークを用いて,PraamidKVはKVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致し,メモリ使用量を大幅に削減した。 メモリ効率を強調するシナリオでは、KVキャッシュのわずか0.7%しか維持されていないが、PraamidKVは他のKVキャッシュ圧縮技術を超え、TRECでは最大で20.5の精度向上を実現している。

In this study, we investigate whether attention-based information flow inside large language models (LLMs) is aggregated through noticeable patterns for long context processing. Our observations reveal that LLMs aggregate information through Pyramidal Information Funneling where attention is scattering widely in lower layers, progressively consolidating within specific contexts, and ultimately focusin on critical tokens (a.k.a massive activation or attention sink) in higher layers. Motivated by these insights, we developed PyramidKV, a novel and effective KV cache compression method. This approach dynamically adjusts the KV cache size across different layers, allocating more cache in lower layers and less in higher ones, diverging from traditional methods that maintain a uniform KV cache size. Our experimental evaluations, utilizing the LongBench benchmark, show that PyramidKV matches the performance of models with a full KV cache while retaining only 12% of the KV cache, thus significantly reducing memory usage. In scenarios emphasizing memory efficiency, where only 0.7% of the KV cache is maintained, PyramidKV surpasses other KV cache compression techniques achieving up to a 20.5 absolute accuracy improvement on TREC.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# FaceCom: 最適化と塗装誘導による高忠実度3次元顔形状補完を目指して

FaceCom: Towards High-fidelity 3D Facial Shape Completion via Optimization and Inpainting Guidance ( http://arxiv.org/abs/2406.02074v1 )

ライセンス: Link先を確認
Yinglong Li, Hongyu Wu, Xiaogang Wang, Qingzhao Qin, Yijiao Zhao, Yong wang, Aimin Hao, (参考訳) 任意の形状の不完全な顔入力に対して高忠実度な結果を提供する3次元顔形状補完法であるFaceComを提案する。 ポイントクラウドやボクセルをベースとしたエンドツーエンドの形状補完手法とは異なり、我々のアプローチはメッシュベースの生成ネットワークに依存しており、最適化が容易であり、不規則な顔スキャンの形状補完を処理できる。 まず、2405のIDを含む混合3次元顔データセット上で形状生成装置を訓練する。 不完全な顔入力に基づいて、画像の塗装指導下での最適化手法を用いて、完全な顔に適合する。 完了結果を後処理ステップで洗練する。 FaceComは、さまざまな欠落した領域と欠落した領域の度合いで、効果的に自然に顔スキャンデータを完了する能力を示している。 本手法は, 医療用補綴物の製作や, 欠損スキャンデータの登録に利用することができる。 実験の結果,FaceComはフィッティングおよび形状完了タスクにおいて優れた性能を発揮することがわかった。 コードはhttps://github.com/dragonylee/FaceCom.gitで入手できる。

We propose FaceCom, a method for 3D facial shape completion, which delivers high-fidelity results for incomplete facial inputs of arbitrary forms. Unlike end-to-end shape completion methods based on point clouds or voxels, our approach relies on a mesh-based generative network that is easy to optimize, enabling it to handle shape completion for irregular facial scans. We first train a shape generator on a mixed 3D facial dataset containing 2405 identities. Based on the incomplete facial input, we fit complete faces using an optimization approach under image inpainting guidance. The completion results are refined through a post-processing step. FaceCom demonstrates the ability to effectively and naturally complete facial scan data with varying missing regions and degrees of missing areas. Our method can be used in medical prosthetic fabrication and the registration of deficient scanning data. Our experimental results demonstrate that FaceCom achieves exceptional performance in fitting and shape completion tasks. The code is available at https://github.com/dragonylee/FaceCom.git.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# ReLU-KAN: 行列加算、ドット乗算、ReLUのみを必要とする新しいKolmogorov-Arnoldネットワーク

ReLU-KAN: New Kolmogorov-Arnold Networks that Only Need Matrix Addition, Dot Multiplication, and ReLU ( http://arxiv.org/abs/2406.02075v1 )

ライセンス: Link先を確認
Qi Qiu, Tao Zhu, Helin Gong, Liming Chen, Huansheng Ning, (参考訳) 基底関数(B-スプライン)計算の複雑さによって制限され、KAN(Kolmogorov-Arnold Networks)はGPU上での並列計算能力の制限に悩まされる。 本稿では,kanのコアアイデアを継承する新しいReLU-KANの実装を提案する。 ReLU(Rectified Linear Unit)と点乗算(point-wise multiplication)を採用することにより、kanの基本関数の設計を簡素化し、効率的なCUDA計算のために計算プロセスを最適化する。 提案されているReLU-KANアーキテクチャは、推論とトレーニングの両方に既存のディープラーニングフレームワーク(例えばPyTorch)で容易に実装できる。 実験の結果,ReLU-KANは従来の4層ネットワークのKANと比較して20倍の高速化を実現していることがわかった。 さらに、ReLU-KANは、カンの「破滅的忘れの回避」特性を維持しつつ、より優れた適合能力を有するより安定したトレーニングプロセスを示す。 コードはhttps://github.com/quiqi/relu_kanで取得できます。

Limited by the complexity of basis function (B-spline) calculations, Kolmogorov-Arnold Networks (KAN) suffer from restricted parallel computing capability on GPUs. This paper proposes a novel ReLU-KAN implementation that inherits the core idea of KAN. By adopting ReLU (Rectified Linear Unit) and point-wise multiplication, we simplify the design of KAN's basis function and optimize the computation process for efficient CUDA computing. The proposed ReLU-KAN architecture can be readily implemented on existing deep learning frameworks (e.g., PyTorch) for both inference and training. Experimental results demonstrate that ReLU-KAN achieves a 20x speedup compared to traditional KAN with 4-layer networks. Furthermore, ReLU-KAN exhibits a more stable training process with superior fitting ability while preserving the "catastrophic forgetting avoidance" property of KAN. You can get the code in https://github.com/quiqi/relu_kan
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 組織スライドのマルチターゲット染色正規化

Multi-target stain normalization for histology slides ( http://arxiv.org/abs/2406.02077v1 )

ライセンス: Link先を確認
Desislav Ivanov, Carlo Alberto Barbano, Marco Grangetto, (参考訳) 従来の染色正規化アプローチ(例: Macenko)は、一般的に単一の代表参照イメージの選択に依存しており、実用的なシナリオで収集されたデータセットの多様な染色パターンを適切に考慮していない可能性がある。 本研究では,複数の参照画像を利用して,染色変化に対するロバスト性を高める手法を提案する。 提案手法はパラメータフリーであり,有意な変化のない既存の計算病理パイプラインに適用可能である。 本手法の有効性を,深層学習パイプラインを用いた大腸画像の自動分割実験により評価した。 以上の結果から,複数の参照画像を活用することにより,外部データへの一般化において,染色がトレーニングセットと大きく異なる場合において,より優れた結果が得られることが示された。

Traditional staining normalization approaches, e.g. Macenko, typically rely on the choice of a single representative reference image, which may not adequately account for the diverse staining patterns of datasets collected in practical scenarios. In this study, we introduce a novel approach that leverages multiple reference images to enhance robustness against stain variation. Our method is parameter-free and can be adopted in existing computational pathology pipelines with no significant changes. We evaluate the effectiveness of our method through experiments using a deep-learning pipeline for automatic nuclei segmentation on colorectal images. Our results show that by leveraging multiple reference images, better results can be achieved when generalizing to external data, where the staining can widely differ from the training set.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 配水ネットワークにおけるAI研究を支援するツールボックス

A Toolbox for Supporting Research on AI in Water Distribution Networks ( http://arxiv.org/abs/2406.02078v1 )

ライセンス: Link先を確認
André Artelt, Marios S. Kyriakou, Stelios G. Vrachimis, Demetrios G. Eliades, Barbara Hammer, Marios M. Polycarpou, (参考訳) 飲料水は人類にとって重要な資源であり、現代の社会では水分配ネットワーク(WDN)が重要な基盤となっている。 WDNの運用は、水漏れや汚染、サイバー/物理攻撃、ポンプ運転時の高エネルギー消費など、さまざまな課題に直面している。 さまざまな不確実性ソースのためにモデルベースの手法が限界に達すると、AI手法はこれらの課題に対する有望な解決策を提供する。 本研究では,複雑なシナリオモデリングと生成のためのPythonツールボックスを導入し,AI研究者が飲料水領域から難しい問題に容易にアクセスできるようにする。 油圧および水質のシナリオデータを簡単に生成するための高レベルのインターフェースを提供するだけでなく、一般的なイベント検出ベンチマークへのアクセスや、制御アルゴリズムを開発するための環境も提供する。

Drinking water is a vital resource for humanity, and thus, Water Distribution Networks (WDNs) are considered critical infrastructures in modern societies. The operation of WDNs is subject to diverse challenges such as water leakages and contamination, cyber/physical attacks, high energy consumption during pump operation, etc. With model-based methods reaching their limits due to various uncertainty sources, AI methods offer promising solutions to those challenges. In this work, we introduce a Python toolbox for complex scenario modeling \& generation such that AI researchers can easily access challenging problems from the drinking water domain. Besides providing a high-level interface for the easy generation of hydraulic and water quality scenario data, it also provides easy access to popular event detection benchmarks and an environment for developing control algorithms.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 情報抽出作業における中国語オープンソース大言語モデルの性能評価

Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks ( http://arxiv.org/abs/2406.02079v1 )

ライセンス: Link先を確認
Yida Cai, Hao Sun, Hsiu-Yuan Huang, Yunfang Wu, (参考訳) 情報抽出(IE)は、構造化されていないテキストから構造化された情報を抽出し、構造化されたデータに依存する様々な現実世界のアプリケーションとのシームレスな統合を容易にすることで、自然言語処理(NLP)において重要な役割を担っている。 英語IEタスクに焦点を当てた最近の実験は、特に名前付きエンティティ認識(NER)のようなサブタスクにおいて、最適なパフォーマンスを達成する上で、LLM(Large Language Models)が直面する課題に光を当てている。 本稿では,IEタスク,特に特定のタスクに対してモデルが微調整されていないゼロショット条件下で,主要な中国のオープンソースLLMの性能について,包括的な調査を行う。 さらに、これらのモデルの有効性を更に評価するために、いくつかのショット実験の結果を提示する。 さらに,これらのオープンソースLLMと,広く認識されている言語モデルであるChatGPTのIE性能の比較分析を行った。 我々は,厳密な実験と分析を通じて,NLPの文脈における情報抽出領域における既存の中国のオープンソースLLMの強み,限界,潜在的な拡張に関する洞察を提供することを目的とする。

Information Extraction (IE) plays a crucial role in Natural Language Processing (NLP) by extracting structured information from unstructured text, thereby facilitating seamless integration with various real-world applications that rely on structured data. Despite its significance, recent experiments focusing on English IE tasks have shed light on the challenges faced by Large Language Models (LLMs) in achieving optimal performance, particularly in sub-tasks like Named Entity Recognition (NER). In this paper, we delve into a comprehensive investigation of the performance of mainstream Chinese open-source LLMs in tackling IE tasks, specifically under zero-shot conditions where the models are not fine-tuned for specific tasks. Additionally, we present the outcomes of several few-shot experiments to further gauge the capability of these models. Moreover, our study includes a comparative analysis between these open-source LLMs and ChatGPT, a widely recognized language model, on IE performance. Through meticulous experimentation and analysis, we aim to provide insights into the strengths, limitations, and potential enhancements of existing Chinese open-source LLMs in the domain of Information Extraction within the context of NLP.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# LongSSM:言語モデリングにおける状態空間モデルの長大拡張について

LongSSM: On the Length Extension of State-space Models in Language Modelling ( http://arxiv.org/abs/2406.02080v1 )

ライセンス: Link先を確認
Shida Wang, (参考訳) 本稿では,言語モデルにおける状態空間モデル(SSM)の長さ拡張について検討する。 長さ拡張には、短いシーケンスでのトレーニングモデルと、より長いシーケンスでのテストが含まれる。 ゼロ隠れ状態の初期化を訓練した状態空間モデルでは長さ拡張が困難であることを示す。 長さ拡張が多項式外挿に等しいことを指摘して、この難しさを説明する。 この理論に基づいて,隠れ状態の初期化スキームを変更して長さ拡張を改善するという,シンプルで効果的な手法を提案する。 さらに, 長いトレーニングシーケンス長を用いることは有用であるが, 延長には必要ではないことを示す。 隠れた状態の初期化を変更することで、トレーニングコンテキストの長さが小さいロングメモリモデルの効率的なトレーニングが可能になる。

In this paper, we investigate the length-extension of state-space models (SSMs) in language modeling. Length extension involves training models on short sequences and testing them on longer ones. We show that state-space models trained with zero hidden states initialization have difficulty doing length extension. We explain this difficulty by pointing out the length extension is equivalent to polynomial extrapolation. Based on the theory, we propose a simple yet effective method - changing the hidden states initialization scheme - to improve the length extension. Moreover, our method shows that using long training sequence length is beneficial but not necessary to length extension. Changing the hidden state initialization enables the efficient training of long-memory model with a smaller training context length.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# FightLadder: 競争力のあるマルチエージェント強化学習のためのベンチマーク

FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2406.02081v1 )

ライセンス: Link先を確認
Wenzhe Li, Zihan Ding, Seth Karten, Chi Jin, (参考訳) 近年の強化学習(RL)の進歩は、環境プラットフォームと、既存のアルゴリズムと新しいアルゴリズムを評価するための一貫した基準を提供する、よく設計された様々なベンチマークに大きく依存している。 具体的には、MARL(Multi-agent RL)において、協調ゲームに基づく多数のベンチマークが、協調型マルチエージェントシステムのスケーラビリティを向上させるアルゴリズムの開発に拍車をかけた。 しかし、競争の激しい環境では、挑戦的なゲームダイナミクスとビジュアルインプットを備えた軽量でオープンソースなベンチマークはまだ確立されていない。 本研究では,リアルタイム格闘ゲームプラットフォームであるFightLadderを紹介し,競争力のあるMARL研究を促進する。 このプラットフォームとともに、競争ゲームのための最先端のMARLアルゴリズムの実装と、エージェントの性能と利用性を特徴付ける評価指標のセットを提供する。 本研究では, シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより, このプラットフォームの有効性を実証する。 FightLadderは、競争力のあるMARL研究における重要な課題に対処するために、慎重に設計された環境を提供する。 Videos and code at https://sites.google.com/view/fightladder/home.com

Recent advances in reinforcement learning (RL) heavily rely on a variety of well-designed benchmarks, which provide environmental platforms and consistent criteria to evaluate existing and novel algorithms. Specifically, in multi-agent RL (MARL), a plethora of benchmarks based on cooperative games have spurred the development of algorithms that improve the scalability of cooperative multi-agent systems. However, for the competitive setting, a lightweight and open-sourced benchmark with challenging gaming dynamics and visual inputs has not yet been established. In this work, we present FightLadder, a real-time fighting game platform, to empower competitive MARL research. Along with the platform, we provide implementations of state-of-the-art MARL algorithms for competitive games, as well as a set of evaluation metrics to characterize the performance and exploitability of agents. We demonstrate the feasibility of this platform by training a general agent that consistently defeats 12 built-in characters in single-player mode, and expose the difficulty of training a non-exploitable agent without human knowledge and demonstrations in two-player mode. FightLadder provides meticulously designed environments to address critical challenges in competitive MARL research, aiming to catalyze a new era of discovery and advancement in the field. Videos and code at https://sites.google.com/view/fightladder/home.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 高速フォワードハミルトニアン進化を用いた多レベル量子信号処理と基底状態生成への応用

Multi-level quantum signal processing with applications to ground state preparation using fast-forwarded Hamiltonian evolution ( http://arxiv.org/abs/2406.02086v1 )

ライセンス: Link先を確認
Yulong Dong, Lin Lin, (参考訳) 大きなスペクトル半径を持つハミルトンの$H$の基底状態の準備は、電子構造理論や量子場理論など多くの分野で応用されている。 基底状態と一定の重なりを持つ初期状態が与えられ、ハミルトニアン$H$が理想的な高速フォワードプロトコルで効率的にシミュレートできると仮定すると、まず、ユニタリ(LCU)アプローチの線形結合を用いることで、ハミルトニアン進化を制御するためのクエリに対して$\mathcal{O}(\log^2(\|H\| \Delta^{-1})のコストで基底状態を作成することができることを示す。 ここで、$\|H\|$は、スペクトルギャップである$H$と$\Delta$のスペクトル半径である。 しかし、従来の量子信号処理(QSP)ベースの手法は、この効率的なプロトコルを活用できず、コストは$\mathcal{O}(\|H\| \Delta^{-1})$である。 このギャップを埋めるために、高速転送機能を利用するマルチレベルQSPベースのアルゴリズムを開発した。 この新しいアルゴリズムは、理想的な高速転送プロトコルが利用可能である場合のLCUアプローチの効率と一致するだけでなく、$\mathcal{O}(\log(\|H\| \Delta^{-1}))$としてスケールするコストも削減されている。 さらに、我々のマルチレベルQSP法では、単一量子ビット回転を実装するために$\mathcal{O}(\log(\|H\| \Delta^{-1}))$係数しか必要としない。 これにより、LCU で PrePARE のオラクルを構築する必要がなくなる。これは、ハミルトニアンが高速フォワードできるかどうかに関わらず、$\mathcal{O}(\|H\| \Delta^{-1})$係数を符号化する状態を作成する。

The preparation of the ground state of a Hamiltonian $H$ with a large spectral radius has applications in many areas such as electronic structure theory and quantum field theory. Given an initial state with a constant overlap with the ground state, and assuming that the Hamiltonian $H$ can be efficiently simulated with an ideal fast-forwarding protocol, we first demonstrate that employing a linear combination of unitaries (LCU) approach can prepare the ground state at a cost of $\mathcal{O}(\log^2(\|H\| \Delta^{-1}))$ queries to controlled Hamiltonian evolution. Here $\|H\|$ is the spectral radius of $H$ and $\Delta$ the spectral gap. However, traditional Quantum Signal Processing (QSP)-based methods fail to capitalize on this efficient protocol, and its cost scales as $\mathcal{O}(\|H\| \Delta^{-1})$. To bridge this gap, we develop a multi-level QSP-based algorithm that exploits the fast-forwarding feature. This novel algorithm not only matches the efficiency of the LCU approach when an ideal fast-forwarding protocol is available, but also exceeds it with a reduced cost that scales as $\mathcal{O}(\log(\|H\| \Delta^{-1}))$. Additionally, our multi-level QSP method requires only $\mathcal{O}(\log(\|H\| \Delta^{-1}))$ coefficients for implementing single qubit rotations. This eliminates the need for constructing the PREPARE oracle in LCU, which prepares a state encoding $\mathcal{O}(\|H\| \Delta^{-1})$ coefficients regardless of whether the Hamiltonian can be fast-forwarded.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 西欧、教育、工業化、富裕、民主はいかにソーシャル・コンピューティング・リサーチか?

How Western, Educated, Industrialized, Rich, and Democratic is Social Computing Research? ( http://arxiv.org/abs/2406.02090v1 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia, (参考訳) ソーシャルコンピューティングの研究の多くは、本質的にバイアスを伴うソーシャルメディアプラットフォームからのデータを分析している。 このような偏見の見過ごされた源は、WEIRD (Western, Educated, Industrialized, Rich, Democratic) 人口の過剰表現である。 我々は、AAAI ICWSMカンファレンスで発表された研究において、WEIRD人口に対する依存度を評価した。 私たちは2018年から2022年にかけて発行された494の論文を分析しました。 合成データセットを解析する論文や、明確な起源の国を欠いた論文をフィルタリングした後、420件の論文から、WEIRDスコア計算のための完全な手動検証データを用いたクラウドソーシング研究188件の論文を抽出した。 このデータは、既存のWEIRDメトリクスをソーシャルメディアデータに適用するために使用される。 その結果、これらの論文の37%は、欧米のデータにのみ焦点をあてていることがわかった。 この割合は、CHI (76%) とFAccT (84%) の会議で観測された割合よりも著しく低く、ICWSM内のデータセット起源の多様性を示唆している。 しかし、ICWSMの研究では、FAccTと比較して教育、工業化、リッチの国の人口を多く調べており、特に政治的自由と権利を反映した「民主的」な変数について言及している。 このことは、政治的自由が制限された国からの発見を隠蔽するソーシャルメディアデータの有用性を指摘する。 これらの知見に基づき、WEIRDバイアスを考慮に入れた現在の「ペーパーチェックリスト」の拡張を推奨するとともに、未表示地域からの多様なデータセットの使用を奨励し、研究の傾きを広げるようコミュニティに呼びかける。

Much of the research in social computing analyzes data from social media platforms, which may inherently carry biases. An overlooked source of such bias is the over-representation of WEIRD (Western, Educated, Industrialized, Rich, and Democratic) populations, which might not accurately mirror the global demographic diversity. We evaluated the dependence on WEIRD populations in research presented at the AAAI ICWSM conference; the only venue whose proceedings are fully dedicated to social computing research. We did so by analyzing 494 papers published from 2018 to 2022, which included full research papers, dataset papers and posters. After filtering out papers that analyze synthetic datasets or those lacking clear country of origin, we were left with 420 papers from which 188 participants in a crowdsourcing study with full manual validation extracted data for the WEIRD scores computation. This data was then used to adapt existing WEIRD metrics to be applicable for social media data. We found that 37% of these papers focused solely on data from Western countries. This percentage is significantly less than the percentages observed in research from CHI (76%) and FAccT (84%) conferences, suggesting a greater diversity of dataset origins within ICWSM. However, the studies at ICWSM still predominantly examine populations from countries that are more Educated, Industrialized, and Rich in comparison to those in FAccT, with a special note on the 'Democratic' variable reflecting political freedoms and rights. This points out the utility of social media data in shedding light on findings from countries with restricted political freedoms. Based on these insights, we recommend extensions of current "paper checklists" to include considerations about the WEIRD bias and call for the community to broaden research inclusivity by encouraging the use of diverse datasets from underrepresented regions.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# MaskSR:全帯域音声復元のためのマスクド言語モデル

MaskSR: Masked Language Model for Full-band Speech Restoration ( http://arxiv.org/abs/2406.02092v1 )

ライセンス: Link先を確認
Xu Li, Qirui Wang, Xiaoyu Liu, (参考訳) 音声の復元は,様々な歪みが存在する場合に高品質な音声を復元することを目的としている。 この課題のためにいくつかのディープラーニングパラダイムが研究されているが、最近登場した言語モデルのパワーは十分に研究されていない。 本稿では,雑音,リバーブ,クリップング,低帯域を考慮したフルバンド44.1kHz音声の復元が可能なマスク付き言語モデルMaskSRを提案する。 MaskSRは、事前訓練されたニューラルコーデックを用いて抽出された離散音響トークンで動作する。 トレーニング中、MaskSRは、高品質なターゲット音声から抽出されたランダムなマスク付きトークンを様々な歪みで条件付きで予測するように最適化されている。 推論中、MaskSRは効率的な反復サンプリングでターゲットの音声トークンを再構成する。 広汎な実験により,MaskSRは全帯域音声復元タスクとサブタスクの両方において,幅広いモデルと比較して競争結果が得られることがわかった。

Speech restoration aims at restoring high quality speech in the presence of a diverse set of distortions. Although several deep learning paradigms have been studied for this task, the power of the recently emerging language models has not been fully explored. In this paper, we propose MaskSR, a masked language model capable of restoring full-band 44.1 kHz speech jointly considering noise, reverb, clipping, and low bandwidth. MaskSR works with discrete acoustic tokens extracted using a pre-trained neural codec. During training, MaskSR is optimized to predict randomly masked tokens extracted from the high quality target speech, conditioned on the corrupted speech with various distortions. During inference, MaskSR reconstructs the target speech tokens with efficient iterative sampling. Extensive experiments show that MaskSR obtains competitive results on both the full-band speech restoration task and also on sub-tasks compared with a wide range of models.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# 合成データを用いた大規模言語モデルの数学的外挿探索

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data ( http://arxiv.org/abs/2406.02100v1 )

ライセンス: Link先を確認
Haolong Li, Yu Ma, Yinqi Zhang, Chen Ye, Jie Chen, (参考訳) 大規模言語モデル(LLM)は、言語理解、テキスト生成、コード合成、その他多くのタスクにおいて優れた性能を示してきたが、それでも数学的推論のような複雑な多段階推論問題に苦慮している。 本稿では,新たに提案された算術パズル問題を用いて,高品質な合成データを微調整することで,多段階推論タスクにおいて,モデルが良好に動作することを示す。 3つの異なるテストデータセットのopen-llama-3Bモデルによる実験結果から、モデルが0ショットパス@1に到達できるだけでなく、ドメイン内データセットの0.44に到達できることが示されている。 具体的には、算術パズル問題の数値範囲と構成成分を別々に拡張する形で、ドメイン外データセットを2つ設計した。 微調整されたモデルでは、0ショットパス@1の0.33と0.35の2つのより難しいタスクのパフォーマンスが向上している。

Large Language Models (LLMs) have shown excellent performance in language understanding, text generation, code synthesis, and many other tasks, while they still struggle in complex multi-step reasoning problems, such as mathematical reasoning. In this paper, through a newly proposed arithmetical puzzle problem, we show that the model can perform well on multi-step reasoning tasks via fine-tuning on high-quality synthetic data. Experimental results with the open-llama-3B model on three different test datasets show that not only the model can reach a zero-shot pass@1 at 0.44 on the in-domain dataset, it also demonstrates certain generalization capabilities on the out-of-domain datasets. Specifically, this paper has designed two out-of-domain datasets in the form of extending the numerical range and the composing components of the arithmetical puzzle problem separately. The fine-tuned models have shown encouraging performance on these two far more difficult tasks with the zero-shot pass@1 at 0.33 and 0.35, respectively.
翻訳日:2024-06-05 17:21:12 公開日:2024-06-04
# オンライン計画へのベイズ的アプローチ

A Bayesian Approach to Online Planning ( http://arxiv.org/abs/2406.02103v1 )

ライセンス: Link先を確認
Nir Greshler, David Ben Eli, Carmel Rabinovitz, Gabi Guetta, Liran Gispan, Guy Zohar, Aviv Tamar, (参考訳) モンテカルロ木探索とニューラルネットワークの組み合わせは、オンライン計画に革命をもたらした。 ニューラルネットワークの近似が不完全な場合が多いため、ネットワーク出力に関する不確実性推定が計画の改善に有効かどうかを問う。 このような不確実な定量化を促進するためのベイズ計画手法を開発し、メタ推論文学から古典的な考え方に着想を得た。 我々はトンプソンサンプリングに基づく行動木探索アルゴリズムを提案し、このアルゴリズムはベイズ的後悔境界(Bayesian regret bound)を初めて証明し、後続分布の制限された族に対する効率的な実装を提案する。 さらに,木に応用したベイズ-UCB法の変種を提案する。 実証的に、ProcGen MazeとLeaperの環境では、不確実性推定が正確だがニューラルネットワークの出力が不正確である場合、ベイジアンアプローチはより効果的に木を探索する。 また,一般的な不確実性推定手法が計画において有意な利得が得られるほど正確かどうかを検討した。 私たちのコードは、https://github.com/nirgreshler/bayesian-online-planningで利用可能です。

The combination of Monte Carlo tree search and neural networks has revolutionized online planning. As neural network approximations are often imperfect, we ask whether uncertainty estimates about the network outputs could be used to improve planning. We develop a Bayesian planning approach that facilitates such uncertainty quantification, inspired by classical ideas from the meta-reasoning literature. We propose a Thompson sampling based algorithm for searching the tree of possible actions, for which we prove the first (to our knowledge) finite time Bayesian regret bound, and propose an efficient implementation for a restricted family of posterior distributions. In addition we propose a variant of the Bayes-UCB method applied to trees. Empirically, we demonstrate that on the ProcGen Maze and Leaper environments, when the uncertainty estimates are accurate but the neural network output is inaccurate, our Bayesian approach searches the tree much more effectively. In addition, we investigate whether popular uncertainty estimation methods are accurate enough to yield significant gains in planning. Our code is available at: https://github.com/nirgreshler/bayesian-online-planning.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# Kernel vs. Kernel: データ構造が神経崩壊に与える影響を探る

Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse ( http://arxiv.org/abs/2406.02105v1 )

ライセンス: Link先を確認
Vignesh Kothapalli, Tom Tirer, (参考訳) 近年、ニューラルネットワーク(NN)分類器をゼロトレーニングエラーポイントを超えてトレーニングする際に発生する「ニューラル・コラプス(Neural Collapse)」現象に多くの文献が注目されている。 NCのコアコンポーネントは、NC1と呼ばれるネットワークの最も深い機能の内部変数の減少である。 NCを研究する理論的研究は典型的には、崩壊の程度におけるデータの影響を隠蔽する単純化されていない特徴モデル(UFM)に基づいている。 本稿では,この制限に悩まされないカーネル解析について述べる。 まず、カーネル関数が与えられたとき、サンプルの特徴の内およびクラス間の共分散行列のトレースの式を定式化し、その結果、NC1メトリックスを導出する。 次に、浅いNNに関連するカーネルに焦点を当てる。 まず、初期化時のネットワークに付随するNN Gaussian Process kernel (NNGP) と、"遅延状態"におけるトレーニングに関連する補完的なNeural Tangent Kernel (NTK) について検討する。 興味深いことに、NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していない。 最近提案された適応カーネルは、NNGPを一般化し、トレーニングデータから学習した特徴マッピングをモデル化する。 これら2つのカーネルに対するNC1解析とは対照的に、NNの実践的なトレーニングで観察された動作と経験的に一致した、崩壊の程度におけるデータ分散の影響についての洞察を得ることができる。

Recently, a vast amount of literature has focused on the "Neural Collapse" (NC) phenomenon, which emerges when training neural network (NN) classifiers beyond the zero training error point. The core component of NC is the decrease in the within class variability of the network's deepest features, dubbed as NC1. The theoretical works that study NC are typically based on simplified unconstrained features models (UFMs) that mask any effect of the data on the extent of collapse. In this paper, we provide a kernel-based analysis that does not suffer from this limitation. First, given a kernel function, we establish expressions for the traces of the within- and between-class covariance matrices of the samples' features (and consequently an NC1 metric). Then, we turn to focus on kernels associated with shallow NNs. First, we consider the NN Gaussian Process kernel (NNGP), associated with the network at initialization, and the complement Neural Tangent Kernel (NTK), associated with its training in the "lazy regime". Interestingly, we show that the NTK does not represent more collapsed features than the NNGP for prototypical data models. As NC emerges from training, we then consider an alternative to NTK: the recently proposed adaptive kernel, which generalizes NNGP to model the feature mapping learned from the training data. Contrasting our NC1 analysis for these two kernels enables gaining insights into the effect of data distribution on the extent of collapse, which are empirically aligned with the behavior observed with practical training of NNs.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# MARS:マルチタスク評価データセットを用いた言語モデルのメタ物理推論能力のベンチマーク

MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset ( http://arxiv.org/abs/2406.02106v1 )

ライセンス: Link先を確認
Weiqi Wang, Yangqiu Song, (参考訳) 大規模言語モデル(LLM)が一般化可能な推論能力を持つ意識的エージェントとして機能するためには、環境要因や他のエージェントからのアクションによって引き起こされる分布における状況変化(遷移)を理解するための推論能力を持つことが重要である。 その基本的な重要性にもかかわらず、この能力は、イベントにおける無限の可能性のある変更とその関連する分布をモデル化する複雑さと、状況遷移を伴うベンチマークデータの欠如により、まだ探索されていない。 これらのギャップに対処するために、分布変化を伴う推論を3段階の識別過程として、MetAphysical ReaSoning と呼ばれる新しい定式化を提案する。 次に、各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。 これらの課題はLLMの妥当性を判断する能力について体系的に評価する。 (i)行動の変化 二 変化した行為によって引き起こされる状態、及び 三 行動の変化による状況変化 20 (L)LMの様々なサイズと手法による広範囲な評価は、このプロセスにおける3つのタスクがすべて、微調整後の最先端のLLMやLMにおいても大きな課題を生んでいることを示している。 さらなる分析により、LLMの過小評価の潜在的な原因を明らかにし、それらを大規模概念化分類学で事前訓練することで、その代謝学的推論能力が向上する可能性が示された。 我々のデータとモデルはhttps://github.com/HKUST-KnowComp/MARS.comで公開されています。

To enable Large Language Models (LLMs) to function as conscious agents with generalizable reasoning capabilities, it is crucial that they possess the reasoning ability to comprehend situational changes (transitions) in distribution triggered by environmental factors or actions from other agents. Despite its fundamental significance, this ability remains underexplored due to the complexity of modeling infinite possible changes in an event and their associated distributions, coupled with the lack of benchmark data with situational transitions. Addressing these gaps, we propose a novel formulation of reasoning with distributional changes as a three-step discriminative process, termed as MetAphysical ReaSoning. We then introduce the first-ever benchmark, MARS, comprising three tasks corresponding to each step. These tasks systematically assess LLMs' capabilities in reasoning the plausibility of (i) changes in actions, (ii) states caused by changed actions, and (iii) situational transitions driven by changes in action. Extensive evaluations with 20 (L)LMs of varying sizes and methods indicate that all three tasks in this process pose significant challenges, even for state-of-the-art LLMs and LMs after fine-tuning. Further analyses reveal potential causes for the underperformance of LLMs and demonstrate that pre-training them on large-scale conceptualization taxonomies can potentially enhance their metaphysical reasoning capabilities. Our data and models are publicly accessible at https://github.com/HKUST-KnowComp/MARS.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# UniOQA: 大規模言語モデルを用いた知識グラフ質問応答のための統一フレームワーク

UniOQA: A Unified Framework for Knowledge Graph Question Answering with Large Language Models ( http://arxiv.org/abs/2406.02110v1 )

ライセンス: Link先を確認
Zhuoyang Li, Liran Deng, Hui Liu, Qiaoqiao Liu, Junzhao Du, (参考訳) OwnThinkは、近年導入された中国の最も広範なオープンドメイン知識グラフである。 OwnThink (OQA) に対する質問応答の試みにもかかわらず、既存の研究はモデル表現能力の限界に直面しており、質問応答における全体的な精度をさらに向上させる上での課題となっている。 本稿では、2つの補完的な並列ワークフローを統合する統合フレームワークUniOQAを紹介する。 従来の手法とは異なり、UniOQAは質問応答の精度を高めるために大きな言語モデル(LLM)を使用し、費用対効果の補完として直接回答予測処理を取り入れている。 当初、表現能力を強化するために、私たちはLLMを微調整して質問をCypherクエリ言語(CQL)に翻訳し、制限されたセマンティック理解と幻覚に関連する問題に取り組む。 その後、生成されたCQLの実行可能性を保証するためにEntity and Relation Replacementアルゴリズムを導入します。 同時に,質問応答における総合的精度を高めるために,知識グラフに検索・拡張生成(RAG)プロセスを適用する。 最終的には,動的決定アルゴリズムを用いて解答精度を最適化する。 実験結果によると、UniOQAは特にSpCQL Logical Accuracyを21.2%に、Execution Accuracyを54.9%に改善し、このベンチマークで新たな最先端結果を達成した。 アブレーション実験を通じて、UniOQAの優れた表現能力を調べ、その性能のブレークスルーを定量化する。

OwnThink stands as the most extensive Chinese open-domain knowledge graph introduced in recent times. Despite prior attempts in question answering over OwnThink (OQA), existing studies have faced limitations in model representation capabilities, posing challenges in further enhancing overall accuracy in question answering. In this paper, we introduce UniOQA, a unified framework that integrates two complementary parallel workflows. Unlike conventional approaches, UniOQA harnesses large language models (LLMs) for precise question answering and incorporates a direct-answer-prediction process as a cost-effective complement. Initially, to bolster representation capacity, we fine-tune an LLM to translate questions into the Cypher query language (CQL), tackling issues associated with restricted semantic understanding and hallucinations. Subsequently, we introduce the Entity and Relation Replacement algorithm to ensure the executability of the generated CQL. Concurrently, to augment overall accuracy in question answering, we further adapt the Retrieval-Augmented Generation (RAG) process to the knowledge graph. Ultimately, we optimize answer accuracy through a dynamic decision algorithm. Experimental findings illustrate that UniOQA notably advances SpCQL Logical Accuracy to 21.2% and Execution Accuracy to 54.9%, achieving the new state-of-the-art results on this benchmark. Through ablation experiments, we delve into the superior representation capacity of UniOQA and quantify its performance breakthrough.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# カテゴリー量子ボリューム演算子

Categorical Quantum Volume Operator ( http://arxiv.org/abs/2406.02111v1 )

ライセンス: Link先を確認
Alexander Hahn, Sebastian Murk, Sukhbinder Singh, Gavin K. Brennen, (参考訳) 本稿では、曲面三次元離散幾何学における体積を定量化する量子体積演算子の一般化について述べる。 標準的な形式では、量子体積作用素は、面に$\mathrm{SU}(2)$の既約表現が与えられるテトラヘドラから構成される。 ここでは、融合圏の一般対象を自由度として許容する2つの等価な構成を示す。 まず,リボン融合カテゴリの体積演算子を計算する。 これは、任意のモデルの構成要素であるモジュラーテンソル圏(量子倍数など)の重要なクラスを含む。 第二に、体積作用素を閉包制約(四面体対称性として知られる)のカテゴリー的類似を緩和することにより球面融合圏に一般化する。 どちらの場合も、入力圏がユニタリであることを仮定して、エルミート作用素を得る。 例を挙げると、$\mathrm{SU}(2)_k$ の場合を考え、標準 $\mathrm{SU}(2)$ volume operator が $k\rightarrow\infty$ の極限で回復されることを示す。

We present a generalization of the quantum volume operator quantifying the volume in curved three-dimensional discrete geometries. In its standard form, the quantum volume operator is constructed from tetrahedra whose faces are endowed with irreducible representations of $\mathrm{SU}(2)$. Here, we show two equivalent constructions that allow general objects in fusion categories as degrees of freedom. First, we compute the volume operator for ribbon fusion categories. This includes the important class of modular tensor categories (such as quantum doubles), which are the building blocks of anyon models. Second, we further generalize the volume operator to spherical fusion categories by relaxing the categorical analog of the closure constraint (known as tetrahedral symmetry). In both cases, we obtain a volume operator that is Hermitian, provided that the input category is unitary. As an illustrative example, we consider the case of $\mathrm{SU}(2)_k$ and show that the standard $\mathrm{SU}(2)$ volume operator is recovered in the limit $k\rightarrow\infty$.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# 量子状態の$k$-セパビリティに関する制御されたテレポーテーション能力の検討

Investigating controlled teleportation capability of quantum states with respect to $k$-separability ( http://arxiv.org/abs/2406.02115v1 )

ライセンス: Link先を確認
Minjin Choi, Jeonghyeon Shin, Gunho Lee, Eunok Bae, (参考訳) 量子テレポーテーションは量子エンタングルメントの重要な応用である。 両党の標準テレポーテーション方式におけるテレポーテーションの忠実性の検証は、分離可能な状態と絡み合った状態とを区別する臨界しきい値を示す。 分離可能な状態の場合、テレポーテーションの忠実度は閾値を超えず、絡み合いの重要性を強調する。 我々はこの分析を、制御テレポーテーションとして知られる多人数のシナリオに拡張する。 我々の研究は、$N$-qudit $k$-separable stateがコントロールされたテレポーテーションスキームでは、$N \ge 3$と$2 \le k \le N$を越えられない閾値を提供する。 これは、制御されたテレポーテーションにおけるリソースとして与えられた量子状態を利用するための標準を確立するだけでなく、制御されたテレポーテーション性能に対する絡み合い構造の影響の理解を深める。 さらに,真のマルチパーティ・エンタングルメントは,高度に制御されたテレポーテーション能力を実現するための前提条件ではないことを示す。

Quantum teleportation is an essential application of quantum entanglement. The examination of teleportation fidelity in two-party standard teleportation schemes reveals a critical threshold distinguishing separable and entangled states. For separable states, their teleportation fidelities cannot exceed the threshold, emphasizing the significance of entanglement. We extend this analysis to multi-party scenarios known as controlled teleportation. Our study provides thresholds that $N$-qudit $k$-separable states cannot exceed in a controlled teleportation scheme, where $N \ge 3$ and $2 \le k \le N$. This not only establishes a standard for utilizing a given quantum state as a resource in controlled teleportation but also enhances our understanding of the influence of the entanglement structure on controlled teleportation performance. In addition, we show that genuine multipartite entanglement is not a prerequisite for achieving a high controlled teleportation capability.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# 多目的進化アルゴリズムにおける確率的スピードアップを実現するアーカイブ

An Archive Can Bring Provable Speed-ups in Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2406.02118v1 )

ライセンス: Link先を確認
Chao Bian, Shengjie Ren, Miqing Li, Chao Qian, (参考訳) 多目的進化アルゴリズム(MOEA)の分野では、検索中に生成した非支配的なソリューションをアーカイブで保存する傾向にある。 これは 1)MOEAは,探索過程で廃棄された他の解に支配される劣る解を含む最終集団に容易に到達することができる。 2) 課題のパレートフロントの大きさのコンメンサブルな人口は実用的ではないことが多い。 本稿では,まず,MOEAの高速化を保証できることを示す。 具体的には、一般的に研究されている2つの問題(OneMinMaxとLeadingOnesTrailingZeroes)に対して、2つの確立されたMOEA(NSGA-IIとSMS-EMOA)に対して、アーカイブを使用することで、期待される実行時間に多項式加速度をもたらすことを証明している。 理由は、アーカイブでは人口の規模が小さな一定に減少し、パレートの最適解を全て発見する必要はないからである。 これは既存のMOEAの理論的研究とは対照的である。 本報告は,MOEAの設計において広く普及している実践の理論的確証を提供するだけでなく,より実践的なMOEAの研究において理論コミュニティにとって有益であることを示すものである。

In the area of multi-objective evolutionary algorithms (MOEAs), there is a trend of using an archive to store non-dominated solutions generated during the search. This is because 1) MOEAs may easily end up with the final population containing inferior solutions that are dominated by other solutions discarded during the search process and 2) the population that has a commensurable size of the problem's Pareto front is often not practical. In this paper, we theoretically show, for the first time, that using an archive can guarantee speed-ups for MOEAs. Specifically, we prove that for two well-established MOEAs (NSGA-II and SMS-EMOA) on two commonly studied problems (OneMinMax and LeadingOnesTrailingZeroes), using an archive brings a polynomial acceleration on the expected running time. The reason is that with an archive, the size of the population can reduce to a small constant; there is no need for the population to keep all the Pareto optimal solutions found. This contrasts existing theoretical studies for MOEAs where a population with a commensurable size of the problem's Pareto front is needed. The findings in this paper not only provide a theoretical confirmation for an increasingly popular practice in the design of MOEAs, but can also be beneficial to the theory community towards studying more practical MOEAs.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# Diver: Span-Levelの相互情報検証による大規模言語モデルデコーディング

Diver: Large Language Model Decoding with Span-Level Mutual Information Verification ( http://arxiv.org/abs/2406.02120v1 )

ライセンス: Link先を確認
Jinliang Lu, Chen Wang, Jiajun Zhang, (参考訳) 大規模言語モデル(LLM)は、タスク固有の命令を提供すると、様々なタスクに適応する優れた能力を示す。 しかし、標準復号法を用いるLCMは入力からの逸脱にしばしば苦労する。 直感的には、LLMの出力は入力に存在する情報を反映すべきであり、これはポイントワイド相互情報(PMI)スコアで測定できる。 そこで本研究では,分散レベルのPMI検証によりLLMデコーディングを向上させる新しいアプローチであるDiverを提案する。 推論の間、Diverはまず複数の候補スパンにつながる可能性のある分岐ステップを特定する。 その後、候補スパンが発生した場合の入力のログライクなゲインを評価してPMIスコアを算出する。 最後に、PMI再ランク出力分布に基づいて最適スパンを選択する。 提案手法を様々な下流タスクで評価し,Diverが既存のデコード手法を性能と汎用性の両方で著しく上回っていることを示す実験結果を得た。

Large language models (LLMs) have shown impressive capabilities in adapting to various tasks when provided with task-specific instructions. However, LLMs using standard decoding strategies often struggle with deviations from the inputs. Intuitively, compliant LLM outputs should reflect the information present in the input, which can be measured by point-wise mutual information (PMI) scores. Therefore, we propose Diver, a novel approach that enhances LLM Decoding through span-level PMI verification. During inference, Diver first identifies divergence steps that may lead to multiple candidate spans. Subsequently, it calculates the PMI scores by assessing the log-likelihood gains of the input if the candidate spans are generated. Finally, the optimal span is selected based on the PMI re-ranked output distributions. We evaluate our method across various downstream tasks, and empirical results demonstrate that Diver significantly outperforms existing decoding methods in both performance and versatility.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# ドメインゲーム:単一ドメインの一般化セグメンテーションのための解剖学的異方性

Domain Game: Disentangle Anatomical Feature for Single Domain Generalized Segmentation ( http://arxiv.org/abs/2406.02125v1 )

ライセンス: Link先を確認
Hao Chen, Hongrun Zhang, U Wang Chan, Rui Yin, Xiaofei Wang, Chao Li, (参考訳) 単一ドメインの一般化は、配布外一般化の問題に1つのソースドメインで対処することを目的としている。 特徴分散はこの目的に対する古典的な解決策であり、抽出されたタスク関連機能はドメインシフトに対して回復力があると仮定される。 しかし、単一ドメインのシナリオにおける他のドメインからの参照がないことは、特徴の絡み合い(ill-posedness)において重大な不確実性をもたらす。 本稿では, 診断関連特徴が幾何学的変換に敏感であることから, 医用画像のセグメンテーションにおいて, より優れた特徴分散を実現するためのフレームワークである「textit{Domain Game}」を提案する。 ドメインゲームでは,特定音源画像から得られたランダムに変換された画像の集合を2つの特徴集合に戦略的に符号化し,それぞれが診断的特徴とドメイン固有の特徴を表現する。 クロスサイトテスト領域の評価の結果、前立腺のセグメンテーションが約11.8%、脳腫瘍のセグメンテーションが約10.5%向上した。

Single domain generalization aims to address the challenge of out-of-distribution generalization problem with only one source domain available. Feature distanglement is a classic solution to this purpose, where the extracted task-related feature is presumed to be resilient to domain shift. However, the absence of references from other domains in a single-domain scenario poses significant uncertainty in feature disentanglement (ill-posedness). In this paper, we propose a new framework, named \textit{Domain Game}, to perform better feature distangling for medical image segmentation, based on the observation that diagnostic relevant features are more sensitive to geometric transformations, whilist domain-specific features probably will remain invariant to such operations. In domain game, a set of randomly transformed images derived from a singular source image is strategically encoded into two separate feature sets to represent diagnostic features and domain-specific features, respectively, and we apply forces to pull or repel them in the feature space, accordingly. Results from cross-site test domain evaluation showcase approximately an ~11.8% performance boost in prostate segmentation and around ~10.5% in brain tumor segmentation compared to the second-best method.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# CityLight: 現実の都市規模の交通信号制御コーディネーションに向けたユニバーサルモデル

CityLight: A Universal Model Towards Real-world City-scale Traffic Signal Control Coordination ( http://arxiv.org/abs/2406.02126v1 )

ライセンス: Link先を確認
Jinwei Zeng, Chao Yu, Xinyi Yang, Wenxuan Ao, Jian Yuan, Yong Li, Yu Wang, Huazhong Yang, (参考訳) 交通信号制御(TSC)は、既存の道路インフラに影響を与えることなく、交通効率を高めるための安価な手段である。 様々な強化学習に基づくTSC法が提案され、従来のルールベース法よりも実験的に優れているが、いずれも実世界では展開されていない。 重要なギャップは、交差点の不均一性と道路網の複雑度の観点からシナリオの単純化にある。 TSCを都市交通管理に適用するために,都市レベルの拡張性,現実世界の交差点の不均一性,複雑な近隣の接続間の効果的な協調性という,3つの特異かつ重要な課題を解決することを目的として,都市規模高速道路網におけるTSC協調を目標とする。 パラメータ共有パラダイムにおける複数のエージェントの最適化は,トレーニング効率の向上とスケーラビリティ向上に寄与するので,パラメータ共有MAPPOをよく認識した最適化フレームワークであるCityLightを提案する。 統合政策ネットワークが大規模な異種交差点に適合し、隣同士の複雑な調整に取り組むことを確実にするために、CityLightは2つの重要な設計である異種交差点アライメントと、調整のための近傍衝撃アライメントからなる普遍的表現モジュールを提案する。 コーディネーションをさらに強化するため、CityLightは近隣統合報酬を採用して、局所最適からグローバル最適への移行を目指している。 数百から数万の現実世界の交差点と真のトラフィック要求を持つデータセットに対する大規模な実験は、CityLightの驚くべき有効性と一般化性を実証し、全体的なパフォーマンスは11.66%、スループットの観点からは転送シナリオが22.59%向上した。

Traffic signal control (TSC) is a promising low-cost measure to enhance transportation efficiency without affecting existing road infrastructure. While various reinforcement learning-based TSC methods have been proposed and experimentally outperform conventional rule-based methods, none of them has been deployed in the real world. An essential gap lies in the oversimplification of the scenarios in terms of intersection heterogeneity and road network intricacy. To make TSC applicable in urban traffic management, we target TSC coordination in city-scale high-authenticity road networks, aiming to solve the three unique and important challenges: city-level scalability, heterogeneity of real-world intersections, and effective coordination among intricate neighbor connections. Since optimizing multiple agents in a parameter-sharing paradigm can boost the training efficiency and help achieve scalability, we propose our method, CityLight, based on the well-acknowledged optimization framework, parameter-sharing MAPPO. To ensure the unified policy network can learn to fit large-scale heterogeneous intersections and tackle the intricate between-neighbor coordination, CityLight proposes a universal representation module that consists of two key designs: heterogeneous intersection alignment and neighborhood impact alignment for coordination. To further boost coordination, CityLight adopts neighborhood-integrated rewards to transition from achieving local optimal to global optimal. Extensive experiments on datasets with hundreds to tens of thousands of real-world intersections and authentic traffic demands validate the surprising effectiveness and generalizability of CityLight, with an overall performance gain of 11.66% and a 22.59% improvement in transfer scenarios in terms of throughput.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# エネルギー-運動量とスピン電流の非特異性について

On the non-uniqueness of the energy-momentum and spin currents ( http://arxiv.org/abs/2406.02127v1 )

ライセンス: Link先を確認
Rajeev Singh, (参考訳) 相対論的スピン流体力学のマクロエネルギー-運動量とスピン密度は、それぞれの微視的定義(量子演算子)のアンサンブル平均から得られる。 これらの微視的定義は曖昧さに悩まされており、つまり、擬ゲージ変換(あるいは言い換えればベリンファント改善手順)を通じて対称エネルギー-運動量テンソルとスピンテンソルの異なる形式を得ることができる。 しかし、ネーターの第1定理を広く使用するのではなく、ネーターの第2定理を用いてこれらの電流を得る場合、この曖昧さは取り除くことができる。 本稿では、ネーターの第二定理を用いて、スピン 1-半の自由ディラック粒子に対する擬ゲージ変換を必要とせず、(対称)エネルギー-運動量テンソルと(反対称)スピンテンソルを導出する。

The macroscopic energy-momentum and spin densities of relativistic spin hydrodynamics are obtained from the ensemble average of their respective microscopic definitions (quantum operators). These microscopic definitions suffer from ambiguities, meaning that, one may obtain different forms of symmetric energy-momentum tensor and spin tensor through pseudogauge transformations (or in other words Belinfante improvement procedure). However, this ambiguity can be removed if we obtain these currents using Noether's second theorem instead of widely used Noether's first theorem. In this article, we use Noether's second theorem to derive (symmetric) energy-momentum tensor and (antisymmetric) spin tensor without the need of pseudogauge transformations for free Dirac massive particles with spin one-half.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# イテレーションヘッド: チェーン・オブ・サードの力学的研究

Iteration Head: A Mechanistic Study of Chain-of-Thought ( http://arxiv.org/abs/2406.02128v1 )

ライセンス: Link先を確認
Vivien Cabannes, Charles Arnal, Wassim Bouaziz, Alice Yang, Francois Charton, Julia Kempe, (参考訳) CoT(Chain-of-Thought)推論は、経験的および理論的近似の両面で大きな言語モデルを改善することが知られている。 しかしながら、CoT能力の内的動作と評価条件に対する我々の理解は限定的であり続けている。 本稿では,制御・解釈可能な環境下での変圧器におけるCoT推論の出現を実証することにより,このギャップを埋めることを支援する。 特に,反復的推論を専門とする特別な注意機構の出現を観察し,これを「イテレーションヘッド」と呼ぶ。 これらのイテレーションの出現と正確な作業の両方を注意レベルまで追跡し、タスク間で生じるCoTスキルの伝達可能性を測定します。

Chain-of-Thought (CoT) reasoning is known to improve Large Language Models both empirically and in terms of theoretical approximation power. However, our understanding of the inner workings and conditions of apparition of CoT capabilities remains limited. This paper helps fill this gap by demonstrating how CoT reasoning emerges in transformers in a controlled and interpretable setting. In particular, we observe the appearance of a specialized attention mechanism dedicated to iterative reasoning, which we coined "iteration heads". We track both the emergence and the precise working of these iteration heads down to the attention level, and measure the transferability of the CoT skills to which they give rise between tasks.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# リング内の2種類の超低温原子によるスピン軌道と超微粒子シミュレーション

Spin Orbit and Hyperfine Simulations with Two-Species Ultracold Atoms in a Ring ( http://arxiv.org/abs/2406.02130v1 )

ライセンス: Link先を確認
Allison Brattley, Tomáš Opatrný, Kunal K. Das, (参考訳) 集合スピンモデルを用いて、トロイダルトラップに閉じ込められた相互に相互作用する超低温ボソニック原子の2種を記述する。 この系はハミルトニアンによってモデル化され、線形部分と二次部分の2つの成分に分けられ、独立に制御できる。 線形成分はゼーマン・ハミルトニアンのアナログであり、二次成分はスピン軌道と超微細相互作用のマクロスコピックシミュレータを提供する。 線形ハミルトニアンと二次ハミルトニアンの両方に対する可換可観測物の完全な集合を決定し、それぞれのスペクトルと状態の密度に関する解析式を導出する。 我々は、量子情報の領域のようなスピン次数の自由度間の量子相関を含む応用の観点から、2種類の原子間の最大絡み合いを生成する条件を決定する。

A collective spin model is used to describe two species of mutually interacting ultracold bosonic atoms confined to a toroidal trap. The system is modeled by a Hamiltonian that can be split into two components, a linear part and a quadratic part, which may be controlled independently. We show the linear component is an analog of a Zeeman Hamiltonian, and the quadratic component presents a macroscopic simulator for spin-orbit and hyperfine interactions. We determine a complete set of commuting observables for both the linear and quadratic Hamiltonians, and derive analytical expressions for their respective spectra and density of states. We determine the conditions for generating maximal entanglement between the two species of atoms with a view to applications involving quantum correlations among spin degrees of freedom, such as in the area of quantum information.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# CondTSF: 時系列予測のためのデータセット凝縮の一行プラグイン

CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting ( http://arxiv.org/abs/2406.02131v1 )

ライセンス: Link先を確認
Jianrong Ding, Zhanyu Liu, Guanjie Zheng, Haiming Jin, Linghe Kong, (参考訳) Dataset Condensationは、ディープラーニングのトレーニングに使用できる小さなデータセットを生成して、トレーニングコストを削減できる、生まれたばかりのテクニックだ。 データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。 しかし、既存の手法は主に分類タスクに集中しており、時系列予測(TS予測)への適応に挑戦している。 この課題は、合成データの評価における相違から生じる。 分類において、合成データは、全データセットで訓練されたモデルと、合成データセットで訓練されたモデルが、出力ロジット分布のばらつきにかかわらず、同一のラベルを同じ入力のために生成した場合、よく蒸留されると考えられる。 逆に, TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。 合成データは、予測内のすべてのデータポイントが類似している場合にのみよく蒸留される。 その結果,TS予測は分類よりも厳密な評価手法が得られた。 このギャップを緩和するため,TS予測のためのデータセット凝縮の最適化目標を理論的に分析し,時系列予測のためのデータセット凝縮(CondTSF)として指定されたデータセット凝縮の1行プラグインを提案する。 CondTSFを以前のデータセット凝縮法にプラグインすることで、完全なデータセットでトレーニングされたモデルの予測と合成データセットでトレーニングされたモデルとの距離の短縮が容易になり、パフォーマンスが向上する。 一般的に用いられている8つの時系列データセットについて広範な実験を行う。 CondTSFは、すべてのデータセット、特に低凝縮率において、以前のデータセット凝縮メソッドのパフォーマンスを一貫して改善する。

Dataset condensation is a newborn technique that generates a small dataset that can be used in training deep neural networks to lower training costs. The objective of dataset condensation is to ensure that the model trained with the synthetic dataset can perform comparably to the model trained with full datasets. However, existing methods predominantly concentrate on classification tasks, posing challenges in their adaptation to time series forecasting (TS-forecasting). This challenge arises from disparities in the evaluation of synthetic data. In classification, the synthetic data is considered well-distilled if the model trained with the full dataset and the model trained with the synthetic dataset yield identical labels for the same input, regardless of variations in output logits distribution. Conversely, in TS-forecasting, the effectiveness of synthetic data distillation is determined by the distance between predictions of the two models. The synthetic data is deemed well-distilled only when all data points within the predictions are similar. Consequently, TS-forecasting has a more rigorous evaluation methodology compared to classification. To mitigate this gap, we theoretically analyze the optimization objective of dataset condensation for TS-forecasting and propose a new one-line plugin of dataset condensation designated as Dataset Condensation for Time Series Forecasting (CondTSF) based on our analysis. Plugging CondTSF into previous dataset condensation methods facilitates a reduction in the distance between the predictions of the model trained with the full dataset and the model trained with the synthetic dataset, thereby enhancing performance. We conduct extensive experiments on eight commonly used time series datasets. CondTSF consistently improves the performance of all previous dataset condensation methods across all datasets, particularly at low condensing ratios.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# SimulTron: オンデバイス同時音声翻訳

SimulTron: On-Device Simultaneous Speech to Speech Translation ( http://arxiv.org/abs/2406.02133v1 )

ライセンス: Link先を確認
Alex Agranovich, Eliya Nachmani, Oleg Rybakov, Yifan Ding, Ye Jia, Nadav Bar, Heiga Zen, Michelle Tadmor Ramanovich, (参考訳) 同時音声音声翻訳(S2ST)は、コミュニケーション障壁を分解し、言語間での会話を可能にするという約束を果たす。 しかし、モバイルデバイスによる正確なリアルタイム翻訳を実現することは、依然として大きな課題だ。 この課題に対処するために設計された新しいS2STアーキテクチャであるSimulTronを紹介する。 SimulTronは、Translatotronフレームワークの強度を使用し、ストリーミング操作のための重要な変更と調整可能な固定遅延を組み込んだ軽量な直接S2STモデルである。 実験の結果, SimulTron は Translatotron 2 のオフライン評価に勝っていることがわかった。 さらに、リアルタイム評価では、Translatotron 1で達成した性能が改善されている。 さらに、MuST-Cデータセット上の従来のリアルタイムS2ST法と比較して、SimulTronはBLEUスコアとレイテンシが優れている。 重要なことに、私たちはSimulTronをPixel 7 Proデバイスにデプロイすることに成功し、S2STをオンデバイスで同時に使用する可能性を示しました。

Simultaneous speech-to-speech translation (S2ST) holds the promise of breaking down communication barriers and enabling fluid conversations across languages. However, achieving accurate, real-time translation through mobile devices remains a major challenge. We introduce SimulTron, a novel S2ST architecture designed to tackle this task. SimulTron is a lightweight direct S2ST model that uses the strengths of the Translatotron framework while incorporating key modifications for streaming operation, and an adjustable fixed delay. Our experiments show that SimulTron surpasses Translatotron 2 in offline evaluations. Furthermore, real-time evaluations reveal that SimulTron improves upon the performance achieved by Translatotron 1. Additionally, SimulTron achieves superior BLEU scores and latency compared to previous real-time S2ST method on the MuST-C dataset. Significantly, we have successfully deployed SimulTron on a Pixel 7 Pro device, show its potential for simultaneous S2ST on-device.
翻訳日:2024-06-05 17:11:25 公開日:2024-06-04
# 放射線学レポートインプレッションの要約における大規模言語モデルの現状

The current status of large language models in summarizing radiology report impressions ( http://arxiv.org/abs/2406.02134v1 )

ライセンス: Link先を確認
Danqing Hu, Shanyuan Zhang, Qing Liu, Xiaofeng Zhu, Bing Liu, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、特にテキスト生成において、様々な自然言語処理タスクにおいて優れた機能を示す。 放射線学報告印象の要約におけるLSMsの有効性はいまだ不明である。 本研究では,放射線学報告の印象要約における8つのLDMの能力について検討した。 北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。 本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。 自動定量的評価尺度の他に, 完全性, 完全性, 正当性, 正確性, 妥当性, 代替可能性の5つの評価指標を定義し, 生成した印象のセマンティクスを評価する。 2人の胸部外科医(ZSYとLB)と1人の放射線技師(LQ)は、生成された印象を基準印象と比較し、5人の評価基準で各印象を評価する。 実験結果から, 生成した印象と参照印象との間にはギャップがあることが示唆された。 LLMは完全性と正確性において同等のパフォーマンスを達成しているが、簡潔さと精度はそれほど高くない。 数発のプロンプトを使用すれば、簡潔さと精度でLSMのパフォーマンスを向上させることができるが、臨床医は、LSMは放射線学の印象を要約する際に、放射線学者に取って代わることはできないと考えている。

Large language models (LLMs) like ChatGPT show excellent capabilities in various natural language processing tasks, especially for text generation. The effectiveness of LLMs in summarizing radiology report impressions remains unclear. In this study, we explore the capability of eight LLMs on the radiology report impression summarization. Three types of radiology reports, i.e., CT, PET-CT, and Ultrasound reports, are collected from Peking University Cancer Hospital and Institute. We use the report findings to construct the zero-shot, one-shot, and three-shot prompts with complete example reports to generate the impressions. Besides the automatic quantitative evaluation metrics, we define five human evaluation metrics, i.e., completeness, correctness, conciseness, verisimilitude, and replaceability, to evaluate the semantics of the generated impressions. Two thoracic surgeons (ZSY and LB) and one radiologist (LQ) compare the generated impressions with the reference impressions and score each impression under the five human evaluation metrics. Experimental results show that there is a gap between the generated impressions and reference impressions. Although the LLMs achieve comparable performance in completeness and correctness, the conciseness and verisimilitude scores are not very high. Using few-shot prompts can improve the LLMs' performance in conciseness and verisimilitude, but the clinicians still think the LLMs can not replace the radiologists in summarizing the radiology impressions.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# オンラインEコマースとLLM検索のためのロバストインタラクションに基づく関連モデリング

Robust Interaction-based Relevance Modeling for Online E-Commerce and LLM-based Retrieval ( http://arxiv.org/abs/2406.02135v1 )

ライセンス: Link先を確認
Ben Chen, Huangyu Dai, Xiang Ma, Wen Jiang, Wei Ning, (参考訳) セマンティックな関連性計算はeコマース検索エンジンにとって重要であり、選択した項目が顧客の意図と密接に一致していることを保証する。 この側面に対する不適切な注意は、ユーザエクスペリエンスとエンゲージメントに有害な影響を与える可能性がある。 従来のテキストマッチング技術は一般的であるが、しばしば検索意図のニュアンスを正確に捉えることができないため、ニューラルネットワークはそのような複雑なテキストマッチングを処理するための好ましいソリューションとなっている。 既存の手法は主に表現に基づくアーキテクチャを採用しており、これは高トラフィック容量と低レイテンシのバランスをとる。 しかし、それらは相互作用ベースのアーキテクチャと比較して、一般化と堅牢性において重大な欠点を示す。 本稿では,これらの欠点に対処するために,ロバストな相互作用に基づくモデリングパラダイムを導入する。 包含する 1) 高速推論のための動的長さ表現方式 2)複雑な文構造から主題と中核属性を識別する専門用語認識方法 3)モデルの堅牢性と整合性を高めるための対照的な敵トレーニングプロトコル。 大規模なオフライン評価は、我々のアプローチの堅牢性と有効性を示し、オンラインA/Bテストは、同じ露出位置における関連性を改善する能力を確認し、より多くのクリックと変換をもたらす。 我々の知る限りでは、この手法は大規模なeコマース検索関連性計算のための対話に基づく最初のアプローチである。 Alibaba.comは世界最大のB2B電子商取引プラットフォームだ。

Semantic relevance calculation is crucial for e-commerce search engines, as it ensures that the items selected closely align with customer intent. Inadequate attention to this aspect can detrimentally affect user experience and engagement. Traditional text-matching techniques are prevalent but often fail to capture the nuances of search intent accurately, so neural networks now have become a preferred solution to processing such complex text matching. Existing methods predominantly employ representation-based architectures, which strike a balance between high traffic capacity and low latency. However, they exhibit significant shortcomings in generalization and robustness when compared to interaction-based architectures. In this work, we introduce a robust interaction-based modeling paradigm to address these shortcomings. It encompasses 1) a dynamic length representation scheme for expedited inference, 2) a professional terms recognition method to identify subjects and core attributes from complex sentence structures, and 3) a contrastive adversarial training protocol to bolster the model's robustness and matching capabilities. Extensive offline evaluations demonstrate the superior robustness and effectiveness of our approach, and online A/B testing confirms its ability to improve relevance in the same exposure position, resulting in more clicks and conversions. To the best of our knowledge, this method is the first interaction-based approach for large e-commerce search relevance calculation. Notably, we have deployed it for the entire search traffic on alibaba.com, the largest B2B e-commerce platform in the world.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# $\ell_p^p$-metricにおけるマトリックス機構の最適性

Optimality of Matrix Mechanism on $\ell_p^p$-metric ( http://arxiv.org/abs/2406.02140v1 )

ライセンス: Link先を確認
Jingcheng Liu, Jalaj Upadhyay, Zongrui Zou, (参考訳) 本稿では,差分プライバシーの制約の下で線形クエリに応答する場合に,$\ell_p^p$-errorメトリック($p \geq 2$)を導入する。 そのようなエラーを$(\epsilon,\delta)$-differential privacyで特徴づける。 本稿では, 線形クエリをプライベートに応答する難易度を, 未バイアス機構に対する$\ell_2^2$-error(Edmonds et al , STOC 2020)と$\ell_p^2$-error(Nikolov and Tang, ITCS 2024)で評価した。 結果の直接的な帰結として、差分プライバシーの下では、$\ell_p^p$エラーという条件で全ての定数$p$に対して、プレフィックス和とパリティクエリの応答に厳密なバウンダリを与え、$p=2$でHenzinger et al (SODA 2023) のバウンダリを一般化する。

In this paper, we introduce the $\ell_p^p$-error metric (for $p \geq 2$) when answering linear queries under the constraint of differential privacy. We characterize such an error under $(\epsilon,\delta)$-differential privacy. Before this paper, tight characterization in the hardness of privately answering linear queries was known under $\ell_2^2$-error metric (Edmonds et al., STOC 2020) and $\ell_p^2$-error metric for unbiased mechanisms (Nikolov and Tang, ITCS 2024). As a direct consequence of our results, we give tight bounds on answering prefix sum and parity queries under differential privacy for all constant $p$ in terms of the $\ell_p^p$ error, generalizing the bounds in Henzinger et al. (SODA 2023) for $p=2$.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# 複合劣化が顔認識に及ぼす影響の分析

Analyzing the Effect of Combined Degradations on Face Recognition ( http://arxiv.org/abs/2406.02142v1 )

ライセンス: Link先を確認
Erdi Sarıtaş, Hazım Kemal Ekenel, (参考訳) 顔認識モデルは一般的に、制御された環境から収集される可能性のある画像の大きなデータセットに基づいて訓練される。 これにより、クリーン画像とインザワイルド画像の領域ギャップによる実世界のシナリオに適用した場合のパフォーマンスの相違が生じる。 そのため, 合成劣化の解析により, これらのモデルの堅牢性を検討した研究者もいる。 しかし、既存の研究は主に1つの分解因子に焦点を当てており、これは現実世界の劣化の複雑さを完全に捉えていないかもしれない。 この研究は、露光条件下で拡張された実世界の劣化パイプラインを用いて、単一および複合的な劣化の影響を分析することにより、この問題に対処する。 実験にはLFWデータセットを使用し、検証精度に基づいてモデルの性能を評価する。 その結果, 単一および複合劣化は異種モデル挙動を示すことが明らかとなった。 劣化の複合効果は、その単一効果が無視可能であっても性能を著しく低下させる。 この研究は、実世界の環境における顔認識モデルの堅牢性を評価するために、実世界の複雑さを考慮に入れることの重要性を強調している。 コードはhttps://github.com/ThEnded32/AnalyzingCombinedDegradationsで公開されている。

A face recognition model is typically trained on large datasets of images that may be collected from controlled environments. This results in performance discrepancies when applied to real-world scenarios due to the domain gap between clean and in-the-wild images. Therefore, some researchers have investigated the robustness of these models by analyzing synthetic degradations. Yet, existing studies have mostly focused on single degradation factors, which may not fully capture the complexity of real-world degradations. This work addresses this problem by analyzing the impact of both single and combined degradations using a real-world degradation pipeline extended with under/over-exposure conditions. We use the LFW dataset for our experiments and assess the model's performance based on verification accuracy. Results reveal that single and combined degradations show dissimilar model behavior. The combined effect of degradation significantly lowers performance even if its single effect is negligible. This work emphasizes the importance of accounting for real-world complexity to assess the robustness of face recognition models in real-world settings. The code is publicly available at https://github.com/ThEnded32/AnalyzingCombinedDegradations.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# 大規模言語モデルとの連立によるステンス検出とデバッキングの強化チューニング

Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models ( http://arxiv.org/abs/2406.02143v1 )

ライセンス: Link先を確認
Ruichao Yang, Wei Gao, Jing Ma, Hongzhan Lin, Bo Wang, (参考訳) 姿勢を共同で検出し,噂を検証するためのマルチタスクモデルの学習は,ポストレベルでの姿勢データとクレームレベルでの噂の正確性の必要性から,難易度の高い課題を提起する。 この問題に対処するために、我々は、JSDRVと呼ばれる共同姿勢検出(SD)および噂検証(RV)タスクの基盤アノテータとして、大規模言語モデル(LLM)を活用している。 LLM ベースの SD と RV コンポーネントのジョイント予測能力を向上する新たな強化チューニングフレームワークを提案する。 具体的には、2つのレベルにおいてLLMアノテーション付きデータを選択するためのポリシーを考案し、両タスクを効果的にLLM微調整するために高品質なラベルを選択するためのハイブリッド報酬機構を用いた。 以上の結果から,JSDRVは協調作業におけるLLMの能力を向上し,最先端の手法に勝るだけでなく,タスクモデルとして適合する非LLMにも一般化することを示した。

Learning multi-task models for jointly detecting stance and verifying rumors poses challenges due to the need for training data of stance at post level and rumor veracity at claim level, which are difficult to obtain. To address this issue, we leverage large language models (LLMs) as the foundation annotators for the joint stance detection (SD) and rumor verification (RV) tasks, dubbed as JSDRV. We introduce a novel reinforcement tuning framework to enhance the joint predictive capabilities of LLM-based SD and RV components. Specifically, we devise a policy for selecting LLM-annotated data at the two levels, employing a hybrid reward mechanism to choose high-quality labels for effective LLM fine-tuning on both tasks. Results demonstrate that JSDRV improves the capabilities of LLMs in the joint tasks, not only outperforming state-of-the-art methods but also generalizing to non-LLMs accommodated as task models.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# ニッケルラジカル分子複合体(Et3NH)[Ni(hfac)2L]の室温絡み

Room-temperature entanglement of the nickel-radical molecular complex (Et3NH)[Ni(hfac)2L] ( http://arxiv.org/abs/2406.02144v1 )

ライセンス: Link先を確認
Jozef Strecka, Elham Shahhosseini Shahrabadi, (参考訳) 2-(2-ヒドロキシ-3-メトキシ-5-ニトロフェニル)-4,4,5,5-テトラメチル-4,5-ジヒドロ-1H-イミダゾール-3-オキシル、hfacHはヘキサフルオロアセトンである。 磁性の観点からは、分子化合物(Et3NH)[Ni(hfac)2L]は交換結合したスピン-1 Ni2+磁性イオンとスピン-1/2ニトロニル-ニトロオキシドラジカル置換ニトロフェノールからなる。 ニッケルラジカル分子錯体は、強い反強磁性交換結合J/kB = 505Kと2つの異なるg-因子gRad=2.005とgNi=2.275との混合スピン(1/2, 1)ハイゼンベルク二量体を実験的に実現することができる。 この磁気パラメーターを用いて、弱い磁場による量子強磁性基底状態二重項のゼーマン分裂は、低温における二部格子の絡み合いの強さを著しく補強することを示した。 本発明の磁性化合物(Et3NH)[Ni(hfac)2L]は、室温でも十分な熱的絡み合いを保ち、546K以上しか消失しないが、特に、ニッケル-ラジカル分子複合体の熱的絡み合いは、室温で完全に絡み合うベル状態に対応する最大値の約40%を保ち、室温量子計算や量子情報処理の可能性が示唆される分子量子ビットのプラットフォームを提供する。

The bipartite entanglement is comprehensively investigated in the mononuclear molecular complex (Et3NH)[Ni(hfac)2L]L, where HL denotes 2-(2-hydroxy-3-methoxy-5-nitrophenyl)-4,4,5,5-tetramethyl-4,5-dihydro-1H-imidazol-3-oxide-1-oxyl and hfacH stands for hexafluoroacetylacetone. From the magnetic point of view, the molecular compound (Et3NH)[Ni(hfac)2L] consists of an exchange-coupled spin-1 Ni2+ magnetic ion and a spin-1/2 nitronyl-nitroxide radical substituted nitrophenol. The nickel-radical molecular complex affords an experimental realization of a mixed spin-(1/2, 1) Heisenberg dimer with a strong antiferromagnetic exchange coupling J/kB = 505 K and two distinct g-factors gRad=2.005 and gNi=2.275. By adopting this set of magnetic parameters we demonstrate that the Zeeman splitting of a quantum ferrimagnetic ground-state doublet due to a weak magnetic field may substantially reinforce the strength of bipartite entanglement at low temperatures. The molecular compound (Et3NH)[Ni(hfac)2L] maintains sufficiently strong thermal entanglement even at room temperature, vanishing only above 546 K. Specifically, the thermal entanglement in the nickel-radical molecular complex retains approximately 40% of the maximum value corresponding to perfectly entangled Bell states at room temperature, which implies that this magnetic compound provides suitable platform of a molecular qubit with potential implications for room-temperature quantum computation and quantum information processing.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# アクティベーション・ボトルネック:Sigmoidal Neural Networksは直線を予測できない

Activation Bottleneck: Sigmoidal Neural Networks Cannot Forecast a Straight Line ( http://arxiv.org/abs/2406.02146v1 )

ライセンス: Link先を確認
Maximilian Toller, Hussain Hussain, Bernhard C Geiger, (参考訳) ニューラルネットワークは、隠れたレイヤの1つが有界なイメージを持つ場合、アクティベーションボトルネックを持つ。 アクティベーションボトルネックのあるネットワークは、直線、ランダムウォーク、あるいはトレンドのある任意のシーケンスを予測できないことを示す。 LSTMやGRUといった広く使われているニューラルネットワークアーキテクチャは、この制限に悩まされている。 本分析では,アクティベーションボトルネックを特徴付けるとともに,シグモダルネットワークが非有界配列を学習するのを防ぐ理由を説明する。 本研究の成果を実験的に検証し,アクティベーションボトルネックの影響を緩和するネットワークアーキテクチャの変更について検討する。

A neural network has an activation bottleneck if one of its hidden layers has a bounded image. We show that networks with an activation bottleneck cannot forecast unbounded sequences such as straight lines, random walks, or any sequence with a trend: The difference between prediction and ground truth becomes arbitrary large, regardless of the training procedure. Widely-used neural network architectures such as LSTM and GRU suffer from this limitation. In our analysis, we characterize activation bottlenecks and explain why they prevent sigmoidal networks from learning unbounded sequences. We experimentally validate our findings and discuss modifications to network architectures which mitigate the effects of activation bottlenecks.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# UAトラック:不確実なエンド・ツー・エンドの3Dマルチオブジェクト追跡

UA-Track: Uncertainty-Aware End-to-End 3D Multi-Object Tracking ( http://arxiv.org/abs/2406.02147v1 )

ライセンス: Link先を確認
Lijun Zhou, Tao Tang, Pengkun Hao, Zihang He, Kalok Ho, Shuo Gu, Wenbo Hou, Zhihui Hao, Haiyang Sun, Kun Zhan, Peng Jia, Xianpeng Lang, Xiaodan Liang, (参考訳) 3D多重物体追跡(MOT)は自律運転知覚において重要な役割を担っている。 最近のエンドツーエンドのクエリベースのトラッカーは、オブジェクトを同時に検出および追跡し、3D MOTタスクの有望な可能性を示している。 しかし、既存の手法では、追跡対象の状態や位置に関する正確な信頼が欠如しているため、不確実性の問題を見落としている。 不確実性は、カメラによる動作観察中の様々な要因、特にオクルージョンとターゲットオブジェクトの小さなサイズによって生じ、オブジェクトの位置、ラベル、アイデンティティを不正確な推定に繋がる。 そこで本研究では,不確実性を考慮した3D MOTフレームワークであるUA-Trackを提案する。 具体的には、まず不確かさを意識した確率デコーダを導入し、確率的注意を伴う物体予測の不確かさを捉える。 次に、トレーニングプロセスをさらに強化するために、不確実性誘導型クエリデノゲーション戦略を提案する。 また、予測された2次元オブジェクトの位置と深度情報を利用してクエリの不確実性を低減する不確実性推論初期化を利用する。 その結果,UA-Track は nuScenes ベンチマークの最先端性能,すなわち 66.3% AMOTA をテストスプリットで達成し,従来の最高のエンドツーエンドソリューションを8.9% AMOTA で上回った。

3D multiple object tracking (MOT) plays a crucial role in autonomous driving perception. Recent end-to-end query-based trackers simultaneously detect and track objects, which have shown promising potential for the 3D MOT task. However, existing methods overlook the uncertainty issue, which refers to the lack of precise confidence about the state and location of tracked objects. Uncertainty arises owing to various factors during motion observation by cameras, especially occlusions and the small size of target objects, resulting in an inaccurate estimation of the object's position, label, and identity. To this end, we propose an Uncertainty-Aware 3D MOT framework, UA-Track, which tackles the uncertainty problem from multiple aspects. Specifically, we first introduce an Uncertainty-aware Probabilistic Decoder to capture the uncertainty in object prediction with probabilistic attention. Secondly, we propose an Uncertainty-guided Query Denoising strategy to further enhance the training process. We also utilize Uncertainty-reduced Query Initialization, which leverages predicted 2D object location and depth information to reduce query uncertainty. As a result, our UA-Track achieves state-of-the-art performance on the nuScenes benchmark, i.e., 66.3% AMOTA on the test split, surpassing the previous best end-to-end solution by a significant margin of 8.9% AMOTA.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# Synergetic Event Understanding:大規模言語モデルを用いたクロスドキュメントイベント参照解決のための協調的アプローチ

Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models ( http://arxiv.org/abs/2406.02148v1 )

ライセンス: Link先を確認
Qingkai Min, Qipeng Guo, Xiangkun Hu, Songfang Huang, Zheng Zhang, Yue Zhang, (参考訳) クロスドキュメントイベントコア参照解決(CDECR)では、複数のドキュメントにまたがって、同じ実世界のイベントを参照するイベントをクラスタリングする。 既存のアプローチでは、BERTのような小さな言語モデル(SLM)の微調整を使用して、イベント参照のコンテキスト間の互換性に対処している。 しかし、コンテキストの複雑さと多様性のため、これらのモデルは単純な共起を学習する傾向がある。 近年,ChatGPT のような大規模言語モデル (LLM) は,文脈的理解に目を見張るものの,特定の情報抽出 (IE) タスクに適応する上での課題に直面している。 本稿では,CDECR の協調的アプローチを提案し,汎用性のある LLM とタスク固有の SLM の両機能を活用している。 協調戦略は、プロンプトを通じてイベントを正確かつ包括的に要約することから始まる。 次に、SLMは、微調整中のこれらの洞察に基づいて、イベント表現の学習を洗練させる。 実験の結果,提案手法は大規模言語モデルと小言語モデルの両方の性能を個別に上回り,相補的な優位性を形成していることがわかった。 提案手法は,様々なデータセットにおいて最先端の性能を達成し,多様なシナリオにおける有効性を裏付けるものである。

Cross-document event coreference resolution (CDECR) involves clustering event mentions across multiple documents that refer to the same real-world events. Existing approaches utilize fine-tuning of small language models (SLMs) like BERT to address the compatibility among the contexts of event mentions. However, due to the complexity and diversity of contexts, these models are prone to learning simple co-occurrences. Recently, large language models (LLMs) like ChatGPT have demonstrated impressive contextual understanding, yet they encounter challenges in adapting to specific information extraction (IE) tasks. In this paper, we propose a collaborative approach for CDECR, leveraging the capabilities of both a universally capable LLM and a task-specific SLM. The collaborative strategy begins with the LLM accurately and comprehensively summarizing events through prompting. Then, the SLM refines its learning of event representations based on these insights during fine-tuning. Experimental results demonstrate that our approach surpasses the performance of both the large and small language models individually, forming a complementary advantage. Across various datasets, our approach achieves state-of-the-art performance, underscoring its effectiveness in diverse scenarios.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# フォン・ノイマンの1927年の量子力学の基礎に関する三部作

Von Neumann's 1927 Trilogy on the Foundations of Quantum Mechanics. Annotated Translations ( http://arxiv.org/abs/2406.02149v1 )

ライセンス: Link先を確認
Anthony Duncan, (参考訳) ジョン・フォン・ノイマン(John von Neumann)の1927年の三部作の英訳では、量子力学の基礎について、序文と詳細な解説がある。

English translation of John von Neumann's 1927 trilogy on the foundations of quantum mechanics with an introduction and detailed commentary.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# 顔画像合成のための特徴エクストラクタネットワークの解析

Analyzing the Feature Extractor Networks for Face Image Synthesis ( http://arxiv.org/abs/2406.02153v1 )

ライセンス: Link先を確認
Erdi Sarıtaş, Hazım Kemal Ekenel, (参考訳) Generative Adversarial Networksのような進歩は、よりリアルな画像を生成するために、顔画像合成に研究者の注目を集めている。 これにより、生成した画像のリアリズムを評価するための評価基準の必要性が明らかになった。 InceptionV3で使用されるFIDはベンチマークの主要な選択肢の1つだが、InceptionV3の顔画像に対する制限に関する懸念が浮上している。 本研究では,FID,KID,Precision\&Recallといったさまざまな指標を考慮した多様な特徴抽出器(InceptionV3,CLIP,DINOv2,ArcFace)の挙動について検討した。 FFHQデータセットがターゲットドメインとして使用される一方で、ソースドメインとして、CelebA-HQデータセットとStyleGAN2とProjected FastGANを使用して生成された合成データセットが使用される。 L_2$正規化、抽出中のモデル注意、特徴空間におけるドメイン分布などである。 顔画像合成手法を評価するために,特徴抽出器の挙動について貴重な知見を提供する。 コードはhttps://github.com/ThEnded32/AnalyzingFeatureExtractorsで公開されている。

Advancements like Generative Adversarial Networks have attracted the attention of researchers toward face image synthesis to generate ever more realistic images. Thereby, the need for the evaluation criteria to assess the realism of the generated images has become apparent. While FID utilized with InceptionV3 is one of the primary choices for benchmarking, concerns about InceptionV3's limitations for face images have emerged. This study investigates the behavior of diverse feature extractors -- InceptionV3, CLIP, DINOv2, and ArcFace -- considering a variety of metrics -- FID, KID, Precision\&Recall. While the FFHQ dataset is used as the target domain, as the source domains, the CelebA-HQ dataset and the synthetic datasets generated using StyleGAN2 and Projected FastGAN are used. Experiments include deep-down analysis of the features: $L_2$ normalization, model attention during extraction, and domain distributions in the feature space. We aim to give valuable insights into the behavior of feature extractors for evaluating face image synthesis methodologies. The code is publicly available at https://github.com/ThEnded32/AnalyzingFeatureExtractors.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# ハミルトンニューラルクープマン作用素の学習と保存則の維持と発見

Learning Hamiltonian neural Koopman operator and simultaneously sustaining and discovering conservation law ( http://arxiv.org/abs/2406.02154v1 )

ライセンス: Link先を確認
Jingdong Zhang, Qunxi Zhu, Wei Lin, (参考訳) ノイズ摂動を伴う観測データに基づいて正確な力学の発見と予測が最重要であるが、現在でも大きな課題である。 ここでは,ハミルトニアン力学において,ハミルトニアン・ニューラル・クープマン演算子 (HNKO) を提案する。 数百から数千の自由度においても,HNKOとその拡張性能を代表的物理系を用いて実証する。 この結果から,基礎となるシステムの事前知識と数学的理論を学習フレームワークに適切に供給することで,物理問題の解法における機械学習の能力を高めることが示唆された。

Accurately finding and predicting dynamics based on the observational data with noise perturbations is of paramount significance but still a major challenge presently. Here, for the Hamiltonian mechanics, we propose the Hamiltonian Neural Koopman Operator (HNKO), integrating the knowledge of mathematical physics in learning the Koopman operator, and making it automatically sustain and even discover the conservation laws. We demonstrate the outperformance of the HNKO and its extension using a number of representative physical systems even with hundreds or thousands of freedoms. Our results suggest that feeding the prior knowledge of the underlying system and the mathematical theory appropriately to the learning framework can reinforce the capability of machine learning in solving physical problems.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# 合成グラフのほぼ線形時間微分プライベートな解法

Almost linear time differentially private release of synthetic graphs ( http://arxiv.org/abs/2406.02156v1 )

ライセンス: Link先を確認
Jingcheng Liu, Jalaj Upadhyay, Zongrui Zou, (参考訳) 本稿では、指数的に大きな非凸集合上で定義される$\ell_1$-score関数を持つ指数メカニズムから、ほぼ線形時間と空間のアルゴリズムをサンプリングする。 直接的な結果として、$n$ vertex $m$ edges graph $G$を入力すると、すべてのカットと$G$のスペクトルを近似する$n$ vertex $O(m)$ edges synthetic graphを差分的に出力するための \textit{first} $\widetilde{O}(m)$ time and $O(m)$ space algorithmを示す。 これらは、このタスクの時間と空間の複雑さとほぼ一致した合成グラフを非プライベート設定でリリースするアルゴリズムである。 さらに,我々のアルゴリズムは連続観測下でのプライベートグラフ解析にも拡張可能である。

In this paper, we give an almost linear time and space algorithms to sample from an exponential mechanism with an $\ell_1$-score function defined over an exponentially large non-convex set. As a direct result, on input an $n$ vertex $m$ edges graph $G$, we present the \textit{first} $\widetilde{O}(m)$ time and $O(m)$ space algorithms for differentially privately outputting an $n$ vertex $O(m)$ edges synthetic graph that approximates all the cuts and the spectrum of $G$. These are the \emph{first} private algorithms for releasing synthetic graphs that nearly match this task's time and space complexity in the non-private setting while achieving the same (or better) utility as the previous works in the more practical sparse regime. Additionally, our algorithms can be extended to private graph analysis under continual observation.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# オンライン学習と情報指数:バッチサイズと時間/複雑さトレードオフの重要性について

Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs ( http://arxiv.org/abs/2406.02157v1 )

ライセンス: Link先を確認
Luca Arnaboldi, Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan, (参考訳) 等方性共変体の多次元目標関数に対する1パス確率勾配勾配勾配 (SGD) を持つ2層ニューラルネットワークの繰り返し時間に対するバッチサイズ$n_b$の効果について検討した。 最適バッチサイズを目標の硬さの関数として最小化し,情報指数を特徴とする。 大規模なバッチで勾配を更新する$n_b \lesssim d^{\frac{\ell}{2}}$は、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化し、$\ell$は学習対象の情報指数 \citep{arous2021online} と $d$ は入力次元であることを示す。 しかし、$n_b \gg d^{\frac{\ell}{2}}$よりも大きなバッチサイズは、SGDの時間的複雑さを改善するために有害である。 我々は、損失関数の自己相関項を抑制する異なるトレーニングプロトコル \textit{Correlation loss SGD} を通じて、この基本的な制限を確実に克服する。 我々は,低次元常微分方程式(ODE)のシステムを用いて,トレーニングの進捗を追跡できることを示す。 最後に, 数値実験による理論的結果の検証を行った。

We study the impact of the batch size $n_b$ on the iteration time $T$ of training two-layer neural networks with one-pass stochastic gradient descent (SGD) on multi-index target functions of isotropic covariates. We characterize the optimal batch size minimizing the iteration time as a function of the hardness of the target, as characterized by the information exponents. We show that performing gradient updates with large batches $n_b \lesssim d^{\frac{\ell}{2}}$ minimizes the training time without changing the total sample complexity, where $\ell$ is the information exponent of the target to be learned \citep{arous2021online} and $d$ is the input dimension. However, larger batch sizes than $n_b \gg d^{\frac{\ell}{2}}$ are detrimental for improving the time complexity of SGD. We provably overcome this fundamental limitation via a different training protocol, \textit{Correlation loss SGD}, which suppresses the auto-correlation terms in the loss function. We show that one can track the training progress by a system of low-dimensional ordinary differential equations (ODEs). Finally, we validate our theoretical results with numerical experiments.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# 自動車シーン解析のためのレーダスペクトルランゲージモデル

Radar Spectra-Language Model for Automotive Scene Parsing ( http://arxiv.org/abs/2406.02158v1 )

ライセンス: Link先を確認
Mariia Pushkareva, Yuri Feldman, Csaba Domokos, Kilian Rambach, Dotan Di Castro, (参考訳) レーダーセンサーは低コスト、長距離、耐候性がある。 そのため、運転支援機能として広く利用されており、将来的には自動運転の成功に欠かせないものとなることが期待されている。 多くの知覚タスクでは、前処理されたレーダーポイント雲のみが考慮される。 対照的に、レーダースペクトルはレーダー測定の原型であり、レーダー点雲よりも多くの情報を含んでいる。 しかし、レーダースペクトルは解釈が難しい。 本研究では,自動走行の文脈において,スペクトルに含まれる意味情報を探究し,レーダスペクトルの解釈可能性の向上を目指す。 この目的のために、我々はレーダスペクトル言語モデルを作成し、自由テキストを用いてシーン要素が存在する場合のレーダスペクトル計測をクエリできる。 既存の視覚言語モデル(VLM)の埋め込み空間をマッチングすることにより,レーダスペクトルデータの不足を克服する。 最後に,学習したシーン解析表現の利点を探求し,ベースラインモデルにスペクトルを注入するだけで自由空間分割と物体検出の改善を図った。

Radar sensors are low cost, long-range, and weather-resilient. Therefore, they are widely used for driver assistance functions, and are expected to be crucial for the success of autonomous driving in the future. In many perception tasks only pre-processed radar point clouds are considered. In contrast, radar spectra are a raw form of radar measurements and contain more information than radar point clouds. However, radar spectra are rather difficult to interpret. In this work, we aim to explore the semantic information contained in spectra in the context of automated driving, thereby moving towards better interpretability of radar spectra. To this end, we create a radar spectra-language model, allowing us to query radar spectra measurements for the presence of scene elements using free text. We overcome the scarcity of radar spectra data by matching the embedding space of an existing vision-language model (VLM). Finally, we explore the benefit of the learned representation for scene parsing, and obtain improvements in free space segmentation and object detection merely by injecting the spectra embedding into a baseline model.
翻訳日:2024-06-05 17:01:41 公開日:2024-06-04
# SaVeR: タブラルMDPにおける安全政策評価のための最適データ収集戦略

SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP ( http://arxiv.org/abs/2406.02165v1 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Josiah P. Hanna, Robert Nowak, (参考訳) 本稿では,表型マルコフ決定プロセス(MDP)の政策評価を目的とした安全なデータ収集について検討する。 政策評価では,<textit{target} ポリシーが与えられ,得られた累積報酬を見積もる。 政策評価にはデータが必要であり、ターゲット政策の最も正確な評価のために、どの方針がデータを集めるべきかという問題に関心がある。 これまでの作業では行動ポリシーの選択が検討されてきたが,本稿では行動ポリシーに対する安全性の制約も検討している。 すなわち、実行時に特定の期待されるコストを発生させる既知のデフォルトポリシーが存在すると仮定し、デフォルトポリシーを常に実行している場合、実行されているすべての行動ポリシーの累積コストが、実行されるコストの一定要素よりも優れていることを強制します。 まず、問題パラメータに関する知識を持つ安全なオラクルアルゴリズムが、データを効率よく収集し、安全性の制約を満たすような、難解なMDPのクラスが存在することを示す。 次に、安全なオラクルアルゴリズムが効率的にデータを収集できるようなMDPのトラクタビリティ条件を定義し、この設定に対する最初の下位境界を証明する。 次に、この問題に対するアルゴリズムSaVeRを導入し、安全オラクルアルゴリズムを近似し、アルゴリズムの有限サンプル平均二乗誤差を拘束し、安全性の制約を満たすことを保証する。 最後に,SaVeRが安全性の制約を満たしつつ,低MSEポリシー評価を実現することをシミュレーションで示す。

In this paper, we study safe data collection for the purpose of policy evaluation in tabular Markov decision processes (MDPs). In policy evaluation, we are given a \textit{target} policy and asked to estimate the expected cumulative reward it will obtain. Policy evaluation requires data and we are interested in the question of what \textit{behavior} policy should collect the data for the most accurate evaluation of the target policy. While prior work has considered behavior policy selection, in this paper, we additionally consider a safety constraint on the behavior policy. Namely, we assume there exists a known default policy that incurs a particular expected cost when run and we enforce that the cumulative cost of all behavior policies ran is better than a constant factor of the cost that would be incurred had we always run the default policy. We first show that there exists a class of intractable MDPs where no safe oracle algorithm with knowledge about problem parameters can efficiently collect data and satisfy the safety constraints. We then define the tractability condition for an MDP such that a safe oracle algorithm can efficiently collect data and using that we prove the first lower bound for this setting. We then introduce an algorithm SaVeR for this problem that approximates the safe oracle algorithm and bound the finite-sample mean squared error of the algorithm while ensuring it satisfies the safety constraint. Finally, we show in simulations that SaVeR produces low MSE policy evaluation while satisfying the safety constraint.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# Whistle:弱音声による多言語・多言語間音声認識

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision ( http://arxiv.org/abs/2406.02166v1 )

ライセンス: Link先を確認
Saierdaer Yusuyin, Te Ma, Hao Huang, Wenbo Zhao, Zhijian Ou, (参考訳) 多言語・多言語自動音声認識(MCL-ASR)には3つのアプローチがある。 MCL-ASRの事前学習は,MCL-ASRでは不十分であり,概念的には異なる言語間の情報共有には有利である。 本稿では,Whistle と呼ばれるデータ効率の高い MCL-ASR に対する音声指導の弱い事前学習手法について検討する。 我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。 CV-Lang10と呼ばれるCommonVoiceデータセットをベースとした,共通的な実験環境を構築した。 CV-Lang10で実験を行い、MCL-ASRの共通設定下での3つのアプローチを可能な限り公平に比較した。 MCL-ASRにおける音素モデル(Whistle)の利点は、見知らぬ言語に対する音声認識、無意味な数ショットデータに対するクロスリンガル性能、破滅的な忘れ、訓練効率を克服し、訓練データに制限がある場合、サブワードの監督や自己監督よりも音素監督の方が優れた結果が得られることを示し、高いデータ効率を提供する。 再現性をサポートし、この方向に沿って将来の研究を促進するため、我々は、Whistleのパイプライン全体のためのコード、モデル、データを、公開時にhttps://github.com/thu-spmi/CATでリリースします。

There exist three approaches for multilingual and crosslingual automatic speech recognition (MCL-ASR) - supervised pre-training with phonetic or graphemic transcription, and self-supervised pre-training. We find that pre-training with phonetic supervision has been underappreciated so far for MCL-ASR, while conceptually it is more advantageous for information sharing between different languages. This paper explores the approach of pre-training with weakly phonetic supervision towards data-efficient MCL-ASR, which is called Whistle. We relax the requirement of gold-standard human-validated phonetic transcripts, and obtain International Phonetic Alphabet (IPA) based transcription by leveraging the LanguageNet grapheme-to-phoneme (G2P) models. We construct a common experimental setup based on the CommonVoice dataset, called CV-Lang10, with 10 seen languages and 2 unseen languages. A set of experiments are conducted on CV-Lang10 to compare, as fair as possible, the three approaches under the common setup for MCL-ASR. Experiments demonstrate the advantages of phoneme-based models (Whistle) for MCL-ASR, in terms of speech recognition for seen languages, crosslingual performance for unseen languages with different amounts of few-shot data, overcoming catastrophic forgetting, and training efficiency.It is found that when training data is more limited, phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. To support reproducibility and promote future research along this direction, we will release the code, models and data for the whole pipeline of Whistle at https://github.com/thu-spmi/CAT upon publication.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# ハウサ語、ヨルバ語、イグボ語に対する攻撃言語とヘイトスピーチ検出のための多言語データセット

A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages ( http://arxiv.org/abs/2406.02169v1 )

ライセンス: Link先を確認
Saminu Mohammad Aliyu, Gregory Maksha Wajiga, Muhammad Murtala, (参考訳) オンライン攻撃言語の普及は、特に多言語文脈において、効果的な検出メカニズムの開発を必要とする。 本研究は,ナイジェリアの主要言語であるHausa,Yoruba,Igboの3言語において,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。 私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。 トレーニング済みの言語モデルを用いて、データセットにおける攻撃言語の検出の有効性を評価した。 最高の性能モデルは90%の精度を達成した。 攻撃的言語検出の研究をさらに支援するため、データセットとモデルを一般公開する計画である。

The proliferation of online offensive language necessitates the development of effective detection mechanisms, especially in multilingual contexts. This study addresses the challenge by developing and introducing novel datasets for offensive language detection in three major Nigerian languages: Hausa, Yoruba, and Igbo. We collected data from Twitter and manually annotated it to create datasets for each of the three languages, using native speakers. We used pre-trained language models to evaluate their efficacy in detecting offensive language in our datasets. The best-performing model achieved an accuracy of 90\%. To further support research in offensive language detection, we plan to make the dataset and our models publicly available.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# Layer-2 Arbitrage: ロールアップにおけるスワップダイナミクスと価格差の実証分析

Layer-2 Arbitrage: An Empirical Analysis of Swap Dynamics and Price Disparities on Rollups ( http://arxiv.org/abs/2406.02172v1 )

ライセンス: Link先を確認
Krzysztof Gogol, Johnnatan Messias, Deborah Miori, Claudio Tessone, Benjamin Livshits, (参考訳) 本稿では、Layer-2エコシステムにおける分散ファイナンス(DeFi)のダイナミクスを考察し、AMM(Automated Market Makers)に注目し、Ethereumのロールアップを仲裁する。 しかし、当社はEthereumからロールアップへのトレーディング活動の大幅な変化を観察し、ロールアップのスワップが2~3倍の頻度で発生し、トレーディングボリュームが低下している。 AMMと中央集権取引所の価格差を調べることで、ロールアップにおける0.5万以上の未公表の仲裁機会が明らかになる。 注目すべきことに、これらの機会は平均して10~20ブロック続き、二重カウントの仲裁を避けるためにLVRメトリクスの調整が必要である。 以上の結果から,アルビタラム,ベース,オプティミズムプールの仲裁は取引量の0.03%から0.05%の範囲で,zkSync時代には0.25%,LVRは5倍の仲裁を過大評価していることがわかった。 ロールアップはガス料金の低減だけでなく、ブロック生産の高速化も実現しているため、Ethereumのトレーディングや調停のダイナミクスとは大きく異なる。

This paper explores the dynamics of Decentralized Finance (DeFi) within the Layer-2 ecosystem, focusing on Automated Market Makers (AMM) and arbitrage on Ethereum rollups. We observe significant shifts in trading activity from Ethereum to rollups, with swaps on rollups happening 2-3 times more often, though, with lower trade volume. By examining the price differences between AMMs and centralized exchanges, we discover over 0.5 million unexploited arbitrage opportunities on rollups. Remarkably, we observe that these opportunities last, on average, 10 to 20 blocks, requiring adjustments to the LVR metrics to avoid double-counting arbitrage. Our results show that arbitrage in Arbitrum, Base, and Optimism pools ranges from 0.03% to 0.05% of trading volume, while in zkSync Era it oscillates around 0.25%, with the LVR metric overestimating arbitrage by a factor of five. Rollups offer not only lower gas fees, but also provide faster block production, leading to significant differences compared to the trading and arbitrage dynamics of Ethereum.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# 演算子学習技術を用いたホジキン・ハクスリーモデルの学習

Learning the Hodgkin-Huxley Model with Operator Learning Techniques ( http://arxiv.org/abs/2406.02173v1 )

ライセンス: Link先を確認
Edoardo Centofanti, Massimiliano Ghiotto, Luca F. Pavarino, (参考訳) 我々は、ホジキン・ハクスリーイオンモデルの膜貫通電位に時間依存の印加電流をマッピングする演算子を学習するために、DeepONet、フーリエニューラル演算子、ウェーブレットニューラル演算子という3つの演算子学習アーキテクチャを構築し、比較する。 ホジキン・ホクスリー力学系の根底にある非線形性、その解の硬さ、および応用電流の強度に依存するしきい値力学は、この種類の複雑な演算子を学ぶために人工ニューラルネットワークを利用する際の課題である。 これらの演算子学習手法を適切に設計することにより、Hudgkin-Huxleyイオンモデルの解を学習する際に、相対的なL2誤差を1.4%以下で達成し、これらの課題に効果的に対処する能力を示す。

We construct and compare three operator learning architectures, DeepONet, Fourier Neural Operator, and Wavelet Neural Operator, in order to learn the operator mapping a time-dependent applied current to the transmembrane potential of the Hodgkin- Huxley ionic model. The underlying non-linearity of the Hodgkin-Huxley dynamical system, the stiffness of its solutions, and the threshold dynamics depending on the intensity of the applied current, are some of the challenges to address when exploiting artificial neural networks to learn this class of complex operators. By properly designing these operator learning techniques, we demonstrate their ability to effectively address these challenges, achieving a relative L2 error as low as 1.4% in learning the solutions of the Hodgkin-Huxley ionic model.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# Branches: 最適な決定木のための高速な動的プログラミングとブランチ&バウンドアルゴリズム

Branches: A Fast Dynamic Programming and Branch & Bound Algorithm for Optimal Decision Trees ( http://arxiv.org/abs/2406.02175v1 )

ライセンス: Link先を確認
Ayman Chaouki, Jesse Read, Albert Bifet, (参考訳) 決定木学習(Decision Tree Learning)は、解釈可能な機械学習の基本的な問題である。 1990年代初期までさかのぼる多くの努力にもかかわらず、実用的なアルゴリズムが登場したのはごく最近であり、主に動的プログラミング(DP)とブランチ&バウンド(B&B)の技術を活用している。 これらのブレークスルーは、2つの異なるアプローチの開発につながった。 DL8.5やMurTreeのようなアルゴリズムはノード(または分岐)の空間で動作し、非常に高速であるが、複雑な決定木をペナライズしない。 一方、OSDT や GOSDT のようなアルゴリズムは、決定木(Decision Trees)の空間で動作し、スパース性は解決するが、速度は低下する。 本稿では,両パラダイムの強みを統合する新しいアルゴリズムであるBranchesを紹介する。 DPとB&Bを活用することで、ブランチは例外的な速度を達成し、スパーシティも解決する。 その効率の中心は、探索空間の実質的な切断を可能にする新しい解析的境界である。 理論的解析により、枝は最先端の手法に比べて複雑さが低いことが示され、その主張は広範な経験的評価によって検証された。 我々の結果は、ブランチが既存のアプローチよりもスピードとイテレーション数で大きく上回るだけでなく、常に最適な決定木が得られることを示している。

Decision Tree Learning is a fundamental problem for Interpretable Machine Learning, yet it poses a formidable optimization challenge. Despite numerous efforts dating back to the early 1990's, practical algorithms have only recently emerged, primarily leveraging Dynamic Programming (DP) and Branch & Bound (B&B) techniques. These breakthroughs led to the development of two distinct approaches. Algorithms like DL8.5 and MurTree operate on the space of nodes (or branches), they are very fast, but do not penalise complex Decision Trees, i.e. they do not solve for sparsity. On the other hand, algorithms like OSDT and GOSDT operate on the space of Decision Trees, they solve for sparsity but at the detriment of speed. In this work, we introduce Branches, a novel algorithm that integrates the strengths of both paradigms. Leveraging DP and B&B, Branches achieves exceptional speed while also solving for sparsity. Central to its efficiency is a novel analytical bound enabling substantial pruning of the search space. Theoretical analysis demonstrates that Branches has lower complexity compared to state-of-the-art methods, a claim validated through extensive empirical evaluation. Our results illustrate that Branches not only greatly outperforms existing approaches in terms of speed and number of iterations, it also consistently yields optimal Decision Trees.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# AROMA:局所ニューラルネットワークを用いた潜在PDEモデリングのための空間構造保存

AROMA: Preserving Spatial Structure for Latent PDE Modeling with Local Neural Fields ( http://arxiv.org/abs/2406.02176v1 )

ライセンス: Link先を確認
Louis Serrano, Thomas X Wang, Etienne Le Naour, Jean-Noël Vittaut, Patrick Gallinari, (参考訳) 本稿では、局所的なニューラルネットワークを用いた偏微分方程式(PDE)のモデリングを強化するためのフレームワークであるAROMAを提案する。 我々のフレキシブルエンコーダデコーダアーキテクチャは、不規則なグリッド入力や点雲を含む様々なデータタイプから、空間物理場のスムーズな遅延表現を得ることができる。 この汎用性はパッチの必要性を排除し、多様なジオメトリの効率的な処理を可能にする。 潜在表現のシーケンシャルな性質は空間的に解釈することができ、PDEの時間的ダイナミクスをモデル化するための条件変換器の使用を可能にする。 拡散型定式化を用いることで、従来のMSEトレーニングと比較して安定性が向上し、ロールアウトが長くなる。 1次元方程式と2次元方程式のシミュレーションにおけるAROMAの優れた性能は、複雑な力学挙動を捉える上でのアプローチの有効性を裏付けるものである。

We present AROMA (Attentive Reduced Order Model with Attention), a framework designed to enhance the modeling of partial differential equations (PDEs) using local neural fields. Our flexible encoder-decoder architecture can obtain smooth latent representations of spatial physical fields from a variety of data types, including irregular-grid inputs and point clouds. This versatility eliminates the need for patching and allows efficient processing of diverse geometries. The sequential nature of our latent representation can be interpreted spatially and permits the use of a conditional transformer for modeling the temporal dynamics of PDEs. By employing a diffusion-based formulation, we achieve greater stability and enable longer rollouts compared to conventional MSE training. AROMA's superior performance in simulating 1D and 2D equations underscores the efficacy of our approach in capturing complex dynamical behaviors.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# Bayesian Pseudocoresetsを用いたワンショットフェデレーション学習

One-Shot Federated Learning with Bayesian Pseudocoresets ( http://arxiv.org/abs/2406.02177v1 )

ライセンス: Link先を確認
Tim d'Hondt, Mykola Pechenizkiy, Robert Peharz, (参考訳) フェデレートラーニング(FL)のための最適化ベースの手法は、高次元モデルパラメータをサーバとクライアントの間で繰り返し通信する必要があるため、しばしば禁止的な通信コストが伴う。 本稿では,局所的なクライアントの積としてグローバルな推論問題を解くことにより,ワンショット通信でFLを実現するためのベイズ的アプローチに従う。 ニューラルネットワークのようなマルチモーダルな可能性を持つモデルでは、クライアントが異なる後部モードをキャプチャし、サーバ側で後部の破壊的な崩壊を引き起こすため、このスキームの素早い適用が妨げられる。 その結果、クライアント後続の関数空間表現における近似的推論について検討し、したがってマルチモーダリティに苦しむか、全く苦しむかのどちらかである。 本研究では,分散関数空間推論がベイズ擬似コア集合の学習と密接に関連していることを示し,この知見に基づいて抽出可能なベイズFLアルゴリズムを開発した。 提案手法は,最先端技術と競合する予測性能を実現するとともに,最大2桁の通信コストの大幅な削減を図っている。 さらに,ベイズの性質から,不確実性評価の精度も高い。

Optimization-based techniques for federated learning (FL) often come with prohibitive communication cost, as high dimensional model parameters need to be communicated repeatedly between server and clients. In this paper, we follow a Bayesian approach allowing to perform FL with one-shot communication, by solving the global inference problem as a product of local client posteriors. For models with multi-modal likelihoods, such as neural networks, a naive application of this scheme is hampered, since clients will capture different posterior modes, causing a destructive collapse of the posterior on the server side. Consequently, we explore approximate inference in the function-space representation of client posteriors, hence suffering less or not at all from multi-modality. We show that distributed function-space inference is tightly related to learning Bayesian pseudocoresets and develop a tractable Bayesian FL algorithm on this insight. We show that this approach achieves prediction performance competitive to state-of-the-art while showing a striking reduction in communication cost of up to two orders of magnitude. Moreover, due to its Bayesian nature, our method also delivers well-calibrated uncertainty estimates.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# オーディオ・マンバ:自己監督型音声表現のための選択状態空間

Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations ( http://arxiv.org/abs/2406.02178v1 )

ライセンス: Link先を確認
Sarthak Yadav, Zheng-Hua Tan, (参考訳) 顕著なニューラルアーキテクチャとして広く採用されているにもかかわらず、Transformerはその限界に対処するためにいくつかの独立した作業ラインを刺激してきた。 そのようなアプローチの1つは選択状態空間モデルであり、言語モデリングの有望な結果を示している。 しかし, 自己指導型汎用音声表現の学習の可能性については, 未だ検討されていない。 この研究は、ランダムなマスク付きスペクトログラムパッチから自己監督を通して汎用音声表現を学習するための選択状態空間モデルであるAudio Mambaを提案する。 10の多様なオーディオ認識ダウンストリームタスクに対する実証的な結果から、提案されたモデルはAudioSetデータセットで事前訓練され、ほぼ同等の自己教師型オーディオスペクトログラム変換器(SSAST)ベースラインをかなりのマージンで上回り、データセットサイズ、シーケンス長、モデルサイズの比較においてより良いパフォーマンスを示す。

Despite its widespread adoption as the prominent neural architecture, the Transformer has spurred several independent lines of work to address its limitations. One such approach is selective state space models, which have demonstrated promising results for language modelling. However, their feasibility for learning self-supervised, general-purpose audio representations is yet to be investigated. This work proposes Audio Mamba, a selective state space model for learning general-purpose audio representations from randomly masked spectrogram patches through self-supervision. Empirical results on ten diverse audio recognition downstream tasks show that the proposed models, pretrained on the AudioSet dataset, consistently outperform comparable self-supervised audio spectrogram transformer (SSAST) baselines by a considerable margin and demonstrate better performance in dataset size, sequence length and model size comparisons.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# パーターブ・ソフトマックスの統計的表現特性とパーターブ・アーグマックス確率分布について

On The Statistical Representation Properties Of The Perturb-Softmax And The Perturb-Argmax Probability Distributions ( http://arxiv.org/abs/2406.02180v1 )

ライセンス: Link先を確認
Hedda Cohen Indelman, Tamir Hazan, (参考訳) Gumbel-Softmax確率分布は生成学習における離散トークンの学習を可能にし、Gumbel-Argmax確率分布は識別学習における離散構造の学習に有用である。 これらの確率モデルの最適化に費やした努力にもかかわらず、それらの統計的性質は未探索である。 本研究では、それらの表現特性を調査し、これらの確率分布のどの族が完備であるか、すなわち任意の確率分布を表現でき、最小限、すなわち確率分布を一意に表すことができるかを決定する。 我々は、これらの統計条件を決定するために凸性と微分可能性に依存し、この枠組みをガウス・ソフトマックスやガウス・アルグマックスのような一般的な確率モデルに拡張する。 これらの拡張の質を実験的に検証し、より高速な収束率を享受する。 これらの仮定を満たすパラメータの集合を2つ同定することで解析を終了し、完全かつ最小限の表現を許容する。 私たちの貢献は、実践的な評価を支持することによって理論的に成り立っている。

The Gumbel-Softmax probability distribution allows learning discrete tokens in generative learning, while the Gumbel-Argmax probability distribution is useful in learning discrete structures in discriminative learning. Despite the efforts invested in optimizing these probability models, their statistical properties are under-explored. In this work, we investigate their representation properties and determine for which families of parameters these probability distributions are complete, i.e., can represent any probability distribution, and minimal, i.e., can represent a probability distribution uniquely. We rely on convexity and differentiability to determine these statistical conditions and extend this framework to general probability models, such as Gaussian-Softmax and Gaussian-Argmax. We experimentally validate the qualities of these extensions, which enjoy a faster convergence rate. We conclude the analysis by identifying two sets of parameters that satisfy these assumptions and thus admit a complete and minimal representation. Our contribution is theoretical with supporting practical evaluation.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# GraVITON:仮想トライアンのための注意誘導型インバージョン付きグラフベースの衣服ワープ

GraVITON: Graph based garment warping with attention guided inversion for Virtual-tryon ( http://arxiv.org/abs/2406.02184v1 )

ライセンス: Link先を確認
Sanhita Pathak, Vinay Kaushik, Brejesh Lall, (参考訳) コンピュータービジョンの急速に進化する分野である仮想トライオンは、正確な衣服のワープと人間の体へのシームレスな統合を通じて、顧客の体験を改善することで、eコマースを変革しようとしている。 TPSやフローのような既存の手法は衣服のワープに対処するが、より細かいコンテキストの詳細は見落としている。 本稿では,衣服のフローにおけるコンテキストの価値を強調する新しいグラフベースのワープ手法を提案する。 我々のグラフベースのワープモジュールは、ワープされた衣服と粗い人物画像を生成し、それは単純な精細ネットワークによって、粗い仮想トライオン画像を与える。 提案手法は, 潜伏拡散モデルを用いて最終試行を生成し, 衣服の移動を塗装作業として扱う。 拡散モデルは、視覚情報とテキスト情報の逆変換に基づいて、切り離されたクロスアテンションで条件付けされる。 孔や閉塞を伴わない密閉された衣服を発生させるオクルージョン意識のワープ制約を導入する。 提案手法は,VITON-HDとDresscodeのデータセットで検証され,衣服のワープ,テクスチャ保存,および全体リアリズムの大幅な改善を示す,最先端の質的,定量的な結果を示す。

Virtual try-on, a rapidly evolving field in computer vision, is transforming e-commerce by improving customer experiences through precise garment warping and seamless integration onto the human body. While existing methods such as TPS and flow address the garment warping but overlook the finer contextual details. In this paper, we introduce a novel graph based warping technique which emphasizes the value of context in garment flow. Our graph based warping module generates warped garment as well as a coarse person image, which is utilised by a simple refinement network to give a coarse virtual tryon image. The proposed work exploits latent diffusion model to generate the final tryon, treating garment transfer as an inpainting task. The diffusion model is conditioned with decoupled cross attention based inversion of visual and textual information. We introduce an occlusion aware warping constraint that generates dense warped garment, without any holes and occlusion. Our method, validated on VITON-HD and Dresscode datasets, showcases substantial state-of-the-art qualitative and quantitative results showing considerable improvement in garment warping, texture preservation, and overall realism.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# DNCはさらなる計画ステップを必要とする

DNCs Require More Planning Steps ( http://arxiv.org/abs/2406.02187v1 )

ライセンス: Link先を確認
Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster, (参考訳) 近年の多くの研究は、様々な複雑なアルゴリズム問題を解くために機械学習モデルを使用している。 しかしながら、これらのモデルは問題に必要な計算複雑性を考慮せずに解に到達しようとするが、それはその解を正しく解く能力に有害である。 本研究では,暗黙的アルゴリズム解法の一般化に対する計算時間とメモリの影響について検討する。 そのために我々は、時間とメモリの使い方を直接説明できる一般的な問題解決ツールである微分可能ニューラルネットワーク(DNC)に注目した。 本研究では、モデルが行うべき計画ステップの数を「計画予算」と呼び、モデルが不適切な一般化をし、その外部メモリを完全に活用する能力を損なう可能性のある制約であると論じる。 提案手法は,グラフショート・パス,コンベックス・ハル,グラフミンコート,アソシエイト・リコールにおいて評価し,学習時間の複雑度,トレーニング時間,安定性,一般化などの観点から,学習アルゴリズムの動作を大きく変えることができることを示す。

Many recent works use machine learning models to solve various complex algorithmic problems. However, these models attempt to reach a solution without considering the problem's required computational complexity, which can be detrimental to their ability to solve it correctly. In this work we investigate the effect of computational time and memory on generalization of implicit algorithmic solvers. To do so, we focus on the Differentiable Neural Computer (DNC), a general problem solver that also lets us reason directly about its usage of time and memory. In this work, we argue that the number of planning steps the model is allowed to take, which we call "planning budget", is a constraint that can cause the model to generalize poorly and hurt its ability to fully utilize its external memory. We evaluate our method on Graph Shortest Path, Convex Hull, Graph MinCut and Associative Recall, and show how the planning budget can drastically change the behavior of the learned algorithm, in terms of learned time complexity, training time, stability and generalization to inputs larger than those seen during training.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# 高速かつスケーラブルなマルチカーネルエンコーダ分類器

Fast and Scalable Multi-Kernel Encoder Classifier ( http://arxiv.org/abs/2406.02189v1 )

ライセンス: Link先を確認
Cencheng Shen, (参考訳) 本稿では,カーネル行列を一般化グラフとみなし,グラフ埋め込み技術の最近の進歩を活かした新しいカーネルベース分類器を提案する。 提案手法は,高速でスケーラブルなカーネルマトリックスの埋め込みを容易にするとともに,複数のカーネルをシームレスに統合して学習プロセスを向上する。 我々の理論解析は、確率変数を用いたこのアプローチの集団レベルの特徴付けを提供する。 実験により,本手法は,サポートベクトルマシンや2層ニューラルネットワークなどの標準手法と比較して,動作時間に優れることを示した。

This paper introduces a new kernel-based classifier by viewing kernel matrices as generalized graphs and leveraging recent progress in graph embedding techniques. The proposed method facilitates fast and scalable kernel matrix embedding, and seamlessly integrates multiple kernels to enhance the learning process. Our theoretical analysis offers a population-level characterization of this approach using random variables. Empirically, our method demonstrates superior running time compared to standard approaches such as support vector machines and two-layer neural network, while achieving comparable classification accuracy across various simulated and real datasets.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# 一時集約I.I.D.データからの因果関係の復元可能性について

On the Recoverability of Causal Relations from Temporally Aggregated I.I.D. Data ( http://arxiv.org/abs/2406.02191v1 )

ライセンス: Link先を確認
Shunxing Fan, Mingming Gong, Kun Zhang, (参考訳) 本研究では,時間的アグリゲーションが時間的(非時間的)因果発見に及ぼす影響を概観する。 これは、真の因果時間ラグが観測間隔よりもかなり短いことが観察の動機となっている。 この不一致は高い凝集を引き起こすため、時間遅延因果関係は消失し、マニフェストへの瞬時に依存する。 このような瞬間的依存は、発見結果を意味づけるためにある意味において真の因果関係と整合性を持つことを期待するが、どのような整合性が必要なのか、いつそのような整合性を満たすのかは不明である。 機能的一貫性と条件的独立性は,それぞれ機能的因果モデルに基づく手法と条件的独立性に基づく手法に対応し,それらの構成が持つ条件を提供する。 本研究では,特に完全非線形の場合において,因果発見結果が集約によって著しく歪む可能性があること,また,部分線形性や適切な先行性がある場合,集約データから因果関係が回復可能であることを理論的,実験的に示す。 これらのデータから因果発見結果を解釈する際には,コミュニティは慎重かつ慎重なアプローチをとるべきであり,なぜ,いつ凝集が因果発見法の性能を歪めるかを示す。

We consider the effect of temporal aggregation on instantaneous (non-temporal) causal discovery in general setting. This is motivated by the observation that the true causal time lag is often considerably shorter than the observational interval. This discrepancy leads to high aggregation, causing time-delay causality to vanish and instantaneous dependence to manifest. Although we expect such instantaneous dependence has consistency with the true causal relation in certain sense to make the discovery results meaningful, it remains unclear what type of consistency we need and when will such consistency be satisfied. We proposed functional consistency and conditional independence consistency in formal way correspond functional causal model-based methods and conditional independence-based methods respectively and provide the conditions under which these consistencies will hold. We show theoretically and experimentally that causal discovery results may be seriously distorted by aggregation especially in complete nonlinear case and we also find causal relationship still recoverable from aggregated data if we have partial linearity or appropriate prior. Our findings suggest community should take a cautious and meticulous approach when interpreting causal discovery results from such data and show why and when aggregation will distort the performance of causal discovery methods.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# パイプライン化メムリシブニューラルネットワークアナログ-ディジタル変換器

A Pipelined Memristive Neural Network Analog-to-Digital Converter ( http://arxiv.org/abs/2406.02197v1 )

ライセンス: Link先を確認
Loai Danial, Kanishka Sharma, Shahar Kvatinsky, (参考訳) 高速、高精度、低消費電力の混合信号システムの出現に伴い、精度、高速、エネルギー効率のアナログ-デジタル変換(ADC)とデジタル-アナログ変換器(DAC)の需要はますます高まっている。 残念ながら、CMOS技術のダウンスケールにより、現代のADCはスピード、パワー、精度をトレードオフしている。 近年,4ビットADC/DACの分裂型ニューロモルフィックアーキテクチャが提案されている。 このようなコンバータは、機械学習アルゴリズムを使用してリアルタイムでトレーニングすることができ、異なるアプリケーションに対する変換性能を最適化しながら、速度と精度のトレードオフを突破することができる。 しかし、このようなアーキテクチャを4ビット以上スケールすることは難しい。 本稿では,4ビットコンバータのパイプラインをベースとしたスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。 SPICE評価は、8ビットパイプラインADCが0.18 LSB INL、0.20 LSB DNL、7.6 ENOB、0.97 fJ/conv FOMを達成することを示している。 この研究は、大規模ニューロモルフィックデータコンバータの実現に向けて重要な一歩を踏み出した。

With the advent of high-speed, high-precision, and low-power mixed-signal systems, there is an ever-growing demand for accurate, fast, and energy-efficient analog-to-digital (ADCs) and digital-to-analog converters (DACs). Unfortunately, with the downscaling of CMOS technology, modern ADCs trade off speed, power and accuracy. Recently, memristive neuromorphic architectures of four-bit ADC/DAC have been proposed. Such converters can be trained in real-time using machine learning algorithms, to break through the speedpower-accuracy trade-off while optimizing the conversion performance for different applications. However, scaling such architectures above four bits is challenging. This paper proposes a scalable and modular neural network ADC architecture based on a pipeline of four-bit converters, preserving their inherent advantages in application reconfiguration, mismatch selfcalibration, noise tolerance, and power optimization, while approaching higher resolution and throughput in penalty of latency. SPICE evaluation shows that an 8-bit pipelined ADC achieves 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, and 0.97 fJ/conv FOM. This work presents a significant step towards the realization of large-scale neuromorphic data converters.
翻訳日:2024-06-05 16:51:53 公開日:2024-06-04
# グラフ同型・色・距離ゲームにおける通信複雑度

Communication Complexity of Graph Isomorphism, Coloring, and Distance Games ( http://arxiv.org/abs/2406.02199v1 )

ライセンス: Link先を確認
Pierre Botteron, Moritz Weber, (参考訳) 量子情報において、非局所ゲームは古典的、量子的、および非シグナリング相関の微分に特に有用である。 区別の例としては、通信複雑性の非崩壊の原理があり、これは実現可能な物理理論に必要なものとしてしばしば解釈される。 量子相関によって満たされるが、いくつかの非シグナリングによって破られる。 本研究では,グラフ理論に関連する3つの非局所ゲームについて,よく知られたグラフ同型およびグラフカラー化ゲームから始まり,パラメータ$D\in\mathbb N$で新たなゲームである頂点距離ゲームを導入することから,この原理を考察する。 これら3つのゲームに対して、最適な条件下での通信複雑性を崩壊させる完全ノンシグナリング戦略が証明される。 また、グラフの分数同型、すなわちD-分数同型(D-分数同型)の洗練も定義し、これは頂点距離ゲームに対する完全非符号戦略を特徴付けることを示す。 意外なことに、パラメータDが非シグナリング設定でのみ可視であるため、非シグナリング戦略は古典的および量子的戦略と比較して、新しいゲームに対してより微妙な区別を与える。

In quantum information, nonlocal games are particularly useful for differentiating classical, quantum, and non-signalling correlations. An example of differentiation is given by the principle of no-collapse of communication complexity, which is often interpreted as necessary for a feasible physical theory. It is satisfied by quantum correlations but violated by some non-signalling ones. In this work, we investigate this principle in the context of three nonlocal games related to graph theory, starting from the well-known graph isomorphism and graph coloring games, and introducing a new game, the vertex distance game, with a parameter $D\in\mathbb N$, that generalizes the former two to some extent. For these three games, we prove that perfect non-signalling strategies collapse communication complexity under favorable conditions. We also define a refinement of fractional isomorphism of graphs, namely D-fractional isomorphisms, and we show that this characterizes perfect non-signalling strategies for the vertex distance game. Surprisingly, we observe that non-signalling strategies provide a finer distinction for the new game compared to classical and quantum strategies since the parameter D is visible only in the non-signalling setting.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# CLIPはCLIPの3D学習に役立つか?

Can CLIP help CLIP in learning 3D? ( http://arxiv.org/abs/2406.02202v1 )

ライセンス: Link先を確認
Cristian Sbrolli, Matteo Matteucci, (参考訳) 本研究では,3次元オブジェクトのテキスト記述がない場合に,コントラスト的テキストイメージ3次元アライメントを強化する方法を提案する。 I2I$と$(I2L)^2$という2つの教師なしの手法を導入し、CLIPのテキストと2Dデータに関する知識を活用して、2つの3Dサンプル間のニューラル認知類似性を計算する。 提案手法を用いて3次元のハードネガティブをマイニングし、カスタムロス関数によるハードネガティブ重み付けによるマルチモーダルコントラストパイプラインを構築した。 提案手法の異なる構成を学習し、3次元分類におけるモデルの精度、モーダル間探索ベンチマーク、画像から画像への形状と形状の検索について評価する。 提案手法は, 明示的なテキストアライメントがなくても, ゼロショットと標準3Dの分類において, 同等あるいは優れた性能を達成し, 画像から形状までの検索と形状・画像検索の両方を従来手法と比較して有意に改善することを示した。

In this study, we explore an alternative approach to enhance contrastive text-image-3D alignment in the absence of textual descriptions for 3D objects. We introduce two unsupervised methods, $I2I$ and $(I2L)^2$, which leverage CLIP knowledge about textual and 2D data to compute the neural perceived similarity between two 3D samples. We employ the proposed methods to mine 3D hard negatives, establishing a multimodal contrastive pipeline with hard negative weighting via a custom loss function. We train on different configurations of the proposed hard negative mining approach, and we evaluate the accuracy of our models in 3D classification and on the cross-modal retrieval benchmark, testing image-to-shape and shape-to-image retrieval. Results demonstrate that our approach, even without explicit text alignment, achieves comparable or superior performance on zero-shot and standard 3D classification, while significantly improving both image-to-shape and shape-to-image retrieval compared to previous methods.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 不確実性量子化を伴う実時間データ同化のための深潜時空間粒子フィルタ

The Deep Latent Space Particle Filter for Real-Time Data Assimilation with Uncertainty Quantification ( http://arxiv.org/abs/2406.02204v1 )

ライセンス: Link先を確認
Nikolaj T. Mücke, Sander M. Bohté, Cornelis W. Oosterlee, (参考訳) データ同化(Data Assimilation)では、物理系の状態とパラメータを正確に推定するために、観測をシミュレーションで融合する。 しかし、データとモデルを組み合わせることは、不確実性を正確に推定する一方で、計算コストが高く、複雑なシステムに対してリアルタイムに実行することは不可能である。 本稿では,ニューラルネットワークに基づくサロゲートモデルを用いた新しい粒子フィルタ手法であるDeep Latent Space Particle Filter(D-LSPF)を提案する。 D-LSPFは、アッサースタインAEsを用いて得られた低次元潜時空間に、次元減少のための改良された視覚変換器層とパラメータ化された潜時空間ステップのための変圧器とのフィルタリングを可能にする。 D-LSPFは, 多相管流中における漏れの局所化や, 完全非線形波動に対する海底同定を含む3つの試験事例において, 高忠実度粒子フィルタより桁違いに高速で, 従来法より3~5倍高速であり, 高精度である。 これにより、D-LSPFは物理系の不確実な定量化とリアルタイムなデータ同化を可能にする。

In Data Assimilation, observations are fused with simulations to obtain an accurate estimate of the state and parameters for a given physical system. Combining data with a model, however, while accurately estimating uncertainty, is computationally expensive and infeasible to run in real-time for complex systems. Here, we present a novel particle filter methodology, the Deep Latent Space Particle filter or D-LSPF, that uses neural network-based surrogate models to overcome this computational challenge. The D-LSPF enables filtering in the low-dimensional latent space obtained using Wasserstein AEs with modified vision transformer layers for dimensionality reduction and transformers for parameterized latent space time stepping. As we demonstrate on three test cases, including leak localization in multi-phase pipe flow and seabed identification for fully nonlinear water waves, the D-LSPF runs orders of magnitude faster than a high-fidelity particle filter and 3-5 times faster than alternative methods while being up to an order of magnitude more accurate. The D-LSPF thus enables real-time data assimilation with uncertainty quantification for physical systems.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 帰納的知識グラフ補完のためのクエリ強化適応意味経路推論

Query-Enhanced Adaptive Semantic Path Reasoning for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2406.02205v1 )

ライセンス: Link先を確認
Kai Sun, Jiapu Wang, Huajie Jiang, Yongli Hu, Baocai Yin, (参考訳) 従来の知識グラフ補完(KGC)手法は、未完成な知識グラフ(KG)の不足情報を既存の情報を活用することによって推論することを目的としている。 帰納的KGC法はKGの出現する実体と関係を扱うことができ、よりダイナミックな適応性を提供する。 既存の帰納的KGC法はいくつかの成功をおさめたが、推論における構造情報のノイズへの感受性や、推論経路における長距離依存性の取得の難しさといった課題に直面している。 これらの課題に対処するために,KGの構造的情報と意味的情報の両方を同時にキャプチャして帰納的KGCタスクを強化する,Query-Enhanced Adaptive Semantic Path Reasoning (QASPR) フレームワークを提案する。 具体的には、QASPRでは、クエリ依存マスキングモジュールを使用して、ターゲットと密接に関連する重要な情報を保持しながら、ノイズの多い構造情報を適応的にマスキングする。 さらに、QASPRはグローバルなセマンティックスコアリングモジュールを導入し、KG内の推論パスに沿って、個々のコントリビューションとノードの集団的影響を評価する。 実験の結果,QASPRは最先端の性能を発揮することが示された。

Conventional Knowledge graph completion (KGC) methods aim to infer missing information in incomplete Knowledge Graphs (KGs) by leveraging existing information, which struggle to perform effectively in scenarios involving emerging entities. Inductive KGC methods can handle the emerging entities and relations in KGs, offering greater dynamic adaptability. While existing inductive KGC methods have achieved some success, they also face challenges, such as susceptibility to noisy structural information during reasoning and difficulty in capturing long-range dependencies in reasoning paths. To address these challenges, this paper proposes the Query-Enhanced Adaptive Semantic Path Reasoning (QASPR) framework, which simultaneously captures both the structural and semantic information of KGs to enhance the inductive KGC task. Specifically, the proposed QASPR employs a query-dependent masking module to adaptively mask noisy structural information while retaining important information closely related to the targets. Additionally, QASPR introduces a global semantic scoring module that evaluates both the individual contributions and the collective impact of nodes along the reasoning path within KGs. The experimental results demonstrate that QASPR achieves state-of-the-art performance.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# テキストのみ:マルチモーダルプロンプトによる視覚・言語ナビゲーションの強化

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts ( http://arxiv.org/abs/2406.02208v1 )

ライセンス: Link先を確認
Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu, (参考訳) 現在のVision-and-Language Navigation (VLN)タスクは、主にガイドエージェントのテキスト命令を使用する。 しかし、本質的には抽象的であり、同じテキスト命令は異なる視覚信号に関連付けられ、曖昧さと視覚領域における事前知識のユーザからエージェントへの移動を制限する。 このギャップを埋めるために、自然言語と画像の両方をインストラクションに統合することにより、従来のVLNを増強する新しいタスクであるVLN-MP(Vision-and-Language Navigation with Multi-modal Prompts)を提案する。 VLN-MPは、テキストのみのプロンプトを効果的に扱うことで後方互換性を維持するだけでなく、異なる量と視覚的プロンプトの関連性を一貫して示す。 視覚的なプロンプトには、正確なオブジェクトイメージと類似したオブジェクトイメージの両方が含まれており、多様なナビゲーションシナリオにおいて適応性と汎用性を提供する。 統一されたフレームワーク下でのVLN-MPを評価するために,(1)テキスト命令をランドマーク付きマルチモーダル形式に変換するトレーニングフリーパイプライン,(2)下流タスクのマルチモーダル命令を持つ多様なデータセット,(3)最先端VLNモデルとのシームレスな統合のために,さまざまな画像プロンプトを処理するように設計された新しいモジュールを提案する。 4つのVLNベンチマーク(R2R、RxR、REVERIE、CVDN)の大規模な実験は、視覚的なプロンプトを組み込むことでナビゲーション性能が大幅に向上することを示している。 テキストのみのプロンプトで効率を保ちながら、VLN-MPはエージェントが事前に設定された設定やテキストベースのモデルよりも優れており、より広い適用性を示している。

Current Vision-and-Language Navigation (VLN) tasks mainly employ textual instructions to guide agents. However, being inherently abstract, the same textual instruction can be associated with different visual signals, causing severe ambiguity and limiting the transfer of prior knowledge in the vision domain from the user to the agent. To fill this gap, we propose Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP), a novel task augmenting traditional VLN by integrating both natural language and images in instructions. VLN-MP not only maintains backward compatibility by effectively handling text-only prompts but also consistently shows advantages with different quantities and relevance of visual prompts. Possible forms of visual prompts include both exact and similar object images, providing adaptability and versatility in diverse navigation scenarios. To evaluate VLN-MP under a unified framework, we implement a new benchmark that offers: (1) a training-free pipeline to transform textual instructions into multi-modal forms with landmark images; (2) diverse datasets with multi-modal instructions for different downstream tasks; (3) a novel module designed to process various image prompts for seamless integration with state-of-the-art VLN models. Extensive experiments on four VLN benchmarks (R2R, RxR, REVERIE, CVDN) show that incorporating visual prompts significantly boosts navigation performance. While maintaining efficiency with text-only prompts, VLN-MP enables agents to navigate in the pre-explore setting and outperform text-based models, showing its broader applicability.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# リワードマッチングのための強化学習

Rectifying Reinforcement Learning for Reward Matching ( http://arxiv.org/abs/2406.02213v1 )

ライセンス: Link先を確認
Haoran He, Emmanuel Bengio, Qingpeng Cai, Ling Pan, (参考訳) Generative Flow Network (GFlowNet) は、エージェントが確率的ポリシーを学習し、フロー関数が非正規化報酬関数に比例した確率でオブジェクトをサンプリングする確率的フレームワークである。 GFlowNetsは強化学習(RL)とよく似ているが、これは典型的に報酬を最大化することを目的としている。 近年,GFlowNetと最大エントロピー(MaxEnt)RLの関連性を検討した。 GFlowNetsと標準RLとの直接のリンクはまだ発見されていないが、このギャップを埋めることで、両方の分野の可能性をさらに解き放つことができる。 本稿では,GFlowNetsと統一政策の政策評価の新たな関連性を確立する。 意外なことに、統一ポリシーの結果として得られる値関数は、GFlowNetsのフローと密接な関係があることが判明した。 これらの知見を生かして、GFlowNetsと同じ報酬マッチング効果を達成し、新たな視点を提供する、新しい修正ポリシー評価(RPE)アルゴリズムを提案する。 我々は, RPE, MaxEnt RL, GFlowNetsを多数のベンチマークで比較し, 従来の手法と比較して, RPEが競争力を発揮することを示す。 この研究は、(非MaxEnt) RL と GFlowNets の間の未解明の接続に光を当て、将来の両方の分野の研究への新たな道を開く可能性がある。

The Generative Flow Network (GFlowNet) is a probabilistic framework in which an agent learns a stochastic policy and flow functions to sample objects with probability proportional to an unnormalized reward function. GFlowNets share a strong resemblance to reinforcement learning (RL), that typically aims to maximize reward, due to their sequential decision-making processes. Recent works have studied connections between GFlowNets and maximum entropy (MaxEnt) RL, which modifies the standard objective of RL agents by learning an entropy-regularized objective. However, a critical theoretical gap persists: despite the apparent similarities in their sequential decision-making nature, a direct link between GFlowNets and standard RL has yet to be discovered, while bridging this gap could further unlock the potential of both fields. In this paper, we establish a new connection between GFlowNets and policy evaluation for a uniform policy. Surprisingly, we find that the resulting value function for the uniform policy has a close relationship to the flows in GFlowNets. Leveraging these insights, we further propose a novel rectified policy evaluation (RPE) algorithm, which achieves the same reward-matching effect as GFlowNets, offering a new perspective. We compare RPE, MaxEnt RL, and GFlowNets in a number of benchmarks, and show that RPE achieves competitive results compared to previous approaches. This work sheds light on the previously unexplored connection between (non-MaxEnt) RL and GFlowNets, potentially opening new avenues for future research in both fields.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# SLTrain:パラメータとメモリ効率向上のためのスパースとローランクアプローチ

SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining ( http://arxiv.org/abs/2406.02214v1 )

ライセンス: Link先を確認
Andi Han, Jiaxiang Li, Wei Huang, Mingyi Hong, Akiko Takeda, Pratik Jawanpuria, Bamdev Mishra, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがって印象的な機能を示している。 しかし、LLMをスクラッチからトレーニングするには、計算能力と広範なメモリ容量が必要である。 最近の研究では、低ランク適応または分解によって、パラメータや記憶の点で効率的な微調整を行うために、重量の低ランク構造を探索している。 微調整には有効であるが、低次元部分空間にパラメータを制限するため、一般には事前訓練には適さない。 本研究では,SLTrain と呼ばれる事前学習のための低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。 低ランク成分は行列分解によって学習されるが、スパース成分については、ランダムにスパーシティサポートを均一に選択し、固定されたサポートを持つゼロでないエントリのみを学習する単純な戦略を用いる。 単純ながら、ランダムな固定支援スパース学習戦略は、低ランク学習と組み合わせた場合の事前学習を著しく促進する。 その結果、SLTrainは、低ランクパラメータ化の事前訓練に比べて最小限のパラメータとメモリコストを付加するが、フルランクトレーニングに匹敵する性能は著しく向上することがわかった。 注目すべきは、量子化と層ごとのアップデートを組み合わせることで、LLaMA 7Bモデルを事前トレーニングする場合、SLTrainはメモリ要求を最大73%削減できることだ。

Large language models (LLMs) have shown impressive capabilities across various tasks. However, training LLMs from scratch requires significant computational power and extensive memory capacity. Recent studies have explored low-rank structures on weights for efficient fine-tuning in terms of parameters and memory, either through low-rank adaptation or factorization. While effective for fine-tuning, low-rank structures are generally less suitable for pretraining because they restrict parameters to a low-dimensional subspace. In this work, we propose to parameterize the weights as a sum of low-rank and sparse matrices for pretraining, which we call SLTrain. The low-rank component is learned via matrix factorization, while for the sparse component, we employ a simple strategy of uniformly selecting the sparsity support at random and learning only the non-zero entries with the fixed support. While being simple, the random fixed-support sparse learning strategy significantly enhances pretraining when combined with low-rank learning. Our results show that SLTrain adds minimal extra parameters and memory costs compared to pretraining with low-rank parameterization, yet achieves substantially better performance, which is comparable to full-rank training. Remarkably, when combined with quantization and per-layer updates, SLTrain can reduce memory requirements by up to 73% when pretraining the LLaMA 7B model.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# NordIQuEst:Nordic-Estonian Quantum Computing e-Infrastructure Quest

NordIQuEst: the Nordic-Estonian Quantum Computing e-Infrastructure Quest ( http://arxiv.org/abs/2406.02216v1 )

ライセンス: Link先を確認
Costantino Carugno, Jake Muff, Mikael P. Johansson, Sven Karlsson, Alberto Lanzanova, (参考訳) 本論では,デンマーク,エストニア,フィンランド,ノルウェー,スウェーデンの科学・学術機関が共同で,HPC+QC(High-Performance and Quantum Computing)とHPC+QC(High-Performance and Quantum Computing)のハイブリッドインフラストラクチャの開発に取り組んでいる。 このプロジェクトは既存の古典的高性能コンピューティングと量子コンピューティングシステムを活用し、相互接続型システムの開発を促進する。 当社の取り組みは、ハードウェアとソフトウェアの両方の機能のための前方的なアーキテクチャを開拓し、ハイブリッドコンピューティングインフラストラクチャにおける初期段階の開発を代表しています。 ここでは、イニシアチブの概要を説明し、プロジェクトの開始以来の進捗状況を要約し、確立されたフレームワークについて説明する。 さらに、直面した重要な課題と、それに対応するための潜在的な戦略を特定します。

This paper presents the Nordic-Estonian Quantum Computing e-Infrastructure Quest - NordIQuEst - an international collaboration of scientific and academic organizations from Denmark, Estonia, Finland, Norway, and Sweden, working together to develop a hybrid High-Performance and Quantum Computing (HPC+QC) infrastructure. The project leverages existing and upcoming classical high-performance computing and quantum computing systems, facilitating the development of interconnected systems. Our effort pioneers a forward-looking architecture for both hardware and software capabilities, representing an early-stage development in hybrid computing infrastructure. Here, we detail the outline of the initiative, summarizing the progress since the project outset, and describing the framework established. Moreover, we identify the crucial challenges encountered, and potential strategies employed to address them.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 非ガウス状態プローブによる量子ファイバー光学ジャイロスコープの感度向上

Enhancing the sensitivity of quantum fiber-optical gyroscopes via a non-Gaussian-state probe ( http://arxiv.org/abs/2406.02217v1 )

ライセンス: Link先を確認
Wen-Xun Zhang, Rui Zhang, Yunlan Zuo, Le-Man Kuang, (参考訳) 本稿では,量子ファイバー光ジャイロスコープ(QFOG)の感度を高めるための理論的手法を提案する。 非ガウス状態プローブは、光子励起を有する光子付加コヒーレント状態(PACS)と、コヒーレント状態CSとからなる生成物状態を利用する。 我々は,QFOGの感度について検討し,PACSプローブの光子励起を増大させることにより,その感度を著しく向上させることができることを示した。 本研究では,光子損失がQFOGの性能に及ぼす影響について検討し,PACSプローブが光子損失に対する耐性を示すことを示す。 さらに,2つのガウス状態プローブ(CSプローブとSSプローブ)に対してPACSプローブを用いたQFOGの性能を比較し,入力光子の総数の制約条件下では光子損失にかかわらず,PACSプローブが感度面で有意な優位性を示すことを示した。 特に、PACSプローブの感度は、測定されたパラメータの特定の値に対する2つのガウス状態プローブの感度よりも3桁高いことが判明した。 非ガウス状態プローブが感度を高め、光子損失を抑える能力は、将来の高性能QFOGに広範囲に影響を及ぼす可能性がある。

We propose a theoretical scheme to enhance the sensitivity of a quantum fiber-optical gyroscope (QFOG) via a non-Gaussian-state probe based on quadrature measurements of the optical field. The non-Gaussian-state probe utilizes the product state comprising a photon-added coherent state (PACS) with photon excitations and a coherent state CS. We study the sensitivity of the QFOG, and find that it can be significantly enhanced through increasing the photon excitations in the PACS probe. We investigate the influence of photon loss on the performance of QFOG and demonstrate that the PACS probe exhibits robust resistance to photon loss. Furthermore, we compare the performance of the QFOG using the PACS probe against two Gaussian-state probes: the CS probe and the squeezed state (SS) probe and indicate that the PACS probe offers a significant advantage in terms of sensitivity, regardless of photon loss, under the constraint condition of the same total number of input photons. Particularly, it is found that the sensitivity of the PACS probe can be three orders of magnitude higher than that of two Gaussian-state probes for certain values of the measured parameter. The capabilities of the non-Gaussian state probe on enhancing the sensitivity and resisting photon loss could have a wide-ranging impact on future high-performance QFOGs.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 任意有限体に対する量子ZH計算:普遍性と応用

The Qudit ZH Calculus for Arbitrary Finite Fields: Universality and Application ( http://arxiv.org/abs/2406.02219v1 )

ライセンス: Link先を確認
Dichuan, Gao, (参考訳) 任意の有限体における場算術を実装した素数次元$q = p^t$の量子化に対して、グラフィカルなZH計算の一般化を提案する。 これは、素体の算術を実装したRoyによる以前の結果の拡張であり、ZHを拡張して$\mathbb Z / q\mathbb Z$で巡回環算術を実装したde Beaudrapによる結果の代替であり、$\mathbb F_q$でフィールド算術を実装するのではなく、$\mathbb Z / q\mathbb Z$で巡回環算術を実装した。 この一般化されたZH計算は行列上の普遍性を持つことを示す: $\mathbb C^{q^n} \to \mathbb C^{q^m}$ は環 $\mathbb Z[\omega]$ の成分を持ち、$\omega$ はユニタリの$p$thルートである。 巡回環算術ではなく体に対するそのようなZHの拡張の必要性の図示として、多項式補間のための量子アルゴリズムのグラフィカルな記述と証明を提供する。 このアルゴリズムは乗算の可逆性に依存しており、それゆえ、リングや乗算よりもフィールドを実装するグラフィカル言語でのみ記述できる。

We propose a generalization of the graphical ZH calculus to qudits of prime-power dimensions $q = p^t$, implementing field arithmetic in arbitrary finite fields. This is an extension of a previous result by Roy which implemented arithmetic of prime-sized fields; and an alternative to a result by de Beaudrap which extended the ZH to implement cyclic ring arithmetic in $\mathbb Z / q\mathbb Z$ rather than field arithmetic in $\mathbb F_q$. We show this generalized ZH calculus to be universal over matrices $\mathbb C^{q^n} \to \mathbb C^{q^m}$ with entries in the ring $\mathbb Z[\omega]$ where $\omega$ is a $p$th root of unity. As an illustration of the necessity of such an extension of ZH for field rather than cyclic ring arithmetic, we offer a graphical description and proof for a quantum algorithm for polynomial interpolation. This algorithm relies on the invertibility of multiplication, and therefore can only be described in a graphical language that implements field, rather than ring, multiplication.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 宇宙ロケット用拡張型モデルベースデジタル双極子フレームワークの実現に向けて

Towards an Extensible Model-Based Digital Twin Framework for Space Launch Vehicles ( http://arxiv.org/abs/2406.02222v1 )

ライセンス: Link先を確認
Ran Wei, Ruizhe Yang, Shijun Liu, Chongsheng Fan, Rong Zhou, Zekun Wu, Haochi Wang, Yifan Cai, Zhe Jiang, (参考訳) Digital Twin(DT)の概念は、監視、分析、診断、意思決定、自動制御をサポートするために、ドメイン間の異なるレベルの抽象化システムにますます適用されています。 DTの適用に対する関心は高まりつつあるが,DTの定義は明確ではない。 本稿ではDTの概念と分類について再考する。 本稿では,モデルに基づくDT開発手法を提案するDT成熟度行列を提案する。 また、モデルベースのツールを使って方法論をサポートし、独自の支援ツールを提示する方法について論じる。 本研究は,提案手法と支援ツールを用いて,宇宙ロケットの電気・電子システムを保証するための拡張性DTプラットフォームを開発するための事例研究である。

The concept of Digital Twin (DT) is increasingly applied to systems on different levels of abstraction across domains, to support monitoring, analysis, diagnosis, decision making and automated control. Whilst the interest in applying DT is growing, the definition of DT is unclear, neither is there a clear pathway to develop DT to fully realise its capacities. In this paper, we revise the concept of DT and its categorisation. We propose a DT maturity matrix, based on which we propose a model-based DT development methodology. We also discuss how model-based tools can be used to support the methodology and present our own supporting tool. We report our preliminary findings with a discussion on a case study, in which we use our proposed methodology and our supporting tool to develop an extensible DT platform for the assurance of Electrical and Electronics systems of space launch vehicles.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# SMCL--長期学習のための塩分マスクドコントラスト学習-

SMCL: Saliency Masked Contrastive Learning for Long-tailed Recognition ( http://arxiv.org/abs/2406.02223v1 )

ライセンス: Link先を確認
Sanglee Park, Seung-won Hwang, Jungmin So, (参考訳) 実世界のデータは、しばしばクラス間のサンプル数に高い不均衡を持つ長い尾の分布に従う。 不均衡なデータからトレーニングする際の問題は、すべてのクラスに共通するいくつかのバックグラウンド機能は、サンプルの少ないクラスでは観測できないことだ。 結果として、この背景はバイアスのある予測を `major' クラスに関連付けている。 本稿では,サリエンシマスキングとコントラストラーニングを用いて問題を緩和し,モデルの一般化性を向上させる新しい手法である,サリエンシマスキングによるコントラストラーニングを提案する。 我々のキーとなる考え方は、画像の重要な部分を塩分濃度検出を用いてマスキングし、コントラスト学習を用いて特徴空間内の小さなクラスに向けてマスク画像を動かすことで、マスク画像に現れる背景特徴が元のクラスと相関しないようにすることである。 実験の結果,提案手法は,ベンチマーク長尾データセット上での最先端性能を実現することがわかった。

Real-world data often follow a long-tailed distribution with a high imbalance in the number of samples between classes. The problem with training from imbalanced data is that some background features, common to all classes, can be unobserved in classes with scarce samples. As a result, this background correlates to biased predictions into ``major" classes. In this paper, we propose saliency masked contrastive learning, a new method that uses saliency masking and contrastive learning to mitigate the problem and improve the generalizability of a model. Our key idea is to mask the important part of an image using saliency detection and use contrastive learning to move the masked image towards minor classes in the feature space, so that background features present in the masked image are no longer correlated with the original class. Experiment results show that our method achieves state-of-the-art level performance on benchmark long-tailed datasets.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# FedMKT:大規模・小規模言語モデルの相互知識伝達

FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models ( http://arxiv.org/abs/2406.02224v1 )

ライセンス: Link先を確認
Tao Fan, Guoqiang Ma, Yan Kang, Hanlin Gu, Lixin Fan, Qiang Yang, (参考訳) 連合型大規模言語モデル(LLM)の最近の研究は、クライアントがローカルにデプロイされた同種LLMを協調的に微調整することや、サーバベースのLLMから下流クライアントでの小さな言語モデル(SLM)への知識伝達に重点を置いている。 しかし、サーバのLLMとクライアントのSLMの相互強化には大きなギャップが残っている。 このギャップを埋めるため、大小言語モデルのためのパラメータ効率の高い相互知識伝達フレームワークであるFedMKTを提案する。 このフレームワークは、サーバのLLMからクライアントのSLMへ知識を適応的に転送し、同時にクライアントのユニークなドメイン洞察でLLMを豊かにするように設計されている。 最小編集距離(MinED)を用いてトークンアライメントを容易にし、クライアント側SLMとサーバ側LCM間の選択的相互知識伝達を行い、その性能を総合的に向上する。 ヘテロジニアス, 同質, ワンツーワンの3つの異なるシナリオにまたがる広範な実験を通じて, NLPテキスト生成タスクにおいて, 各種の公共LLMおよびSLMを用いてFedMKTの有効性を評価する。 実験の結果,クライアントのSLMの性能はLLMの助けを借りて大幅に向上した。 さらに、FedMKTによって最適化されたLLMは、クライアントのデータに基づいて直接微調整を行い、FedMKTの有効性と適応性を強調することで達成されるものと同等のパフォーマンスを達成する。

Recent research in federated large language models (LLMs) has primarily focused on enabling clients to fine-tune their locally deployed homogeneous LLMs collaboratively or on transferring knowledge from server-based LLMs to small language models (SLMs) at downstream clients. However, a significant gap remains in the simultaneous mutual enhancement of both the server's LLM and clients' SLMs. To bridge this gap, we propose FedMKT, a parameter-efficient federated mutual knowledge transfer framework for large and small language models. This framework is designed to adaptively transfer knowledge from the server's LLM to clients' SLMs while concurrently enriching the LLM with clients' unique domain insights. We facilitate token alignment using minimum edit distance (MinED) and then selective mutual knowledge transfer between client-side SLMs and a server-side LLM, aiming to collectively enhance their performance. Through extensive experiments across three distinct scenarios, heterogeneous, homogeneous, and one-to-one, we evaluate the effectiveness of FedMKT using various public LLMs and SLMs on a range of NLP text generation tasks. Empirical results demonstrate significant performance improvements in clients' SLMs with the aid of the LLM. Furthermore, the LLM optimized by FedMKT achieves a performance comparable to that achieved through direct fine-tuning based on clients' data, highlighting the effectiveness and adaptability of FedMKT.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# 行列多様体上のリーマン座標降下アルゴリズム

Riemannian coordinate descent algorithms on matrix manifolds ( http://arxiv.org/abs/2406.02225v1 )

ライセンス: Link先を確認
Andi Han, Pratik Jawanpuria, Bamdev Mishra, (参考訳) 多くの機械学習アプリケーションは自然にリーマン多様体上の最適化問題として定式化されている。 リーマン最適化の背景にある主要な考え方は、多様体上の降下方向に沿って移動しながら変数の実現性を維持することである。 これにより、イテレーション毎にすべての変数が更新される。 本研究では,行列多様体上の計算効率の良い座標降下(CD)アルゴリズムを開発するための一般的なフレームワークを提供する。 特に、Stiefel, Grassmann, (Generalized) hyperbolic, symplectic, and symmetric positive (semi) definite などの多様体に対するCDアルゴリズムを提案する。 提案したCDアルゴリズムのイテレーション当たりのコストは低いが、目的関数の1次近似を用いてより効率的な変種を開発する。 我々はそれらの収束と複雑性を分析し、いくつかのアプリケーションでその効果を実証的に説明する。

Many machine learning applications are naturally formulated as optimization problems on Riemannian manifolds. The main idea behind Riemannian optimization is to maintain the feasibility of the variables while moving along a descent direction on the manifold. This results in updating all the variables at every iteration. In this work, we provide a general framework for developing computationally efficient coordinate descent (CD) algorithms on matrix manifolds that allows updating only a few variables at every iteration while adhering to the manifold constraint. In particular, we propose CD algorithms for various manifolds such as Stiefel, Grassmann, (generalized) hyperbolic, symplectic, and symmetric positive (semi)definite. While the cost per iteration of the proposed CD algorithms is low, we further develop a more efficient variant via a first-order approximation of the objective function. We analyze their convergence and complexity, and empirically illustrate their efficacy in several applications.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# LABカラー空間画像分類のためのハイブリッド量子古典ニューラルネットワーク

Hybrid Quantum-Classical Neural Network for LAB Color Space Image Classification ( http://arxiv.org/abs/2406.02229v1 )

ライセンス: Link先を確認
Kwokho Ng, Tingting Song, (参考訳) パラメータ化量子回路(PQC)は多くの変分量子アルゴリズムにおいて必須である。 量子畳み込みニューラルネットワーク(QCNN)は、古典的畳み込みニューラルネットワークと構造的に類似しており、情報的特徴を抽出する能力を有しており、画像分類タスクにおいて顕著な効果を示している。 画像分類の精度を高め、トレーニングパラメータの数を減らすために、PQCまたはハイブリッド量子古典畳み込みニューラルネットワーク(HQCCNN)モデルの構造を変更するのが一般的である。 これらの学習モデルで使用される画像データセットは通常RGB画像である。 本研究では,異なる色空間の効果について検討し,量子計算に必要な資源の削減の可能性を探る。 既存のPQCを用いたHQCCNNモデルを用いて,各チャネルの性能をカラー空間画像で解析する。 実験結果から, 異なる色空間の画像の分類精度は, 2チャンネルで連続的に3チャンネルよりも高いことがわかった。 特に、LAB色空間画像のLチャネルは、より複雑なPQCを使用する場合、より優れた分類精度を実現する。 さらに、制御回転Xゲートを用いたPQCは、この分類タスクにおける制御選択Zゲートよりも優れる。

Parameterized quantum circuits (PQCs) are essential in many variational quantum algorithms. Quantum convolutional neural networks (QCNNs), which are structurally similar to classical convolutional neural networks, possess the capability to extract informative features and have shown significant effectiveness in image classification tasks. To achieve higher image classification accuracy and reduce the number of training parameters, modifications to the structure of PQCs or hybrid quantum-classical convolutional neural network (HQCCNN) models are typically employed. The image datasets used in these learning models are usually RGB images. We investigate the effects of different color spaces to explore the potential for reducing the resources required for quantum computation. By utilizing a simple HQCCNN model with existing PQCs, we analyze the performance of each channel in various color space images. Experimental results reveal that two channels consistently exhibit higher classification accuracy in images from different color spaces than the third. Specifically, the L channel of LAB color space images achieves superior classification accuracy when employing a more complex PQC. Additionally, PQCs utilizing controlled rotation X-gates outperform those using controlled selection Z-gates in this classification task.
翻訳日:2024-06-05 16:42:06 公開日:2024-06-04
# I4VGen:テキスト・ビデオ・ジェネレーションのためのステッピングストーンとしてのイメージ

I4VGen: Image as Stepping Stone for Text-to-Video Generation ( http://arxiv.org/abs/2406.02230v1 )

ライセンス: Link先を確認
Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang, (参考訳) テキスト・ツー・ビデオ生成は、時空間モデリングと制限されたビデオテキストデータセットの複雑さにより、品質と多様性のテキスト・ツー・イメージ合成に遅れを取っている。 本稿では、ロバストな画像技術を活用して、テキスト・ツー・ビデオ生成を向上させる、トレーニングフリーでプラグ・アンド・プレイの動画拡散推論フレームワークであるI4VGenを提案する。 具体的には、テキスト・トゥ・イメージ・トゥ・ビデオに続いて、I4VGenは、テキスト・トゥ・ビデオ生成をアンカー画像合成とアンカー画像誘導ビデオ合成の2段階に分解する。 それに対応して、視覚的にリアルでセマンティックに忠実なアンカー画像を実現するために、よく設計された世代選択パイプラインが採用され、ダイナミックビデオに画像をアニメーションするために、革新的なノイズ不変ビデオスコア蒸留サンプリングが組み込まれ、その後、ビデオ再生処理によって映像を洗練する。 この推論戦略は、非ゼロ終端信号対雑音比の一般的な問題を効果的に緩和する。 広汎な評価の結果,I4VGenは高解像度のビジュアルリアリズムとテキスト忠実度を持つビデオを生成するだけでなく,既存の画像とビデオの拡散モデルとシームレスに統合することで,全体的な画質の向上を実現している。

Text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents I4VGen, a training-free and plug-and-play video diffusion inference framework, which enhances text-to-video generation by leveraging robust image techniques. Specifically, following text-to-image-to-video, I4VGen decomposes the text-to-video generation into two stages: anchor image synthesis and anchor image-guided video synthesis. Correspondingly, a well-designed generation-selection pipeline is employed to achieve visually-realistic and semantically-faithful anchor image, and an innovative Noise-Invariant Video Score Distillation Sampling is incorporated to animate the image to a dynamic video, followed by a video regeneration process to refine the video. This inference strategy effectively mitigates the prevalent issue of non-zero terminal signal-to-noise ratio. Extensive evaluations show that I4VGen not only produces videos with higher visual realism and textual fidelity but also integrates seamlessly into existing image-to-video diffusion models, thereby improving overall video quality.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 一般化の尺度としてのフラクタル次元の限界について

On the Limitations of Fractal Dimension as a Measure of Generalization ( http://arxiv.org/abs/2406.02234v1 )

ライセンス: Link先を確認
Charlie Tan, Inés García-Redondo, Qiquan Wang, Michael M. Bronstein, Anthea Monod, (参考訳) 過パラメータ化されたニューラルネットワークの一般化ギャップの境界と予測は、理論的機械学習において依然として中心的な問題である。 ニューラルネットワーク最適化トラジェクトリはフラクタル構造を持つことが提案されており、これらのトラジェクトリ上のフラクタル次元の概念に基づく境界と一般化の手段が導かれる。 顕著なことに、ハウスドルフ次元と永続ホモロジー次元の両方が一般化ギャップと相関し、一般化の尺度として機能するように提案されている。 この研究は、これらのトポロジカル一般化尺度のさらなる評価を行う。 フラクタル次元は、未熟な初期化から訓練されたモデルの一般化を予測できないことを示す。 さらに、最終パラメータの$\ell^2$ノルムは、学習理論における最も単純な複雑性尺度の1つであり、これらのフラクタル次元の概念よりも一般化ギャップと強く相関している。 最後に, 恒常的ホモロジーに基づく一般化尺度において, モデルワイド二重降下の興味深い現象が明らかとなった。 この研究は、フラクタル幾何学、トポロジカルデータ分析、ニューラルネットワーク最適化の間の因果関係のより深い研究の基盤となる。

Bounding and predicting the generalization gap of overparameterized neural networks remains a central open problem in theoretical machine learning. Neural network optimization trajectories have been proposed to possess fractal structure, leading to bounds and generalization measures based on notions of fractal dimension on these trajectories. Prominently, both the Hausdorff dimension and the persistent homology dimension have been proposed to correlate with generalization gap, thus serving as a measure of generalization. This work performs an extended evaluation of these topological generalization measures. We demonstrate that fractal dimension fails to predict generalization of models trained from poor initializations. We further identify that the $\ell^2$ norm of the final parameter iterate, one of the simplest complexity measures in learning theory, correlates more strongly with the generalization gap than these notions of fractal dimension. Finally, our study reveals the intriguing manifestation of model-wise double descent in persistent homology-based generalization measures. This work lays the ground for a deeper investigation of the causal relationships between fractal geometry, topological data analysis, and neural network optimization.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 確率的モンテカルロ木探索におけるパワー平均推定

Power Mean Estimation in Stochastic Monte-Carlo Tree_Search ( http://arxiv.org/abs/2406.02235v1 )

ライセンス: Link先を確認
Tuan Dam, Odalric-Ambrym Maillard, Emilie Kaufmann, (参考訳) Monte-Carlo Tree Search (MCTS)は、Monte-Carloサンプリングとフォワードツリー検索を組み合わせたオンラインプランニングのための広く使われている戦略である。 その成功は、マルチアームバンディットのための UCB 法の拡張である Up Confidence bound for Trees (UCT) アルゴリズムに依存している。 しかし、UCTの理論的基礎は対数的ボーナス項の動作選択の誤りにより不完全であり、探索と利用のバランスをとるための多項式探索ボーナスを持つ固定深度MCTSの開発に繋がる。 UCT と Fixed-Depth-MCTS はいずれもバイアス値の推定に苦しむ:重み付き和は最適値を過小評価し、最大値はそれ~\citep{coulom 2006efficient} を過小評価する。 パワー平均推定器は平均値と最大値の間にバランスのとれた解を提供する。 Power-UCT~\citep{dam2019 generalized} はより正確な値推定のためにこの推定器を組み込むが、理論解析はいまだ不完全である。 本稿では,パワー平均推定器を用いたMCTSアルゴリズムであるStochastic-Power-UCTについて述べる。 我々は、根ノード値の推定における多項式収束を解析し、$\mathcal{O}(n^{-1/2})$と同じ収束率と、$n$が訪問軌跡の数であり、Fixed-Depth-MCTSのように、後者が前者の特別な場合であることを示す。 本研究の理論的結果は,様々な確率的MDP環境における実証実験により検証された。

Monte-Carlo Tree Search (MCTS) is a widely-used strategy for online planning that combines Monte-Carlo sampling with forward tree search. Its success relies on the Upper Confidence bound for Trees (UCT) algorithm, an extension of the UCB method for multi-arm bandits. However, the theoretical foundation of UCT is incomplete due to an error in the logarithmic bonus term for action selection, leading to the development of Fixed-Depth-MCTS with a polynomial exploration bonus to balance exploration and exploitation~\citep{shah2022journal}. Both UCT and Fixed-Depth-MCTS suffer from biased value estimation: the weighted sum underestimates the optimal value, while the maximum valuation overestimates it~\citep{coulom2006efficient}. The power mean estimator offers a balanced solution, lying between the average and maximum values. Power-UCT~\citep{dam2019generalized} incorporates this estimator for more accurate value estimates but its theoretical analysis remains incomplete. This paper introduces Stochastic-Power-UCT, an MCTS algorithm using the power mean estimator and tailored for stochastic MDPs. We analyze its polynomial convergence in estimating root node values and show that it shares the same convergence rate of $\mathcal{O}(n^{-1/2})$, with $n$ is the number of visited trajectories, as Fixed-Depth-MCTS, with the latter being a special case of the former. Our theoretical results are validated with empirical tests across various stochastic MDP environments.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 光量子スイッチにおける熱力学的自由チャネルによる優れた通信の実証

Demonstration of superior communication through thermodynamically free channels in an optical quantum switch ( http://arxiv.org/abs/2406.02236v1 )

ライセンス: Link先を確認
Hao Tang, Yu Guo, Xiao-Min Hu, Yun-Feng Huang, Bi-Heng Liu, Chuan-Feng Li, Guang-Can Guo, (参考訳) 適切に定義された順序から不確定な順序への物理事象の因果構造の放出は、様々な量子情報タスクにおける顕著な拡張を刺激する。 しかし、これらの利点のいくつかは、不明確な因果構造を持つ実験的に実現された過程である量子スイッチにおける制御系の曖昧な役割について疑問視されている。 例えば、通信では、代替因果順序の重ね合わせだけでなく、代替軌跡の重ね合わせも情報伝達を加速することができる。 ここでは、Lu et al (Phys. Rev. Lett. 129, 230604 (2022)) の提案に従い、フォトニックプラットフォームにおける熱力学のツールキットによる不定因果順序の情報強化効果について検討する。 具体的には、量子スイッチに埋め込まれたシステムキュービットと2つの熱浴の間の熱的相互作用を、対応する熱チャネルを実装してシミュレートする。 システム量子ビットに対するその作用は熱的にのみ自由であるが、制御量子ビットも考慮された場合、量子スイッチはリソースと見なされるべきである。 さらに, このシナリオでは, 熱浴からシステムキュービットへの情報逆流を測定することにより, 非マルコフ特性を特徴づける。

The release of causal structure of physical events from a well-defined order to an indefinite one stimulates remarkable enhancements in various quantum information tasks. Some of these advantages, however, are questioned for the ambiguous role of the control system in the quantum switch that is an experimentally realized process with indefinite causal structure. In communications, for example, not only the superposition of alternative causal orders, but also the superposition of alternative trajectories can accelerate information transmissions. Here, we follow the proposal of Liu et al. [Phys. Rev. Lett. 129, 230604 (2022)], and examine the information enhancement effect of indefinite causal orders with the toolkit of thermodynamics in a photonic platform. Specifically, we simulate the thermal interaction between a system qubit and two heat baths embedded in a quantum switch by implementing the corresponding switched thermal channels. Although its action on the system qubit only is thermally free, our results suggest that the quantum switch should be seen as a resource when the control qubit is also considered. Moreover, we characterize the non-Markovian property in this scenario by measuring the information backflows from the heat baths to the system qubit.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 同時機械翻訳のための自己修正状態モデリング

Self-Modifying State Modeling for Simultaneous Machine Translation ( http://arxiv.org/abs/2406.02237v1 )

ライセンス: Link先を確認
Donglei Yu, Xiaomian Kang, Yuchen Liu, Yu Zhou, Chengqing Zong, (参考訳) 同時機械翻訳(SiMT)は、ストリームソース入力を受信しながらターゲット出力を生成し、次のソーストークンを待つか、新しいターゲットトークンを生成するかを決定するために読み取り/書き込みポリシーを必要とする。 既存のSiMT手法は、様々な意思決定経路を探索することでポリシーを学習し、固有の制約に直面している。 これらの手法は、SiMT性能に対する各決定の個々の影響を正確に評価できないことによるポリシーの正確な最適化に失敗するだけでなく、その膨大な数のために全ての潜在的経路を十分に探索することができない。 さらに、意思決定経路を構築するには、一方向エンコーダがストリーミングソース入力をシミュレートする必要があるため、SiMTモデルの翻訳品質が損なわれる。 これらの問題を解決するために、SiMTタスクのための新しいトレーニングパラダイムである \textbf{S}elf-\textbf{M}odifying \textbf{S}tate \textbf{M}odeling (SM$^2$)を提案する。 SM$^2$は、意思決定パスを構築することなく、トレーニング中の各状態における決定を個別に最適化する。 ポリシーを正確に最適化するために、SM$^2$は、各状態における決定を独立して評価し調整する自己修正プロセスを導入する。 十分な探索のために、SM$^2$は全ての潜在状態を効率的にトラバースするプリフィックスサンプリングを提案する。 さらに、SM$^2$は双方向エンコーダとの互換性を確保し、より高い翻訳品質を実現する。 SM$^2$は強いベースラインより優れていることを示す実験がある。 さらに、SM$^2$は、オフライン機械翻訳モデルで微調整でSiMT能力を取得することを可能にする。

Simultaneous Machine Translation (SiMT) generates target outputs while receiving stream source inputs and requires a read/write policy to decide whether to wait for the next source token or generate a new target token, whose decisions form a \textit{decision path}. Existing SiMT methods, which learn the policy by exploring various decision paths in training, face inherent limitations. These methods not only fail to precisely optimize the policy due to the inability to accurately assess the individual impact of each decision on SiMT performance, but also cannot sufficiently explore all potential paths because of their vast number. Besides, building decision paths requires unidirectional encoders to simulate streaming source inputs, which impairs the translation quality of SiMT models. To solve these issues, we propose \textbf{S}elf-\textbf{M}odifying \textbf{S}tate \textbf{M}odeling (SM$^2$), a novel training paradigm for SiMT task. Without building decision paths, SM$^2$ individually optimizes decisions at each state during training. To precisely optimize the policy, SM$^2$ introduces Self-Modifying process to independently assess and adjust decisions at each state. For sufficient exploration, SM$^2$ proposes Prefix Sampling to efficiently traverse all potential states. Moreover, SM$^2$ ensures compatibility with bidirectional encoders, thus achieving higher translation quality. Experiments show that SM$^2$ outperforms strong baselines. Furthermore, SM$^2$ allows offline machine translation models to acquire SiMT ability with fine-tuning.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# ゼロショットエンティティの記述ブースティングと関係分類

Description Boosting for Zero-Shot Entity and Relation Classification ( http://arxiv.org/abs/2406.02245v1 )

ライセンス: Link先を確認
Gabriele Picco, Leopold Fuchs, Marcos Martínez Galindo, Alberto Purpura, Vanessa López, Hoang Thanh Lam, (参考訳) ゼロショットエンティティとリレーショナル分類モデルは、入力テキストデータに注釈をつけるために、目に見えないクラス(例:テキスト記述)の利用可能な外部情報を利用する。 最小限のデータ要求により、ZSL(Zero-Shot Learning)メソッドは、特にラベル付きデータが不足しているアプリケーションにおいて、実際に高い価値を持つ。 ZSLにおける最近の研究は大きな成果を上げているが,本研究では,それらの手法がエンティティ(あるいは関係)のテキスト記述に敏感であることを明らかにする。 記述の小さな変更でさえも、エンティティ(または関係)クラス間の決定境界の変更につながる可能性がある。 本稿では,ゼロショット推論において有効な記述を識別する問題を正式に定義する。 本稿では、初期記述のバリエーションを生成するための戦略と、それらのランク付けのためのヒューリスティックと、記述の強化によるゼロショットモデルの予測を促進できるアンサンブル手法を提案する。 4つの異なるエンティティおよび関係分類データセットに対する実験結果から,提案手法は既存の手法よりも優れ,ZSL設定下で新たなSOTA結果が得られることが示された。 提案したソリューションと評価フレームワークのソースコードはオープンソースである。

Zero-shot entity and relation classification models leverage available external information of unseen classes -- e.g., textual descriptions -- to annotate input text data. Thanks to the minimum data requirement, Zero-Shot Learning (ZSL) methods have high value in practice, especially in applications where labeled data is scarce. Even though recent research in ZSL has demonstrated significant results, our analysis reveals that those methods are sensitive to provided textual descriptions of entities (or relations). Even a minor modification of descriptions can lead to a change in the decision boundary between entity (or relation) classes. In this paper, we formally define the problem of identifying effective descriptions for zero shot inference. We propose a strategy for generating variations of an initial description, a heuristic for ranking them and an ensemble method capable of boosting the predictions of zero-shot models through description enhancement. Empirical results on four different entity and relation classification datasets show that our proposed method outperform existing approaches and achieve new SOTA results on these datasets under the ZSL settings. The source code of the proposed solutions and the evaluation framework are open-sourced.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 変圧器と弱教師付き学習を利用した小説の感情軌跡のモデル化

Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning ( http://arxiv.org/abs/2406.02251v1 )

ライセンス: Link先を確認
Lukas Christ, Shahin Amiriparian, Manuel Milling, Ilhan Aslan, Björn W. Schuller, (参考訳) 物語を語ることは人間のコミュニケーションの不可欠な部分であり、感情を喚起し、聴衆の感情状態に影響を与えることができる。 物語における感情的軌跡の自動モデル化は、学術的にかなりの関心を集めている。 しかし、既存の作業の多くは教師なし辞書ベースのアプローチに限られているため、このタスクのベンチマークは存在しない。 このギャップを解消するために,従来の子どもの物語を個別の感情カテゴリーでアノテートしたデータセットに対して,連続的原子価と覚醒ラベルを導入する。 このデータに対する追加アノテーションを収集し、カテゴリラベルを連続的な価数と覚醒空間にマッピングする。 得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。 最適構成は、評価値に対して$.8221$、テストセット上でのarousalに対して$.7125$の一致相関係数(CCC)を達成し、提案手法の有効性を実証する。 詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。 さらに,予測が困難であることを示す事例を調査することで,アプローチの弱点を明らかにする。

Telling stories is an integral part of human communication which can evoke emotions and influence the affective states of the audience. Automatically modeling emotional trajectories in stories has thus attracted considerable scholarly interest. However, as most existing works have been limited to unsupervised dictionary-based approaches, there is no benchmark for this task. We address this gap by introducing continuous valence and arousal labels for an existing dataset of children's stories originally annotated with discrete emotion categories. We collect additional annotations for this data and map the categorical labels to the continuous valence and arousal space. For predicting the thus obtained emotionality signals, we fine-tune a DeBERTa model and improve upon this baseline via a weakly supervised learning approach. The best configuration achieves a Concordance Correlation Coefficient (CCC) of $.8221$ for valence and $.7125$ for arousal on the test set, demonstrating the efficacy of our proposed approach. A detailed analysis shows the extent to which the results vary depending on factors such as the author, the individual story, or the section within the story. In addition, we uncover the weaknesses of our approach by investigating examples that prove to be difficult to predict.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# PuFace:顔認識モデルにおける顔のクローズ攻撃に対する防御

PuFace: Defending against Facial Cloaking Attacks for Facial Recognition Models ( http://arxiv.org/abs/2406.02253v1 )

ライセンス: Link先を確認
Jing Wen, (参考訳) 最近提案された顔認識攻撃は、ユーザーが無許可の顔認識モデルで認識されるのを防ぐために、顔画像に目に見えない摂動(クローク)を追加する。 しかし、"クローズ"は十分に堅牢ではなく、画像から除去できることが示されている。 本稿では,ニューラルネットワークの一般化能力を活用した画像浄化システムであるPuFaceを紹介する。 具体的には, 自然画像を含むすべての訓練画像を入力として取り出し, 自然画像が横たわる多様体近傍の精製顔画像を生成する。 本研究の目的は,特に増幅されたクローク画像に対して,画像損失と特徴損失を組み合わせた損失関数を学習することである。 我々の実証実験は、PuFaceが2つの最先端の顔認識攻撃に対して効果的に防御できることを示し、様々な顔認識モデルの正常な精度を低下させることなく、攻撃成功率を平均69.84\%から7.61\%に下げることを示した。 さらに、PuFaceはモデル構造を変更することなく、どんな顔認識モデルにも適用可能な、モデルに依存しない防御機構である。

The recently proposed facial cloaking attacks add invisible perturbation (cloaks) to facial images to protect users from being recognized by unauthorized facial recognition models. However, we show that the "cloaks" are not robust enough and can be removed from images. This paper introduces PuFace, an image purification system leveraging the generalization ability of neural networks to diminish the impact of cloaks by pushing the cloaked images towards the manifold of natural (uncloaked) images before the training process of facial recognition models. Specifically, we devise a purifier that takes all the training images including both cloaked and natural images as input and generates the purified facial images close to the manifold where natural images lie. To meet the defense goal, we propose to train the purifier on particularly amplified cloaked images with a loss function that combines image loss and feature loss. Our empirical experiment shows PuFace can effectively defend against two state-of-the-art facial cloaking attacks and reduces the attack success rate from 69.84\% to 7.61\% on average without degrading the normal accuracy for various facial recognition models. Moreover, PuFace is a model-agnostic defense mechanism that can be applied to any facial recognition model without modifying the model structure.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# MidiCaps -- テキストキャプションを備えた大規模MIDIデータセット

MidiCaps -- A large-scale MIDI dataset with text captions ( http://arxiv.org/abs/2406.02255v1 )

ライセンス: Link先を確認
Jan Melechovsky, Abhinaba Roy, Dorien Herremans, (参考訳) テキストプロンプトによってガイドされる生成モデルは、ますます人気が高まっている。 しかし、主にキャプション付きMIDIデータセットがないために、現在テキストからMIDIモデルが存在しない。 本研究の目的は,最初の大規模MIDIデータセットを公開可能なテキストキャプションであるMidiCapsで提示することにより,LLMとシンボル音楽を組み合わせた研究を可能にすることである。 MIDI (Musical Instrument Digital Interface) ファイルは、音楽情報を符号化するために広く使われているフォーマットである。 彼らの構成された形式は、作曲のニュアンスを捉え、音楽プロデューサー、作曲家、音楽学者、そしてパフォーマーによって実践的な応用がなされている。 様々なドメインに適用されたキャプション手法の最近の進歩に触発されて,テキスト記述を伴う168kのMIDIファイルからなる大規模キュレートデータセットを提示する。 各MIDIキャプションは、テンポ、コード進行、タイムシグネチャ、楽器、ジャンル、ムードを含む音楽内容を簡潔に記述し、マルチモーダル探索と分析を容易にする。 このデータセットには様々なジャンル、スタイル、複雑さが混在しており、音楽情報検索、音楽理解、クロスモーダル翻訳といったタスクのモデルのトレーニングと評価のための豊富な情報源を提供する。 我々は,データセットに関する詳細な統計情報を提供し,広範囲にわたる聴取調査において,キャプションの品質を評価した。 我々は,この資源が音楽と自然言語処理の交わりのさらなる研究を刺激し,両分野の進歩を促進することを期待する。

Generative models guided by text prompts are increasingly becoming more popular. However, no text-to-MIDI models currently exist, mostly due to the lack of a captioned MIDI dataset. This work aims to enable research that combines LLMs with symbolic music by presenting the first large-scale MIDI dataset with text captions that is openly available: MidiCaps. MIDI (Musical Instrument Digital Interface) files are a widely used format for encoding musical information. Their structured format captures the nuances of musical composition and has practical applications by music producers, composers, musicologists, as well as performers. Inspired by recent advancements in captioning techniques applied to various domains, we present a large-scale curated dataset of over 168k MIDI files accompanied by textual descriptions. Each MIDI caption succinctly describes the musical content, encompassing tempo, chord progression, time signature, instruments present, genre and mood; thereby facilitating multi-modal exploration and analysis. The dataset contains a mix of various genres, styles, and complexities, offering a rich source for training and evaluating models for tasks such as music information retrieval, music understanding and cross-modal translation. We provide detailed statistics about the dataset and have assessed the quality of the captions in an extensive listening study. We anticipate that this resource will stimulate further research in the intersection of music and natural language processing, fostering advancements in both fields.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# ルックアヘッド情報を用いた強化学習

Reinforcement Learning with Lookahead Information ( http://arxiv.org/abs/2406.02258v1 )

ライセンス: Link先を確認
Nadav Merlis, (参考訳) エージェントが報酬や移行の実現を現在の状態で観察し、どの行動をとるかを決定するための強化学習(RL)問題について検討する。 このような観察は、トランザクションやナビゲーションなど、多くのアプリケーションで利用できます。 環境が分かっている場合、以前の研究は、このルックアヘッド情報が収集された報酬を大幅に増加させることができることを示した。 しかし、特定のアプリケーション以外では、未知の環境と対話するための既存のアプローチは、これらの観測に適していない。 本研究では、このギャップを埋め、ルックアヘッド情報を組み込むことができる確率効率の高い学習アルゴリズムを設計する。 これを実現するために、推定期待にのみ依存するバニラアプローチとは対照的に、報酬と遷移観測の実証的な分布を用いた計画を行う。 我々のアルゴリズムは、ルックアヘッド情報にもアクセス可能なベースラインに対して、ルックアヘッド情報を扱うことができないエージェントに比べて、収集された報酬の量を直線的に増加させることを証明している。

We study reinforcement learning (RL) problems in which agents observe the reward or transition realizations at their current state before deciding which action to take. Such observations are available in many applications, including transactions, navigation and more. When the environment is known, previous work shows that this lookahead information can drastically increase the collected reward. However, outside of specific applications, existing approaches for interacting with unknown environments are not well-adapted to these observations. In this work, we close this gap and design provably-efficient learning algorithms able to incorporate lookahead information. To achieve this, we perform planning using the empirical distribution of the reward and transition observations, in contrast to vanilla approaches that only rely on estimated expectations. We prove that our algorithms achieve tight regret versus a baseline that also has access to lookahead information - linearly increasing the amount of collected reward compared to agents that cannot handle lookahead information.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# M3DM-NR:RGB-3Dマルチモーダルデノナイジングによる耐雑音性産業異常検出

M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising ( http://arxiv.org/abs/2406.02263v1 )

ライセンス: Link先を確認
Chengjie Wang, Haokun Zhu, Jinlong Peng, Yue Wang, Ran Yi, Yunsheng Wu, Lizhuang Ma, Jiangning Zhang, (参考訳) 既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。 しかし、RGBデータと3Dデータの両方が異常検出に不可欠であり、実際のシナリオではデータセットが完全にクリーンであることはめったにない。 上記の課題に対処するため,本論文はまずRGB-3Dマルチモーダルノイズ異常検出に取り組み,CLIPの強力なマルチモーダル識別機能を活用するための新しいノイズ耐性M3DM-NRフレームワークを提案する。 M3DM-NRは3つのステージで構成されている。Stage-Iはトレーニングデータセットからいくつかの通常のサンプルをフィルタリングするために参照参照選択モジュールを導入し、初期特徴抽出によって抽出されたマルチモーダル特徴を使用して、参照として異常領域に注目する疑わしい異常マップを生成する。 Stage-IIでは、参照サンプルの疑わしい異常マップを参照として使用し、画像、点雲、テキスト情報を入力して、モーダル内比較とマルチスケールアグリゲーション操作を通じてトレーニングサンプルのノイズ化を実現する。 最後に、Stage-IIIは、学習データセットのパターンを学ぶためにPoint Feature Alignment、Unsupervised Feature Fusion、Nozz Discriminative Coreset Selection、Decision Layer Fusionモジュールを提案し、ノイズをフィルタリングしながら異常検出とセグメンテーションを可能にする。 M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。

Existing industrial anomaly detection methods primarily concentrate on unsupervised learning with pristine RGB images. Yet, both RGB and 3D data are crucial for anomaly detection, and the datasets are seldom completely clean in practical scenarios. To address above challenges, this paper initially delves into the RGB-3D multi-modal noisy anomaly detection, proposing a novel noise-resistant M3DM-NR framework to leveraging strong multi-modal discriminative capabilities of CLIP. M3DM-NR consists of three stages: Stage-I introduces the Suspected References Selection module to filter a few normal samples from the training dataset, using the multimodal features extracted by the Initial Feature Extraction, and a Suspected Anomaly Map Computation module to generate a suspected anomaly map to focus on abnormal regions as reference. Stage-II uses the suspected anomaly maps of the reference samples as reference, and inputs image, point cloud, and text information to achieve denoising of the training samples through intra-modal comparison and multi-scale aggregation operations. Finally, Stage-III proposes the Point Feature Alignment, Unsupervised Feature Fusion, Noise Discriminative Coreset Selection, and Decision Layer Fusion modules to learn the pattern of the training dataset, enabling anomaly detection and segmentation while filtering out noise. Extensive experiments show that M3DM-NR outperforms state-of-the-art methods in 3D-RGB multi-modal noisy anomaly detection.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# シュレーディンガー作用素スペクトルに基づく画像コントラスト強調

Image contrast enhancement based on the Schrödinger operator spectrum ( http://arxiv.org/abs/2406.02264v1 )

ライセンス: Link先を確認
Juan M. Vargas, Taous-Meriem Laleg-Kirati, (参考訳) 本研究では,2次元シュリンガー作用素の2次元固有関数への画像投影に基づく新しい画像コントラスト強調法を提案する。 この投影は、画像再構成時の画素強度を制御するために提案される設計パラメータ \texorpdfstring{\(\gamma\)}{gamma} に依存する。 提案手法の性能をカラー画像に応用して検討した。 画像空間隣接情報の保存を支援するk-meansを用いて、texorpdfstring{\(\gamma\)}{gamma}値の選択を行う。 さらに, 2DSCSA から \texorpdfstring{\(\gamma\)}{gamma} の最適値と半古典パラメータ h を選択するために, NSAG2 アルゴリズムを用いた多目的最適化を提案する。 その結果,原画像の特徴を保ちながら画像コントラストを向上する手法の有効性が示された。

This study proposes a novel image contrast enhancement method based on image projection onto the squared eigenfunctions of the two dimensional Schr\"odinger operator. This projection depends on a design parameter \texorpdfstring{\(\gamma\)}{gamma} which is proposed to control the pixel intensity during image reconstruction. The performance of the proposed method is investigated through its application to color images. The selection of \texorpdfstring{\(\gamma\)}{gamma} values is performed using k-means, which helps preserve the image spatial adjacency information. Furthermore, multi-objective optimization using the Non dominated Sorting Genetic Algorithm II (NSAG2) algorithm is proposed to select the optimal values of \texorpdfstring{\(\gamma\)}{gamma} and the semi-classical parameter h from the 2DSCSA. The results demonstrate the effectiveness of the proposed method for enhancing image contrast while preserving the inherent characteristics of the original image, producing the desired enhancement with almost no artifacts.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 検索機能強化画像キャプションにおける検索ロバストさの理解

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning ( http://arxiv.org/abs/2406.02265v1 )

ライセンス: Link先を確認
Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott, (参考訳) 画像キャプションのための検索強化モデルの最近の進歩は、強力なドメイン・トランスファー機能を持つ効率的で軽量なモデルにおいて、関連キャプションを検索することの重要性を強調している。 これらのモデルが検索拡張の成功を示す一方で、検索モデルは実際には完璧には程遠い。 回収された情報は、時にモデル生成を誤解させ、パフォーマンスに悪影響を及ぼすことがある。 本稿では,SmallCap検索拡張キャプションモデルのロバスト性を解析する。 分析の結果,SmallCapは検索したキャプションの大部分に現れるトークンに敏感であり,集積的なグラデーション属性は,これらのトークンが最終キャプションにコピーされる可能性が高いことを示している。 これらの結果を踏まえ、より多様な集合から抽出したキャプションを抽出してモデルを訓練することを提案する。 これにより、モデルがマジョリティトークンをコピーすることを学習する確率を減らし、ドメイン内およびクロスドメインのパフォーマンスを効果的に改善する。

Recent advancements in retrieval-augmented models for image captioning highlight the significance of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice. Retrieved information can sometimes mislead the model generation, negatively impacting performance. In this paper, we analyze the robustness of the SmallCap retrieval-augmented captioning model. Our analysis shows that SmallCap is sensitive to tokens that appear in the majority of the retrieved captions, and integrated gradients attribution shows that those tokens are likely copied into the final caption. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This reduces the probability that the model learns to copy majority tokens and improves both in-domain and cross-domain performance effectively.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 2段整合学習圧縮機を用いた検索拡張型LMの高速化

Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor ( http://arxiv.org/abs/2406.02266v1 )

ライセンス: Link先を確認
Chuankai Xu, Dongming Zhao, Bo Wang, Hanwen Xing, (参考訳) 検索強化言語モデル (RALMs) が普及しているにもかかわらず,これらのモデルと検索機構をシームレスに統合することにより,文書ベースのタスクの性能向上が図られている。 検索後の処理 Retrieval-Augmented Generation (RAG) 手法は成功したが、ほとんどの場合、関連する情報を外部情報と区別する能力は欠如しており、生成した出力の潜在的な不整合と精度の低下を招き、言語モデルの応答の真正性に影響を及ぼす。 これらの制約に対処するため,検索言語モデルにおける検索情報圧縮のための新しい2段階整合学習手法を提案し,性能を向上する。 一貫性学習を取り入れることで、教師モデルの意図した意味表現との一貫性と整合性を維持しつつ、元の検索文書への忠実性を向上する要約を生成する。 提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。 既存のベースラインを上回り、検索強化生成フレームワーク内でのコントラスト学習パラダイムと一貫性学習パラダイムの組み合わせによる相乗効果を示す。

Despite the prevalence of retrieval-augmented language models (RALMs), the seamless integration of these models with retrieval mechanisms to enhance performance in document-based tasks remains challenging. While some post-retrieval processing Retrieval-Augmented Generation (RAG) methods have achieved success, most still lack the ability to distinguish pertinent from extraneous information, leading to potential inconsistencies and reduced precision in the generated output, which subsequently affects the truthfulness of the language model's responses. To address these limitations, this work proposes a novel two-stage consistency learning approach for retrieved information compression in retrieval-augmented language models to enhance performance. By incorporating consistency learning, the aim is to generate summaries that maintain coherence and alignment with the intended semantic representations of a teacher model while improving faithfulness to the original retrieved documents. The proposed method is empirically validated across multiple datasets, demonstrating notable enhancements in precision and efficiency for question-answering tasks. It outperforms existing baselines and showcases the synergistic effects of combining contrastive and consistency learning paradigms within the retrieval-augmented generation framework.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 自動修正機械翻訳のためのヒューマンエラーマーキングを用いた大規模言語モデルの提案

Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation ( http://arxiv.org/abs/2406.02267v1 )

ライセンス: Link先を確認
Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck, (参考訳) 大規模言語モデル (LLMs) は、大量の未ペア言語データに基づいて事前訓練され、一般的なドメインテキストの機械翻訳(MT)の最先端に達したが、後編集(PE)はエラーの修正と専門ドメインの項翻訳品質の向上に依然として必要である。 本稿では,PE(ソースセグメント,機械翻訳,参照翻訳)が生成する翻訳記憶(TM)を,技術的領域における正確かつ一貫した用語翻訳の必要性に対して向上させるパイロットスタディを提案する。 そこで本研究では,人間の翻訳者が第1の翻訳ステップでエラーをマークし,第2のステップでPE-TMから類似したサンプルを抽出し,LSMを誘導する,軽量な2段階シナリオについて検討する。 実験の結果,ヒトの誤りマークによる翻訳の強化により,LLMはマークされた誤りの訂正に焦点を合わせ,自動PE(APE)とMTをゼロから一貫した改善が得られた。

While large language models (LLMs) pre-trained on massive amounts of unpaired language data have reached the state-of-the-art in machine translation (MT) of general domain texts, post-editing (PE) is still required to correct errors and to enhance term translation quality in specialized domains. In this paper we present a pilot study of enhancing translation memories (TM) produced by PE (source segments, machine translations, and reference translations, henceforth called PE-TM) for the needs of correct and consistent term translation in technical domains. We investigate a light-weight two-step scenario where, at inference time, a human translator marks errors in the first translation step, and in a second step a few similar examples are extracted from the PE-TM to prompt an LLM. Our experiment shows that the additional effort of augmenting translations with human error markings guides the LLM to focus on a correction of the marked errors, yielding consistent improvements over automatic PE (APE) and MT from scratch.
翻訳日:2024-06-05 16:32:17 公開日:2024-06-04
# 半教師付きカテゴリー学習におけるプロトタイプのメリットの分析

Analyzing the Benefits of Prototypes for Semi-Supervised Category Learning ( http://arxiv.org/abs/2406.02268v1 )

ライセンス: Link先を確認
Liyi Zhang, Logan Nelson, Thomas L. Griffiths, (参考訳) カテゴリは、最も典型的なメンバーに焦点を当てたプロトタイプから、そのカテゴリの観察されたすべての例を思い出すまで、さまざまなレベルの抽象化で表現できる。 これらの表現は教師あり学習の文脈で研究され、そこでは刺激が既知のカテゴリラベルで提示される。 半教師付き学習では、エージェントはカテゴリーラベルを受け取る前に教師なしの刺激表現を作らなければならない。 我々はこの問題を,変分オートエンコーダと呼ばれるベイズ的教師なし学習モデルを用いて検討し,データ表現に抽象プロトタイプを使用することを奨励する先行モデルを実装するための機械学習の最近の進歩について考察する。 本手法を画像データセットに適用し,プロトタイプの作成が半教師付きカテゴリー学習を改善することを示す。 さらに,モデルの潜伏埋め込みについて検討し,これらのプロトタイプにより,モデルが監督なしにクラスタ化表現を形成でき,下流分類性能の成功に寄与することを示す。

Categories can be represented at different levels of abstraction, from prototypes focused on the most typical members to remembering all observed exemplars of the category. These representations have been explored in the context of supervised learning, where stimuli are presented with known category labels. We examine the benefits of prototype-based representations in a less-studied domain: semi-supervised learning, where agents must form unsupervised representations of stimuli before receiving category labels. We study this problem in a Bayesian unsupervised learning model called a variational auto-encoder, and we draw on recent advances in machine learning to implement a prior that encourages the model to use abstract prototypes to represent data. We apply this approach to image datasets and show that forming prototypes can improve semi-supervised category learning. Additionally, we study the latent embeddings of the models and show that these prototypes allow the models to form clustered representations without supervision, contributing to their success in downstream categorization performance.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# グラフニューラルネットワークは必ずしも過度に動作しない

Graph Neural Networks Do Not Always Oversmooth ( http://arxiv.org/abs/2406.02269v1 )

ライセンス: Link先を確認
Bastian Epping, Alexandre René, Moritz Helias, Michael T. Schaub, (参考訳) グラフニューラルネットワーク(GNN)は、アプリケーションでリレーショナルデータを処理するための強力なツールとして登場した。 しかし、GNNは、すべてのノードの特徴が層上の同じベクトルに指数関数的に収束する性質である過密化の問題に悩まされ、深いGNNの設計を禁止している。 本研究では, グラフ畳み込みネットワーク (GCN) における過剰なスムーシングについて, 無限に多くの隠れた特徴の極限におけるガウス過程 (GP) の等価性を用いて検討する。 従来のディープニューラルネットワーク(DNN)の手法を一般化することにより、GPの観点から、ディープGCNの出力層における特徴の分布を記述することができる。 ネットワークの初期重みが十分に大きな場合、GCNは過度に過度に動き、ノード特徴は大きな深さでも情報的であり続ける。 有限サイズGCNにおけるこの予測の有効性を線形分類器の学習により示す。 さらに、GCN GPの線形化を用いて、DNNからGCNへの情報の伝播深さの概念を一般化する。 この伝播深度は、過スムージングと非過スムージング相の遷移で分岐する。 提案手法の予測を検証し, 有限サイズGCNとの良好な一致を求める。 また,GCNを非正規化相への移行付近で初期化することにより,深層かつ表現力のあるネットワークが得られる。

Graph neural networks (GNNs) have emerged as powerful tools for processing relational data in applications. However, GNNs suffer from the problem of oversmoothing, the property that the features of all nodes exponentially converge to the same vector over layers, prohibiting the design of deep GNNs. In this work we study oversmoothing in graph convolutional networks (GCNs) by using their Gaussian process (GP) equivalence in the limit of infinitely many hidden features. By generalizing methods from conventional deep neural networks (DNNs), we can describe the distribution of features at the output layer of deep GCNs in terms of a GP: as expected, we find that typical parameter choices from the literature lead to oversmoothing. The theory, however, allows us to identify a new, nonoversmoothing phase: if the initial weights of the network have sufficiently large variance, GCNs do not oversmooth, and node features remain informative even at large depth. We demonstrate the validity of this prediction in finite-size GCNs by training a linear classifier on their output. Moreover, using the linearization of the GCN GP, we generalize the concept of propagation depth of information from DNNs to GCNs. This propagation depth diverges at the transition between the oversmoothing and non-oversmoothing phase. We test the predictions of our approach and find good agreement with finite-size GCNs. Initializing GCNs near the transition to the non-oversmoothing phase, we obtain networks which are both deep and expressive.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# Casimir-Polder 相互作用による定常エンタングルメント生成

Steady-State Entanglement Generation via Casimir-Polder Interactions ( http://arxiv.org/abs/2406.02270v1 )

ライセンス: Link先を確認
Mohsen Izadyari, Onur Pusuluk, Kanu Sinha, Özgür E. Müstecaplıoğlu, (参考訳) 本研究では, 表面近傍のCasimir-Polder (CP) 相互作用から生じる2つの原子間の定常な絡み合いの発生について検討した。 原子の初期分離状態から始めて、平面媒質から$\sim25$~nm離れた距離に配置された原子の原子-原子絡み合いのダイナミクスを分析し、媒質の性質と原子双極子の幾何学的構成の影響を調べた。 完全導電および超伝導表面は, ほぼ0.5の最適定常収束値が得られることを示す。 さらに, 生成した絡み合いは金属表面の中間損失とともに減少するが, 表面による絡み合いの発生を補助する金属表面からの最適距離を同定する。 ゆらぎを媒介とする相互作用は、通常ナノスケールにおける量子系のコヒーレンスに有害であると考えられるが、この結果は、そのような相互作用を絡み合い生成に活用するためのメカニズムを実証する。

We investigate the generation of steady-state entanglement between two atoms resulting from the fluctuation-mediated Casimir-Polder (CP) interactions near a surface. Starting with an initially separable state of the atoms, we analyze the atom-atom entanglement dynamics for atoms placed at distances in the range of $\sim25$~nm away from a planar medium, examining the effect of medium properties and geometrical configuration of the atomic dipoles. We show that perfectly conducting and superconducting surfaces yield an optimal steady-state concurrence value of approximately 0.5. Furthermore, although the generated entanglement decreases with medium losses for a metal surface, we identify an optimal distance from the metal surface that assists in the generation of entanglement by the surface. While fluctuation-mediated interactions are typically considered detrimental to the coherence of quantum systems at nanoscales, our results demonstrate a mechanism for leveraging such interactions for entanglement generation.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 非線形最適化手法へのKLに基づく解析フレームワークの適用

A KL-based Analysis Framework with Applications to Non-Descent Optimization Methods ( http://arxiv.org/abs/2406.02273v1 )

ライセンス: Link先を確認
Junwen Qiu, Bohao Ma, Xiao Li, Andre Milzarek, (参考訳) クルディカ・ロジャシエヴィチ特性に基づく非凸シナリオにおける非退化型最適化手法の新しい解析フレームワークを提案する。 我々のフレームワークは、確率的および分散最適化によく使用されるアルゴリズムを含む、幅広い種類のアルゴリズムをカバーできる。 具体的には、十分な降下特性がなく、完全な(決定論的)勾配情報へのアクセスを必要としない一階法の分析を可能にする。 我々は,この枠組みを利用して,緩やかな仮定の下で,分散勾配法とフェデレート平均化の反復収束と対応する速度を初めて確立する。 さらに,新しい解析手法を応用して,従来の先行有界反復仮定を必要とせず,ランダムリシャッフル法と確率勾配降下法の収束性を示す。

We propose a novel analysis framework for non-descent-type optimization methodologies in nonconvex scenarios based on the Kurdyka-Lojasiewicz property. Our framework allows covering a broad class of algorithms, including those commonly employed in stochastic and distributed optimization. Specifically, it enables the analysis of first-order methods that lack a sufficient descent property and do not require access to full (deterministic) gradient information. We leverage this framework to establish, for the first time, iterate convergence and the corresponding rates for the decentralized gradient method and federated averaging under mild assumptions. Furthermore, based on the new analysis techniques, we show the convergence of the random reshuffling and stochastic gradient descent method without necessitating typical a priori bounded iterates assumptions.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 因果革命は科学的プラグマティズムを必要としている

Position: The Causal Revolution Needs Scientific Pragmatism ( http://arxiv.org/abs/2406.02275v1 )

ライセンス: Link先を確認
Joshua Loftus, (参考訳) 因果モデルと手法は大きな可能性を秘めているが、その進歩は停滞している。 因果関係を用いた提案は、対立する2つの世界観の間で圧迫される。 科学的完全主義(Scientific perfectionism) - 「正しい」モデルのみを使用することを主張する - 知識生成アプリケーションにおける因果的手法の採用を遅らせる。 逆方向に進むと、コンピュータ科学の学術分野は、仮定がほとんどあるいはほとんどないアルゴリズムを好んでおり、自動化とスケーラビリティに基づく技術は、しばしば経済やビジネスアプリケーションのために選択される。 これらのシステム中心の帰納的バイアスは、私たちが科学的プラグマティズムと呼ぶ人間中心の哲学に置き換えられるべきである、と我々は主張する。 機械学習コミュニティは、因果革命が繁栄するためのスペースを作るために、適切なバランスを取らなければならない。

Causal models and methods have great promise, but their progress has been stalled. Proposals using causality get squeezed between two opposing worldviews. Scientific perfectionism--an insistence on only using "correct" models--slows the adoption of causal methods in knowledge generating applications. Pushing in the opposite direction, the academic discipline of computer science prefers algorithms with no or few assumptions, and technologies based on automation and scalability are often selected for economic and business applications. We argue that these system-centric inductive biases should be replaced with a human-centric philosophy we refer to as scientific pragmatism. The machine learning community must strike the right balance to make space for the causal revolution to prosper.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 多体量子テレポーテーションにおける環境誘起遷移

Environment-induced Transitions in Many-body Quantum Teleportation ( http://arxiv.org/abs/2406.02277v1 )

ライセンス: Link先を確認
Shuyan Zhou, Pengfei Zhang, Zhenhua Yu, (参考訳) 量子テレポーテーション(quantum teleportation)は、古典世界と量子世界とを決定的に区別する、絡み合いから生じる現象である。 入力情報は最初は分散され、複雑な方法で多体状態に符号化されるが、テレポーテーションプロセスはこの高度に非局所的な情報を受信者の端で再フォーカスすることができる。 この成功は、量子情報処理における多体システムの興味深い能力を示す。 最近の研究は、多体系における一般的な動的過程である情報スクランブルが、多体量子テレポーテーションの有効性の基盤となっていることを示している。 しかし、このプロセスは環境の存在下で、新たな発散遷移を経ることが知られている。 マルチボディシステムの量子情報処理能力にどのような影響を及ぼすかは、さらなる調査が必要である。 本研究では,環境下での多体量子テレポーテーションについて検討する。 我々は、量子状態から古典的状態へのテレポーテーション性能の遷移を暗示する2つの創発的臨界点を予測し、最後に、$\gamma$で定量化されたシステム-環境結合が増加するにつれて、非信号状態へと移行する。 量子状態においては、テレポーテーションは古典的よりも優れ、古典的状態では古典的なチャネルに置き換えられる。 我々の予測は、多体量子テレポーテーションと情報スクランブルの関係を利用した一般的な議論に基づいており、解決可能なブラウン・サハデフ・イ・キタエフモデルによって裏付けられている。

Quantum teleportation is a phenomenon arising from entanglement, decisively distinguishing the classical and quantum worlds. The recent success of many-body quantum teleportation is even more surprising: although input information is initially dispersed and encoded into the many-body state in a complex way, the teleportation process can refocus this highly non-local information at the receiver's end. This success manifests intriguing capability of many-body systems in quantum information processing. Current studies indicate that information scrambling, a generic dynamic process in many-body systems, underlies the effectiveness of many-body quantum teleportation. However, this process is known to undergo a novel scrambling-dissipation transition in the presence of environments. How environments affect the quantum information processing capability of many-body systems calls for further investigation. In this work, we study many-body quantum teleportation in the presence of environments. We predict two emergent critical points that hallmark the transitions of the teleportation performance from the quantum regime to the classical regime, and finally to the no-signal regime as the system-environment coupling, quantified by $\gamma$, increases. In the quantum regime, teleportation can outperform its classical counterparts, while in the classical regime, it can be replaced by a classical channel. Our prediction is based on a generic argument harnessing the relationship between many-body quantum teleportation and information scrambling, corroborated by solvable Brownian Sachdev-Ye-Kitaev models.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# メタ強化学習におけるテスト時間レグレスト最小化

Test-Time Regret Minimization in Meta Reinforcement Learning ( http://arxiv.org/abs/2406.02282v1 )

ライセンス: Link先を確認
Mirco Mutti, Aviv Tamar, (参考訳) メタ強化学習は、エージェントが自発的に訓練できる一連のタスクに分布を設定し、任意のテストタスクに対して最適なポリシーを効率的に学習するよう求められます。 本稿では,マルコフ決定過程を通じてモデル化されたタスクの有限集合を様々なダイナミクスで考察する。 我々は、タスクセットが完全に回復した長いトレーニングフェーズに耐えたと仮定し、未知のテストタスクにおける最適なポリシーに対する後悔の最小化に焦点をあてる。 他に対してタスクを露呈する状態-作用対の存在を示す分離条件の下で、Chen et al (2022) は、$O(M^2 \log(H))$ regret を達成でき、ここで、$M, H$ は、セットおよびテストエピソードにおけるタスクの数である。 最初のコントリビューションにおいて、後者の速度は分離条件下でのテスト時間最小化のための新しい低限界を開発することでほぼ最適であることが示され、M$での線形依存は避けられないことを示す。 そして、分離を超えたより強く合理的な仮定の族を示し、それは強い識別可能性と呼ばれ、アルゴリズムが高速な速度で$\log (H)$を達成し、同時に$M$のサブ線形依存を可能にする。 本稿は,テストタイムの後悔の最小化の統計的障壁と,いつより速い速度で達成できるかを,新たな知見を提供する。

Meta reinforcement learning sets a distribution over a set of tasks on which the agent can train at will, then is asked to learn an optimal policy for any test task efficiently. In this paper, we consider a finite set of tasks modeled through Markov decision processes with various dynamics. We assume to have endured a long training phase, from which the set of tasks is perfectly recovered, and we focus on regret minimization against the optimal policy in the unknown test task. Under a separation condition that states the existence of a state-action pair revealing a task against another, Chen et al. (2022) show that $O(M^2 \log(H))$ regret can be achieved, where $M, H$ are the number of tasks in the set and test episodes, respectively. In our first contribution, we demonstrate that the latter rate is nearly optimal by developing a novel lower bound for test-time regret minimization under separation, showing that a linear dependence with $M$ is unavoidable. Then, we present a family of stronger yet reasonable assumptions beyond separation, which we call strong identifiability, enabling algorithms achieving fast rates $\log (H)$ and sublinear dependence with $M$ simultaneously. Our paper provides a new understanding of the statistical barriers of test-time regret minimization and when fast rates can be achieved.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 大規模ASRモデルの活用による自己教師付き学習による話者検証の性能向上に向けて

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models ( http://arxiv.org/abs/2406.02285v1 )

ライセンス: Link先を確認
Victor Miara, Theo Lepage, Reda Dehak, (参考訳) 近年の自己監視学習(SSL)の進歩は話者検証(SV)において有望な結果を示している。 しかし、教師付きシステムによるパフォーマンスギャップを狭めることは、現在も進行中の課題である。 いくつかの研究は、大規模ASRモデルからの音声表現が貴重な話者情報を含んでいることを観察している。 この研究は、エンドツーエンドアプローチでSSLのコントラスト目的を使用して、SV用にこれらのモデルを微調整する際の制限について検討する。 そこで我々は,擬似ラベルを用いた教師付き損失で事前学習したWavLMを微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。 初期擬似ラベルはSSL DINOベースのモデルから派生し、モデルの埋め込みをクラスタリングすることで反復的に洗練される。 提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立した。 このパフォーマンスは、0.94%のEERの教師付きベースラインに近いので、このコントリビューションは、SSLによるSVの教師付きパフォーマンスへのステップになります。

Recent advancements in Self-Supervised Learning (SSL) have shown promising results in Speaker Verification (SV). However, narrowing the performance gap with supervised systems remains an ongoing challenge. Several studies have observed that speech representations from large-scale ASR models contain valuable speaker information. This work explores the limitations of fine-tuning these models for SV using an SSL contrastive objective in an end-to-end approach. Then, we propose a framework to learn speaker representations in an SSL context by fine-tuning a pre-trained WavLM with a supervised loss using pseudo-labels. Initial pseudo-labels are derived from an SSL DINO-based model and are iteratively refined by clustering the model embeddings. Our method achieves 0.99% EER on VoxCeleb1-O, establishing the new state-of-the-art on self-supervised SV. As this performance is close to our supervised baseline of 0.94% EER, this contribution is a step towards supervised performance on SV with SSL.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# いかに純粋な状態操作が可能であるか?

How pure can we go with adiabatic state manipulation? ( http://arxiv.org/abs/2406.02286v1 )

ライセンス: Link先を確認
Raul A. Santos, Alex Kamenev, Yuval Gefen, (参考訳) デコヒーレンス自由部分空間 (decoherence free subspaces, a.a. dark space (DSs)) を持つ散逸系は、量子情報を保護するために用いられる。 同時に、DS以外のコヒーレントな情報劣化を引き起こすことが期待されている。 量子情報プラットフォームをサポートするために使用されるDSは、コヒーレントシステムの断熱的な制御に似た方法で、断熱的に修正することができる。 ここでは、スペクトルギャップが$\gamma$の純粋散逸系の遅い進化を、周期が$T$の巡回的プロトコルの下で、強い対称性によって特徴づけられる。 状態の進化に対する非断熱的補正はデコヒーレンス(英語版)を引き起こす: 瞬時DS内の進化は、ある周期にわたって純度が1/\gamma T$で減少する時間局所的な実効的リウビリアン作用素によって記述される。 後者の閉形式は 1/(\gamma T)^2$ である。 本稿では,量子情報処理における速度制限について検討する。

Dissipative systems with decoherence free subspaces, a.k.a. dark spaces (DSs), can be used to protect quantum information. At the same time, dissipation is expected to give rise to coherent information degradation outside the DS. Employed to support quantum information platforms, DSs can be adiabatically modified in a way that resembles adiabatic control of coherent systems. Here we study the slow evolution of a purely dissipative system with a spectral gap $\gamma$, characterized by a strong symmetry, under a cyclic protocol with period $T$. Non-adiabatic corrections to the state evolution give rise to decoherence: the evolution within the instantaneous DS is described by a time-local effective Liouvillian operator that leads to purity degradation over a period, of order $1/\gamma T$. We obtain a closed form of the latter to order $1/(\gamma T)^2$. Our analysis underlines speed limitations in quantum information processing in the absence of corrective measures.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 映像のデミネート・リアリティ・インペインティングのためのProPainterの最適化

Optimised ProPainter for Video Diminished Reality Inpainting ( http://arxiv.org/abs/2406.02287v1 )

ライセンス: Link先を確認
Pengze Li, Lihao Liu, Carola-Bibiane Schönlieb, Angelica I Aviles-Rivero, (参考訳) 本稿では,DREAMING Challenge - Diminished Reality for Emerging Applications in Medicine through Inpaintingの一環として,ProPainter法から最適化した高精細ビデオ塗装技術を導入する。 我々の拡張アルゴリズムでは、最適化されたパラメータと前処理を特徴とするゼロショットProPainterを用いて、トレーニング処理を必要とせずに、手術用ビデオシーケンスを塗布する複雑なタスクを緊急に管理する。 閉鎖領域の時間的一貫性と詳細に富んだ再構築を図り、手術現場のより明確な視認を促進することを目的としている。 本手法の有効性は包括的指標を用いて評価し,医学的目的に減退した現実の応用において重要な進歩と位置づけた。

In this paper, part of the DREAMING Challenge - Diminished Reality for Emerging Applications in Medicine through Inpainting, we introduce a refined video inpainting technique optimised from the ProPainter method to meet the specialised demands of medical imaging, specifically in the context of oral and maxillofacial surgery. Our enhanced algorithm employs the zero-shot ProPainter, featuring optimized parameters and pre-processing, to adeptly manage the complex task of inpainting surgical video sequences, without requiring any training process. It aims to produce temporally coherent and detail-rich reconstructions of occluded regions, facilitating clearer views of operative fields. The efficacy of our approach is evaluated using comprehensive metrics, positioning it as a significant advancement in the application of diminished reality for medical purposes.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 微調整型大言語モデルの最適化に関する研究

A Study of Optimizations for Fine-tuning Large Language Models ( http://arxiv.org/abs/2406.02290v1 )

ライセンス: Link先を確認
Arjun Singh, Nikhil Pandey, Anup Shirgaonkar, Pavan Manoj, Vijay Aski, (参考訳) 微調整された大きな言語モデルは、特定のアプリケーションに適応しようとするユーザの間では一般的な選択である。 しかし、これらのモデルの微調整は、ユーザがリソース予算、ランタイム、モデルサイズ、コンテキストの長さなど、いくつかの要因を調べる必要があるため、必要なタスクである。 特定の課題は、微調整がメモリ集約であり、処理可能なハードウェアメモリとトレーニングデータのコンテキスト長に制約を課すことである。 本研究では,様々な微調整シナリオにおける様々な微調整最適化について,詳細な研究を行った。 特に、グラディエントチェックポイント、低ランク適応、DeepSpeedのZeRO冗長性最適化、Flashアテンションを評価します。 メモリとランタイムに焦点をあてて、微調整フェーズにおけるGPUメモリ使用率と実行ランタイムに対する最適化の組み合わせの影響について検討する。 さまざまなモデルサイズでメモリとランタイムのバランスをとるために、デフォルトの最適化を最良にすることを推奨します。 我々は、数十億から数百億のパラメータを持つ非常に大きなモデルを微調整し、微調整中に大きなコンテキスト長を可能にする効果的な戦略を共有している。 さらに,GPUリソース制限下での微調整に適した最適化混合を提案する。

Fine-tuning large language models is a popular choice among users trying to adapt them for specific applications. However, fine-tuning these models is a demanding task because the user has to examine several factors, such as resource budget, runtime, model size and context length among others. A specific challenge is that fine-tuning is memory intensive, imposing constraints on the required hardware memory and context length of training data that can be handled. In this work, we share a detailed study on a variety of fine-tuning optimizations across different fine-tuning scenarios. In particular, we assess Gradient Checkpointing, Low Rank Adaptation, DeepSpeed's ZeRO Redundancy Optimizer and Flash Attention. With a focus on memory and runtime, we examine the impact of different optimization combinations on GPU memory usage and execution runtime during fine-tuning phase. We provide recommendation on best default optimization for balancing memory and runtime across diverse model sizes. We share effective strategies for fine-tuning very large models with tens or hundreds of billions of parameters and enabling large context lengths during fine-tuning. Furthermore, we propose the appropriate optimization mixtures for fine-tuning under GPU resource limitations.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 損失集約に対する公理的アプローチと適応集約アルゴリズム

An Axiomatic Approach to Loss Aggregation and an Adapted Aggregating Algorithm ( http://arxiv.org/abs/2406.02292v1 )

ライセンス: Link先を確認
Armando J. Cabrera Pacheco, Rabanus Derr, Robert C. Williamson, (参考訳) 監視された学習は、予想されるリスク最小化フレームワークを超えています。 これらの発展の中心は、学習者が引き起こした損失に対するより一般的な集約関数の導入である。 本稿では,専門家の助言のもと,オンライン学習に目を向ける。 容易に正当化された仮定により、妥当な損失集計関数の集合を準和として特徴づける。 この知見に基づき、より一般的なアグリゲーション関数に合わせたアグリゲートアルゴリズムの変種を提案する。 この変種は、ベイズの更新の回復や準サム後悔の時間非依存境界など、AAの優れた理論的性質の多くを継承している。 最後に、一般化された集約は、学習者の損失に対する態度を表すと論じる。

Supervised learning has gone beyond the expected risk minimization framework. Central to most of these developments is the introduction of more general aggregation functions for losses incurred by the learner. In this paper, we turn towards online learning under expert advice. Via easily justified assumptions we characterize a set of reasonable loss aggregation functions as quasi-sums. Based upon this insight, we suggest a variant of the Aggregating Algorithm tailored to these more general aggregation functions. This variant inherits most of the nice theoretical properties of the AA, such as recovery of Bayes' updating and a time-independent bound on quasi-sum regret. Finally, we argue that generalized aggregations express the attitude of the learner towards losses.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# 新しいアークタンピンボール損失を用いたXGBoostを用いた複合量子回帰

Composite Quantile Regression With XGBoost Using the Novel Arctan Pinball Loss ( http://arxiv.org/abs/2406.02293v1 )

ライセンス: Link先を確認
Laurens Sluijterman, Frank Kreuwel, Eric Cator, Tom Heskes, (参考訳) 本稿では,XGBoostを用いた複合量子レグレッションについて検討する。 XGBoostは、その柔軟性、効率、欠落したデータを扱う能力で有名な、非常に人気のあるモデルである。 この最適化は損失関数の2階近似を用いており、損失関数をゼロあるいは消滅する2階微分で用いることを複雑にしている。 量子回帰(quantile regression) - 点推定だけでは不十分な条件付き量子化を求める一般的なアプローチで、残念ながらそのような損失関数であるピンボール損失を使用する。 既存の回避策は典型的には非効率であり、深刻な量的交差をもたらす。 本稿では、XGBoostのニーズに合わせて、ピンボール損失、アークタンピンボール損失のスムーズな近似について述べる。 特に、他の滑らかな近似とは対照的に、アークタンのピンボール損失は比較的大きな第2微分を持ち、第2次近似ではより適している。 この損失関数を用いることで、複数の量子の同時予測が可能となり、より効率的になり、はるかに少ない量子交差が得られる。

This paper explores the use of XGBoost for composite quantile regression. XGBoost is a highly popular model renowned for its flexibility, efficiency, and capability to deal with missing data. The optimization uses a second order approximation of the loss function, complicating the use of loss functions with a zero or vanishing second derivative. Quantile regression -- a popular approach to obtain conditional quantiles when point estimates alone are insufficient -- unfortunately uses such a loss function, the pinball loss. Existing workarounds are typically inefficient and can result in severe quantile crossings. In this paper, we present a smooth approximation of the pinball loss, the arctan pinball loss, that is tailored to the needs of XGBoost. Specifically, contrary to other smooth approximations, the arctan pinball loss has a relatively large second derivative, which makes it more suitable to use in the second order approximation. Using this loss function enables the simultaneous prediction of multiple quantiles, which is more efficient and results in far fewer quantile crossings.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# より小さなバッチと大きなゲイン : 強化学習に基づく実世界の生産計画におけるバッチサイズの影響について

Smaller Batches, Bigger Gains? Investigating the Impact of Batch Sizes on Reinforcement Learning Based Real-World Production Scheduling ( http://arxiv.org/abs/2406.02294v1 )

ライセンス: Link先を確認
Arthur Müller, Felix Grumbach, Matthia Sabatelli, (参考訳) 生産スケジュールは製造において必須の課題であり、強化学習(RL)が鍵となるソリューションである。 前回の研究では、RLを使用して、中央バッファでリンクされた2つのステージを持つ実世界の生産ラインに対して、拡張置換フローショップスケジューリング問題(PFSSP)を解決した。 RLエージェントは、セットアップの労力とアイドル時間を最小化するために、等サイズの製品バッチをシーケンスするように訓練された。 しかし、これらの製品バッチのサイズの変化による大きな影響は、まだ調査されていない。 本研究では, 各種バッチサイズの影響について検討し, 溶液の品質とRLエージェントのトレーニング力学について検討した。 その結果,バッチサイズに対する合理的な境界を定量的に特定できることが示唆された。 これらの境界は、より小さなバッチサイズに関連するサンプルの複雑さの増加と、より大きなバッチサイズを扱う際のエージェントの柔軟性の低下によって決定される。 これにより、適切なバッチサイズの選択に関する情報的な決定を行うことができる。 さらに,2つの新しいカリキュラム学習手法を導入,検討し,小規模なバッチサイズでの学習を可能にする。 この研究の成果は、同等のスケジューリング問題を持ついくつかの工業用ユースケースに応用できる可能性をもたらす。

Production scheduling is an essential task in manufacturing, with Reinforcement Learning (RL) emerging as a key solution. In a previous work, RL was utilized to solve an extended permutation flow shop scheduling problem (PFSSP) for a real-world production line with two stages, linked by a central buffer. The RL agent was trained to sequence equallysized product batches to minimize setup efforts and idle times. However, the substantial impact caused by varying the size of these product batches has not yet been explored. In this follow-up study, we investigate the effects of varying batch sizes, exploring both the quality of solutions and the training dynamics of the RL agent. The results demonstrate that it is possible to methodically identify reasonable boundaries for the batch size. These boundaries are determined on one side by the increasing sample complexity associated with smaller batch sizes, and on the other side by the decreasing flexibility of the agent when dealing with larger batch sizes. This provides the practitioner the ability to make an informed decision regarding the selection of an appropriate batch size. Moreover, we introduce and investigate two new curriculum learning strategies to enable the training with small batch sizes. The findings of this work offer the potential for application in several industrial use cases with comparable scheduling problems.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# POMDPにおける状態エントロピーの最大化

How to Explore with Belief: State Entropy Maximization in POMDPs ( http://arxiv.org/abs/2406.02295v1 )

ライセンス: Link先を確認
Riccardo Zamboni, Duilio Cirino, Marcello Restelli, Mirco Mutti, (参考訳) 近年の強化学習における*状態エントロピー最大化*は、国家訪問に対する高いエントロピーを誘導する政策を学ぶことを目的としている(Hazan et al , 2019)。 通常は系の状態の完全な可観測性を仮定し、観測のエントロピーを最大化する。 実際にエージェントは、近接センサーやカメラを通して物理的空間の状態を知覚するロボットなど、*partial*の観察しか得られない。 観測上のエントロピーとシステムの真の状態との間の大きなミスマッチは、これらの設定で起こりうる。 本稿では,*true状態に対するエントロピー最大化の問題に,部分的な観測を条件とした決定ポリシー*で対処する。 後者は POMDP の一般化であり、一般には難解である。 そこで我々は,*belief*状態上で定義された目的の1次緩和に対処し,近似ギャップ,最適化ランドスケープ,*hallucination*問題などの形式的特徴を与える,メモリと計算効率の良い*ポリティクス*法を開発した。 本稿では,アプリケーションの課題を満たすより現実的な領域に,状態エントロピーの最大化を一般化することを目的とする。

Recent works have studied *state entropy maximization* in reinforcement learning, in which the agent's objective is to learn a policy inducing high entropy over states visitation (Hazan et al., 2019). They typically assume full observability of the state of the system, so that the entropy of the observations is maximized. In practice, the agent may only get *partial* observations, e.g., a robot perceiving the state of a physical space through proximity sensors and cameras. A significant mismatch between the entropy over observations and true states of the system can arise in those settings. In this paper, we address the problem of entropy maximization over the *true states* with a decision policy conditioned on partial observations *only*. The latter is a generalization of POMDPs, which is intractable in general. We develop a memory and computationally efficient *policy gradient* method to address a first-order relaxation of the objective defined on *belief* states, providing various formal characterizations of approximation gaps, the optimization landscape, and the *hallucination* problem. This paper aims to generalize state entropy maximization to more realistic domains that meet the challenges of applications.
翻訳日:2024-06-05 16:20:58 公開日:2024-06-04
# リーマン多様体上の学習確率自由確率最適化

Learning-Rate-Free Stochastic Optimization over Riemannian Manifolds ( http://arxiv.org/abs/2406.02296v1 )

ライセンス: Link先を確認
Daniel Dodd, Louis Sharrock, Christopher Nemeth, (参考訳) 近年、リーマン多様体上の勾配に基づく最適化への関心が高まっている。 しかし、重要な課題はハイパーパラメータ、特に学習率への依存にある。 本研究では,リーマン多様体上の確率的最適化のための革新的な学習速度自由アルゴリズムを導入し,手動チューニングの必要性を排除し,より堅牢でユーザフレンドリなアプローチを提供する。 我々は、決定論的設定において最もよく知られた最適調整率と比較して、対数的要因まで最適である高い確率収束を保証する。 提案手法は数値実験によって検証され,学習速度依存アルゴリズムに対する競合性能が実証された。

In recent years, interest in gradient-based optimization over Riemannian manifolds has surged. However, a significant challenge lies in the reliance on hyperparameters, especially the learning rate, which requires meticulous tuning by practitioners to ensure convergence at a suitable rate. In this work, we introduce innovative learning-rate-free algorithms for stochastic optimization over Riemannian manifolds, eliminating the need for hand-tuning and providing a more robust and user-friendly approach. We establish high probability convergence guarantees that are optimal, up to logarithmic factors, compared to the best-known optimally tuned rate in the deterministic setting. Our approach is validated through numerical experiments, demonstrating competitive performance against learning-rate-dependent algorithms.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 境界積分方程式に基づく演算子学習法による異なる領域における部分微分方程式の解法

Solving Partial Differential Equations in Different Domains by Operator Learning method Based on Boundary Integral Equations ( http://arxiv.org/abs/2406.02298v1 )

ライセンス: Link先を確認
Bin Meng, Yutong Lu, Ying Jiang, (参考訳) 本稿では、任意の領域における偏微分方程式(PDE)の解を、再学習を必要とせずに導出できる演算子学習モデルについて検討する。 境界積分方程式(BIE)に根ざした2つの革新的なモデルとして,境界積分型深部演算ネットワーク(BI-DeepONet)と境界積分型三角度深部演算ニューラルネットワーク(BI-TDONet)を導入する。 一度完全にトレーニングされると、これらのBIEベースのモデルは、追加のトレーニングを必要とせずに、任意のドメインにおけるPDEのソリューションを積極的に予測する。 BI-TDONetは、有界線型作用素の特異値分解(SVD)を用いることで、モジュール間の入力関数の効率的な分散を可能にすることで、その性能を著しく向上させる。 さらに、発振特性とインパルス信号特性を効果的に捉えない関数サンプリング値の問題に対処するため、BI-TDONetの入力と出力の両方に三角係数を用いる。 我々の数値実験は、この理論フレームワークの有効性を強く支持し、確認する。

This article explores operator learning models that can deduce solutions to partial differential equations (PDEs) on arbitrary domains without requiring retraining. We introduce two innovative models rooted in boundary integral equations (BIEs): the Boundary Integral Type Deep Operator Network (BI-DeepONet) and the Boundary Integral Trigonometric Deep Operator Neural Network (BI-TDONet), which are crafted to address PDEs across diverse domains. Once fully trained, these BIE-based models adeptly predict the solutions of PDEs in any domain without the need for additional training. BI-TDONet notably enhances its performance by employing the singular value decomposition (SVD) of bounded linear operators, allowing for the efficient distribution of input functions across its modules. Furthermore, to tackle the issue of function sampling values that do not effectively capture oscillatory and impulse signal characteristics, trigonometric coefficients are utilized as both inputs and outputs in BI-TDONet. Our numerical experiments robustly support and confirm the efficacy of this theoretical framework.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 点雲上のノードレベルトポロジカル表現学習

Node-Level Topological Representation Learning on Point Clouds ( http://arxiv.org/abs/2406.02300v1 )

ライセンス: Link先を確認
Vincent P. Grande, Michael T. Schaub, (参考訳) トポロジカルデータ解析(TDA)により、データセットや点雲のグローバルな形状に関する強力なトポロジカル・高次情報を抽出することができる。 Persistent Homology や Euler Transform のようなツールは、点雲のグローバルな構造について単一の複雑な記述を与える。 しかし、分類のような一般的な機械学習アプリケーションは、ポイントレベルの情報と機能を必要とする。 本稿では,このギャップを埋め,代数的トポロジと微分幾何学から概念の離散的変分を用いて,複素点雲からノードレベルのトポロジ的特徴を抽出する手法を提案する。 本研究では,これらのトポロジ的特徴(TOPF)が合成データと実世界のデータの両方に与える影響を検証するとともに,雑音下でのロバスト性について検討する。

Topological Data Analysis (TDA) allows us to extract powerful topological and higher-order information on the global shape of a data set or point cloud. Tools like Persistent Homology or the Euler Transform give a single complex description of the global structure of the point cloud. However, common machine learning applications like classification require point-level information and features to be available. In this paper, we bridge this gap and propose a novel method to extract node-level topological features from complex point clouds using discrete variants of concepts from algebraic topology and differential geometry. We verify the effectiveness of these topological point features (TOPF) on both synthetic and real-world data and study their robustness under noise.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# mCoT: 言語モデルにおける推論一貫性のための多言語インストラクションチューニング

mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models ( http://arxiv.org/abs/2406.02301v1 )

ライセンス: Link先を確認
Huiyuan Lai, Malvina Nissim, (参考訳) 大規模言語モデル (LLM) とChain-of-Thought (CoT) は、近年、様々な下流タスクを改善するために推論を誘発する強力な手法として出現している。 ほとんどの研究は英語に重点を置いており、多言語的な文脈での探索はほとんどないが、この推論能力が異なる言語でどの程度信頼性が高いかという問題は、まだ未解決である。 そこで我々は,複数の言語にまたがる多言語推論の整合性について,オープンソースのLLMを用いて検討した。 まず,11の多言語を対象とする大規模多言語数学推論データセットmCoT-MATHをコンパイルする。 次に,言語間の推論能力を向上し,モデル一貫性を向上させるために,多言語CoT命令チューニングを導入する。 既存のLLMは、私たちが考慮している言語、特にリソースが少ない言語ではパフォーマンスがかなり低いが、我々の7BパラメータモデルmCoTは、言語間で印象的な一貫性を実現し、非常に大きなサイズであっても、クローズドおよびオープンソースモデルよりも優れた、あるいは同等のパフォーマンスを実現している。

Large language models (LLMs) with Chain-of-thought (CoT) have recently emerged as a powerful technique for eliciting reasoning to improve various downstream tasks. As most research mainly focuses on English, with few explorations in a multilingual context, the question of how reliable this reasoning capability is in different languages is still open. To address it directly, we study multilingual reasoning consistency across multiple languages, using popular open-source LLMs. First, we compile the first large-scale multilingual math reasoning dataset, mCoT-MATH, covering eleven diverse languages. Then, we introduce multilingual CoT instruction tuning to boost reasoning capability across languages, thereby improving model consistency. While existing LLMs show substantial variation across the languages we consider, and especially low performance for lesser resourced languages, our 7B parameter model mCoT achieves impressive consistency across languages, and superior or comparable performance to close- and open-source models even of much larger sizes.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 二重サンプリング)ランダム化平滑化に及ぼす指数ガウス分布の影響

Effects of Exponential Gaussian Distribution on (Double Sampling) Randomized Smoothing ( http://arxiv.org/abs/2406.02309v1 )

ライセンス: Link先を確認
Youwei Shu, Xi Xiao, Derui Wang, Yuxin Cao, Siji Chen, Jason Xue, Linyi Li, Bo Li, (参考訳) ランダム化平滑化(Randomized Smoothing, RRS)は、現在、敵に対する堅牢性証明を提供するスケーラブルな認証防御手法である。 対価$$\ell_p$に対する防衛手段を提供することで大きな進歩を遂げているが、スムーズな分布とロバスト性証明との相互作用はいまだにあいまいである。 本研究では,指数標準ガウス分布 (Exponential Standard Gaussian, ESG) と指数一般ガウス分布 (Exponential General Gaussian, EGG) の2種類の分布がランダム化平滑化および二重サンプリングランダム化平滑化 (DSRS) に与える影響を包括的に研究する。 ESGの認定半径は、次元が$d$増加するにつれてRSの原式に収束する。 さらに、EGGは、$\Omega(\sqrt{d})$ lower bounds of $\ell_2$ certified radius を提供することで、DSRSよりも厳密な定数因子を提供できることを証明し、したがって、RSの次元性の呪いに対処する。 実世界のデータセットに関する我々の実験は、ESG分布の理論解析を裏付け、RSとDSRSの双方に対して、異なる指数$\eta$でほぼ同じ証明を提供する。 また、EGG

Randomized Smoothing (RS) is currently a scalable certified defense method providing robustness certification against adversarial examples. Although significant progress has been achieved in providing defenses against $\ell_p$ adversaries, the interaction between the smoothing distribution and the robustness certification still remains vague. In this work, we comprehensively study the effect of two families of distributions, named Exponential Standard Gaussian (ESG) and Exponential General Gaussian (EGG) distributions, on Randomized Smoothing and Double Sampling Randomized Smoothing (DSRS). We derive an analytic formula for ESG's certified radius, which converges to the origin formula of RS as the dimension $d$ increases. Additionally, we prove that EGG can provide tighter constant factors than DSRS in providing $\Omega(\sqrt{d})$ lower bounds of $\ell_2$ certified radius, and thus further addresses the curse of dimensionality in RS. Our experiments on real-world datasets confirm our theoretical analysis of the ESG distributions, that they provide almost the same certification under different exponents $\eta$ for both RS and DSRS. In addition, EGG
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 連続処理効果推定のための変分オートエンコーダによる不整合表現

Disentangled Representation via Variational AutoEncoder for Continuous Treatment Effect Estimation ( http://arxiv.org/abs/2406.02310v1 )

ライセンス: Link先を確認
Ruijing Cui, Jianbin Sun, Bingyu He, Kewei Yang, Bingfeng Ge, (参考訳) 継続的治療効果の推定は、医療や軍事など、様々な意思決定や評価領域において重要な実践的重要性を持っている。 しかし、全ての共変量を共起変数として扱うことにより、全ての表現のバランスを保ちながら、線量-応答曲線を推定する現在の方法である。 様々なアプローチは、治療効果推定のための異なる要因に共変するが、それらは二項処理設定に限られる。 さらに、観測データは、人間には知覚できない非因果的なノイズ情報で汚染されることが多い。 そこで本稿では,変分オートエンコーダ (DRVAE) による新しいドセ応答曲線推定器を提案する。 本モデルは,共役変数を楽器的要因,共役要因,調整要因,外的ノイズ要因に分解することを目的としており,非共役要因のバランスをとることで,連続処理条件下での処理効果の予測を容易にする。 合成および半合成データセットの広範な結果は、我々のモデルが現在の最先端手法よりも優れていることを示している。

Continuous treatment effect estimation holds significant practical importance across various decision-making and assessment domains, such as healthcare and the military. However, current methods for estimating dose-response curves hinge on balancing the entire representation by treating all covariates as confounding variables. Although various approaches disentangle covariates into different factors for treatment effect estimation, they are confined to binary treatment settings. Moreover, observational data are often tainted with non-causal noise information that is imperceptible to the human. Hence, in this paper, we propose a novel Dose-Response curve estimator via Variational AutoEncoder (DRVAE) disentangled covariates representation. Our model is dedicated to disentangling covariates into instrumental factors, confounding factors, adjustment factors, and external noise factors, thereby facilitating the estimation of treatment effects under continuous treatment settings by balancing the disentangled confounding factors. Extensive results on synthetic and semi-synthetic datasets demonstrate that our model outperforms the current state-of-the-art methods.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# ニューラル熱力学統合:エネルギーベース拡散モデルからの自由エネルギー

Neural Thermodynamic Integration: Free Energies from Energy-based Diffusion Models ( http://arxiv.org/abs/2406.02313v1 )

ライセンス: Link先を確認
Bálint Máté, François Fleuret, Tristan Bereau, (参考訳) 熱力学積分(TI)は、補間コンフォメーションアンサンブルを補間することで、自由エネルギー差を推定するための厳密な方法を提供する。 しかし、TI計算は計算コストが高く、多くの中間アンサンブルを十分なコンフォメーション空間オーバーラップでサンプリングする必要があるため、通常は少数の自由度を結合することに制限される。 本研究では、トレーニング可能なニューラルネットワークで表されるアルケミカル経路に沿ってTIを実行することを提案する。 臨界的に、相互作用系と非相互作用系の間の時間依存ハミルトン補間をパラメトリズし、デノナイジング拡散目標を用いて勾配を最適化する。 すべての中間アンサンブルをサンプリングするエネルギーベース拡散モデルの能力により、単一の参照計算からTIを実行することができる。 我々はこの手法をレナード・ジョーンズ流体に適用し、過剰な化学ポテンシャルの正確な計算を報告し、Neural TIが数百自由度を一度に結合できることを実証した。

Thermodynamic integration (TI) offers a rigorous method for estimating free-energy differences by integrating over a sequence of interpolating conformational ensembles. However, TI calculations are computationally expensive and typically limited to coupling a small number of degrees of freedom due to the need to sample numerous intermediate ensembles with sufficient conformational-space overlap. In this work, we propose to perform TI along an alchemical pathway represented by a trainable neural network, which we term Neural TI. Critically, we parametrize a time-dependent Hamiltonian interpolating between the interacting and non-interacting systems, and optimize its gradient using a denoising-diffusion objective. The ability of the resulting energy-based diffusion model to sample all intermediate ensembles, allows us to perform TI from a single reference calculation. We apply our method to Lennard-Jones fluids, where we report accurate calculations of the excess chemical potential, demonstrating that Neural TI is capable of coupling hundreds of degrees of freedom at once.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 言語モデルを用いた音楽生成における独立促進的損失

An Independence-promoting Loss for Music Generation with Language Models ( http://arxiv.org/abs/2406.02315v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Simon Rouard, Jade Copet, Yossi Adi, Alexandre Déffosez, (参考訳) 言語モデリングを用いた音楽生成スキームは音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。 マルチステージ量子化器はしばしばこれらのトークンを生成するために使用されるため、トークン予測に使用される復号戦略は、複数のコードブックを考慮に入れなければならない。 共同分布をモデル化するには、自動回帰ステップの回数が高価に増加し、符号ブックが相互に独立でない限り、限界値の積が不正確なモデルになる。 本研究では,音楽生成のための言語モデルにおいて,自動エンコーダをトークン化するための独立性向上の損失を導入する。 提案した損失は、再現可能なカーネルヒルベルト空間に適用された最大平均誤差原理に基づく相互情報のプロキシである。 我々の基準は実装と訓練が簡単であり、他のマルチストリームコーデックにも一般化可能である。 自動符号化において,コードブック間の統計的依存を低減できることを示す。 これにより、限界分布の積をモデル化しながら、共同分布モデルよりもはるかに高速な音声を生成する際に、生成された音楽品質が向上する。

Music generation schemes using language modeling rely on a vocabulary of audio tokens, generally provided as codes in a discrete latent space learnt by an auto-encoder. Multi-stage quantizers are often employed to produce these tokens, therefore the decoding strategy used for token prediction must be adapted to account for multiple codebooks: either it should model the joint distribution over all codebooks, or fit the product of the codebook marginal distributions. Modelling the joint distribution requires a costly increase in the number of auto-regressive steps, while fitting the product of the marginals yields an inexact model unless the codebooks are mutually independent. In this work, we introduce an independence-promoting loss to regularize the auto-encoder used as the tokenizer in language models for music generation. The proposed loss is a proxy for mutual information based on the maximum mean discrepancy principle, applied in reproducible kernel Hilbert spaces. Our criterion is simple to implement and train, and it is generalizable to other multi-stream codecs. We show that it reduces the statistical dependence between codebooks during auto-encoding. This leads to an increase in the generated music quality when modelling the product of the marginal distributions, while generating audio much faster than the joint distribution model.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# Setchainを使用した高速でセキュアな分散最適化ロールアップ

Fast and Secure Decentralized Optimistic Rollups Using Setchain ( http://arxiv.org/abs/2406.02316v1 )

ライセンス: Link先を確認
Margarita Capretto, Martín Ceresa, Antonio Fernández Anta, Pedro Moreno-Sánchez, César Sánchez, (参考訳) 現代のブロックチェーンは、コンセンサスプロトコルの固有のスループット制限のため、スケーラビリティ上の課題に直面している。 レイヤ2の楽観的なロールアップ(L2)は、スマートコントラクト開発とユーザインタラクションの面で同じインターフェースを提供する、より高速な代替手段です。 最適化ロールアップは、ほとんどの計算処理をオフチェーンで実行し、基盤となるブロックチェーン(L1)を軽量に使用して、正しい振る舞いを保証し、ブロックチェーンソリューションに安価なブロックチェーンを実装する。 楽観的なロールアップでは、シーケンサがL2トランザクションのオフチェーンバッチを計算し、L1ブロックチェーンにバッチ(圧縮またはハッシュ)をコミットする。 ハッシュを使用するには、ハッシュを対応するバッチに変換するデータサービスが必要である。 現在のL2実装は、中央集権的なシーケンサ(中央集権)とオプションのデータ可用性委員会(DAC)で構成されている。 本稿では,集合の分散化ビザンチン耐性実装であるSetchainに基づく分散化L2楽観的なロールアップを提案する。 主なコントリビューションは、配列子をシーケンサとDACを組み合わせた形式的な定義とする、完全に分散化された「配列子」である。 実装が正しいことを証明し、ソリューションがスケールする経験的な証拠を示します。 最終的な貢献は、シーケンサとデータ可用性委員会プロトコルを正しく実装したサーバに対するインセンティブ(支払い)システムと、プロトコルの違反を検出する不正防止機構である。

Modern blockchains face a scalability challenge due to the intrinsic throughput limitations of consensus protocols. Layer 2 optimistic rollups (L2) are a faster alternative that offer the same interface in terms of smart contract development and user interaction. Optimistic rollups perform most computations offchain and make light use of an underlying blockchain (L1) to guarantee correct behavior, implementing a cheaper blockchain on a blockchain solution. With optimistic rollups, a sequencer calculates offchain batches of L2 transactions and commits batches (compressed or hashed) to the L1 blockchain. The use of hashes requires a data service to translate hashes into their corresponding batches. Current L2 implementations consist of a centralized sequencer (central authority) and an optional data availability committee (DAC). In this paper, we propose a decentralized L2 optimistic rollup based on Setchain, a decentralized Byzantine-tolerant implementation of sets. The main contribution is a fully decentralized "arranger" where arrangers are a formal definition combining sequencers and DACs. We prove our implementation correct and show empirical evidence that our solution scales. A final contribution is a system of incentives (payments) for servers that implement the sequencer and data availability committee protocols correctly, and a fraud-proof mechanism to detect violations of the protocol.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# ニューラル(エントロピー)最適輸送による生成条件分布

Generative Conditional Distributions by Neural (Entropic) Optimal Transport ( http://arxiv.org/abs/2406.02317v1 )

ライセンス: Link先を確認
Bao Nguyen, Binh Nguyen, Hieu Trung Nguyen, Viet Anh Nguyen, (参考訳) 条件分布の学習は、望ましい結果が単一分布ではなく、共変数の複数のインスタンスに対応する複数の分布であるため、困難である。 本稿では, 条件分布の生成モデル, 特に限られたサンプルサイズを特徴とするシナリオを効果的に学習するための, ニューラルエントロピー最適輸送手法を提案する。 本手法は,条件分布の逆累積分布関数をパラメータ化する生成ネットワークと,条件カントロビッチポテンシャルをパラメータ化する別のネットワークという,2つのニューラルネットワークのミニマックストレーニングに依存する。 オーバーフィッティングを防止するため,ネットワーク出力のリプシッツ定数をペナルティ化することにより目的関数を正規化する。 実世界のデータセットを用いた実験では,現状条件分布学習法と比較して,アルゴリズムの有効性が示された。 実装はhttps://github.com/nguyenngocbaocmt02/GENTLEで確認できます。

Learning conditional distributions is challenging because the desired outcome is not a single distribution but multiple distributions that correspond to multiple instances of the covariates. We introduce a novel neural entropic optimal transport method designed to effectively learn generative models of conditional distributions, particularly in scenarios characterized by limited sample sizes. Our method relies on the minimax training of two neural networks: a generative network parametrizing the inverse cumulative distribution functions of the conditional distributions and another network parametrizing the conditional Kantorovich potential. To prevent overfitting, we regularize the objective function by penalizing the Lipschitz constant of the network output. Our experiments on real-world datasets show the effectiveness of our algorithm compared to state-of-the-art conditional distribution learning techniques. Our implementation can be found at https://github.com/nguyenngocbaocmt02/GENTLE.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# PeFAD: 時系列異常検出のためのパラメータ効率の良いフェデレーションフレームワーク

PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection ( http://arxiv.org/abs/2406.02318v1 )

ライセンス: Link先を確認
Ronghui Xu, Hao Miao, Senzhang Wang, Philip S. Yu, Jianxin Wang, (参考訳) モバイルセンシング技術の普及に伴い、様々な領域に膨大な時系列データが生成・蓄積され、多くの実世界の応用が促進される。 この設定では、時系列異常検出が実質的に重要である。 時系列において、通常のサンプル分布から逸脱したサンプルを識別する。 既存のアプローチは通常、すべての時系列が中央の場所で利用可能であると仮定する。 しかし、さまざまなエッジデバイスが配置されているため、時系列の分散収集が目撃されている。 分散時系列データと集中型異常検出アルゴリズムのギャップを埋めるため,PeFADというパラメータ効率の高いフェデレーション異常検出フレームワークを提案する。 PeFADは、クライアントのローカルモデルの本体として、学習済み言語モデル(PLM)を初めて採用し、モダリティ間の知識伝達能力の恩恵を受けることができる。 通信オーバヘッドとローカルモデル適応コストを低減するため,クライアントが小さなパラメータを微調整し,更新のためにサーバに送信するだけでよい,パラメータ効率のよいフェデレーショントレーニングモジュールを提案する。 PeFADは、トレーニング中に無視された異常の影響を軽減するために、新しい異常駆動マスク選択戦略を利用している。 また,全クライアントが共有する合成プライバシ保存データセット上での知識蒸留操作も提案し,クライアント間のデータ不均一性問題に対処する。 我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端のベースラインを最大28.74\%上回っている。

With the proliferation of mobile sensing techniques, huge amounts of time series data are generated and accumulated in various domains, fueling plenty of real-world applications. In this setting, time series anomaly detection is practically important. It endeavors to identify deviant samples from the normal sample distribution in time series. Existing approaches generally assume that all the time series is available at a central location. However, we are witnessing the decentralized collection of time series due to the deployment of various edge devices. To bridge the gap between the decentralized time series data and the centralized anomaly detection algorithms, we propose a Parameter-efficient Federated Anomaly Detection framework named PeFAD with the increasing privacy concerns. PeFAD for the first time employs the pre-trained language model (PLM) as the body of the client's local model, which can benefit from its cross-modality knowledge transfer capability. To reduce the communication overhead and local model adaptation cost, we propose a parameter-efficient federated training module such that clients only need to fine-tune small-scale parameters and transmit them to the server for update. PeFAD utilizes a novel anomaly-driven mask selection strategy to mitigate the impact of neglected anomalies during training. A knowledge distillation operation on a synthetic privacy-preserving dataset that is shared by all the clients is also proposed to address the data heterogeneity issue across clients. We conduct extensive evaluations on four real datasets, where PeFAD outperforms existing state-of-the-art baselines by up to 28.74\%.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 時系列合成が可能な変圧器の検討

A Survey of Transformer Enabled Time Series Synthesis ( http://arxiv.org/abs/2406.02322v1 )

ライセンス: Link先を確認
Alexander Sommers, Logan Cummins, Sudip Mittal, Shahram Rahimi, Maria Seale, Joseph Jaboure, Thomas Arnold, (参考訳) 生成型AIは画像と言語領域で多くの注目を集めており、トランスフォーマーニューラルネットワークが最先端を支配し続けている。 しかし、これらのモデルを時系列生成に適用することはあまり検討されておらず、機械学習、プライバシー保護、説明可能性研究に非常に有用である。 本調査では, トランスフォーマ, 生成AI, 時系列データの交点において, このギャップを識別し, 比較的人口密度の低いサブドメインでレビューを行う。 レビューされた研究はアプローチの多様さを示しており、ドメインがもたらす問題に対する決定的な回答にはまだ収束していない。 GAN、拡散モデル、状態空間モデル、オートエンコーダは全て、当初調査の動機となったトランスフォーマーの周辺で遭遇した。 決定的な洞察を提供するにはドメインをオープンしすぎるが、調査対象の作業は非常に示唆的であり、ベストプラクティスのためのいくつかの推奨事項と、価値のある将来の作業の提案が提供されている。

Generative AI has received much attention in the image and language domains, with the transformer neural network continuing to dominate the state of the art. Application of these models to time series generation is less explored, however, and is of great utility to machine learning, privacy preservation, and explainability research. The present survey identifies this gap at the intersection of the transformer, generative AI, and time series data, and reviews works in this sparsely populated subdomain. The reviewed works show great variety in approach, and have not yet converged on a conclusive answer to the problems the domain poses. GANs, diffusion models, state space models, and autoencoders were all encountered alongside or surrounding the transformers which originally motivated the survey. While too open a domain to offer conclusive insights, the works surveyed are quite suggestive, and several recommendations for best practice, and suggestions of valuable future work, are provided.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 電気通信規格における技術言語処理

Technical Language Processing for Telecommunications Specifications ( http://arxiv.org/abs/2406.02325v1 )

ライセンス: Link先を確認
Felipe A. Rodriguez Y., (参考訳) 大規模言語モデル(LLM)は、より多様なコンテキストに継続的に適用されています。 しかし、現状では、GTP-4(Generative Pre-Trained Transformer 4)のような最先端のLCMでさえ、大量の事前処理なしで実世界の技術文書から情報を抽出する際の課題がある。 実際の技術ドキュメントを持つそのような分野の1つは、通信工学であり、ドメイン固有のLLMから大きな恩恵を受ける可能性がある。 通信内部仕様の独特な形式と全体的な構造は標準英語とは大きく異なり、アウト・オブ・ボックス自然言語処理(NLP)ツールの応用は有効な選択肢ではないことは明らかである。 本稿では,通信専門家が生み出す技術情報を処理するための既定NLPツールの限界を概説し,技術言語処理(TLP)の概念を通信分野に拡張する。 さらに、仕様技術者の業務におけるドメイン固有のLLMの効果について検討し、異なる通信分野の専門家のトレーニングを高速化するためにドメイン固有のLLMを採用することの潜在的な利点を強調した。

Large Language Models (LLMs) are continuously being applied in a more diverse set of contexts. At their current state, however, even state-of-the-art LLMs such as Generative Pre-Trained Transformer 4 (GTP-4) have challenges when extracting information from real-world technical documentation without a heavy preprocessing. One such area with real-world technical documentation is telecommunications engineering, which could greatly benefit from domain-specific LLMs. The unique format and overall structure of telecommunications internal specifications differs greatly from standard English and thus it is evident that the application of out-of-the-box Natural Language Processing (NLP) tools is not a viable option. In this article, we outline the limitations of out-of-the-box NLP tools for processing technical information generated by telecommunications experts, and expand the concept of Technical Language Processing (TLP) to the telecommunication domain. Additionally, we explore the effect of domain-specific LLMs in the work of Specification Engineers, emphasizing the potential benefits of adopting domain-specific LLMs to speed up the training of experts in different telecommunications fields.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 連続的教師なしアウト・オブ・ディストリビューション検出

Continual Unsupervised Out-of-Distribution Detection ( http://arxiv.org/abs/2406.02327v1 )

ライセンス: Link先を確認
Lars Doorenbos, Raphael Sznitman, Pablo Márquez-Neila, (参考訳) ディープラーニングモデルは、トレーニング中のデータ分散がテストデータと整合するときに優れている。 しかし, オフ・オブ・ディストリビューション(OOD)サンプルに直面すると性能が低下し, OOD検出分野への関心が高まった。 現在のアプローチでは、OODサンプルはトレーニング分布を補完する集中していない分布に由来すると仮定している。 この仮定は、従来の教師なしのOOD(U-OOD)設定では適切だが、基礎となるディープラーニングモデルの配置場所を考えると不十分である。 この現実のシナリオをよりよく反映するために、連続的U-OOD検出の新たな設定を導入する。 そこで本研究では,OOD分布に依存しないU-OOD検出器から始まり,実際のOOD分布を考慮に入れた配置中をゆっくりと更新する手法を提案する。 本手法では,マハラノビス距離と最寄りのアプローチを組み合わせた新しいU-OODスコアリング関数を用いる。 さらに,従来の手法より優れる信頼性の高い数発のOOD検出器を設計する。 提案手法は, 関連分野からの強いベースラインを著しく改善することを示す。

Deep learning models excel when the data distribution during training aligns with testing data. Yet, their performance diminishes when faced with out-of-distribution (OOD) samples, leading to great interest in the field of OOD detection. Current approaches typically assume that OOD samples originate from an unconcentrated distribution complementary to the training distribution. While this assumption is appropriate in the traditional unsupervised OOD (U-OOD) setting, it proves inadequate when considering the place of deployment of the underlying deep learning model. To better reflect this real-world scenario, we introduce the novel setting of continual U-OOD detection. To tackle this new setting, we propose a method that starts from a U-OOD detector, which is agnostic to the OOD distribution, and slowly updates during deployment to account for the actual OOD distribution. Our method uses a new U-OOD scoring function that combines the Mahalanobis distance with a nearest-neighbor approach. Furthermore, we design a confidence-scaled few-shot OOD detector that outperforms previous methods. We show our method greatly improves upon strong baselines from related fields.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 言語エンコーダ間のアフィンホモトピーについて

On Affine Homotopy between Language Encoders ( http://arxiv.org/abs/2406.02329v1 )

ライセンス: Link先を確認
Robin SM Chan, Reda Boumasmoud, Anej Svete, Yuxin Ren, Qipeng Guo, Zhijing Jin, Shauli Ravfogel, Mrinmaya Sachan, Bernhard Schölkopf, Mennatallah El-Assady, Ryan Cotterell, (参考訳) 事前訓練された言語エンコーダ -- テキストをベクトルとして表現する関数 -- は、多くのNLPタスクの不可欠なコンポーネントである。 言語エンコーダ分析における自然な問題に対処する: 2つのエンコーダが類似することの意味は何か? 我々は、類似性の忠実な尺度は、タスク非依存でありながら、下流タスクにおけるパフォーマンスである \emph{extrinsic} の類似性についての情報である \emph{intrinsic} である必要があると主張する。 2つのエンコーダは、それらが \emph{homotopic} である場合、すなわち変換を通して整列できる場合、類似していると考えるのが一般的である。 本稿では,言語エンコーダの 'emph{affine} アライメントの特性と,その外生的類似性への影響について考察する。 アフィンアライメントは基本的には類似性の非対称な概念であるが、外生的類似性についてはいまだに有益である。 我々はこれを自然言語表現のデータセットで確認する。 外部類似性に関する有用な境界を提供する以外に、アフィン固有類似性は、それらの上の順序を定義することによって、事前学習されたエンコーダの空間の構造を明らかにすることができる。

Pre-trained language encoders -- functions that represent text as vectors -- are an integral component of many NLP tasks. We tackle a natural question in language encoder analysis: What does it mean for two encoders to be similar? We contend that a faithful measure of similarity needs to be \emph{intrinsic}, that is, task-independent, yet still be informative of \emph{extrinsic} similarity -- the performance on downstream tasks. It is common to consider two encoders similar if they are \emph{homotopic}, i.e., if they can be aligned through some transformation. In this spirit, we study the properties of \emph{affine} alignment of language encoders and its implications on extrinsic similarity. We find that while affine alignment is fundamentally an asymmetric notion of similarity, it is still informative of extrinsic similarity. We confirm this on datasets of natural language representations. Beyond providing useful bounds on extrinsic similarity, affine intrinsic similarity also allows us to begin uncovering the structure of the space of pre-trained encoders by defining an order over them.
翻訳日:2024-06-05 16:10:55 公開日:2024-06-04
# 翻訳の質が向上する: 言語間の視覚的質問応答における翻訳アーチファクトの分析

Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering ( http://arxiv.org/abs/2406.02331v1 )

ライセンス: Link先を確認
ChaeHun Park, Koanho Lee, Hyesu Lim, Jaeseok Kim, Junmo Park, Yu-Jung Heo, Du-Seong Chang, Jaegul Choo, (参考訳) 様々な言語にまたがる信頼性の高い視覚的質問応答(VQA)システムの構築は、主にトレーニング用の豊富なサンプルが不足しているため、難しい問題である。 この課題に対処するために、近年の研究では、言語間VQAタスクに機械翻訳システムを用いている。 これは、評価サンプルをソース言語(通常、英語)に翻訳し、モノリンガルモデル(すなわち、翻訳-テスト)を使用する。 しかし,本分析の結果,翻訳文には,翻訳遺物と呼ばれる人文とは別個の特徴があることが明らかとなった。 これらのアーティファクトはモデルに大きく影響し、様々なモデル、言語、翻訳プロセスにわたる広範な実験によって確認される。 これを踏まえて,翻訳アーチファクトの有害な影響を軽減できる簡単なデータ拡張戦略を提案する。

Building a reliable visual question answering~(VQA) system across different languages is a challenging problem, primarily due to the lack of abundant samples for training. To address this challenge, recent studies have employed machine translation systems for the cross-lingual VQA task. This involves translating the evaluation samples into a source language (usually English) and using monolingual models (i.e., translate-test). However, our analysis reveals that translated texts contain unique characteristics distinct from human-written ones, referred to as translation artifacts. We find that these artifacts can significantly affect the models, confirmed by extensive experiments across diverse models, languages, and translation processes. In light of this, we present a simple data augmentation strategy that can alleviate the adverse impacts of translation artifacts.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 拡張マインドトランス

Extended Mind Transformers ( http://arxiv.org/abs/2406.02332v1 )

ライセンス: Link先を確認
Phoebe Klett, Thomas Ahle, (参考訳) 事前学習された言語モデルは、一般的な知性と常識を示すが、ロングインプットは、推論時に情報を記憶するためのボトルネックとなる。 我々は,事前計算された記憶のバンクにモデルがアクセスできるようにする単純な方法であるMemorizing Transformers (Wu et al , 2022)を再検討した。 提案手法では,キーや値に対する位置エンコーディングをどのように更新すべきかを批判的に評価することにより,微調整の必要性など,元の手法の欠点の多くを修正することができることを示す。 この直感的な方法は、モデル独自のキー/クエリシステムを使用して、外部埋め込みを使用するのではなく、各生成ステップで最も関連性の高いメモリを選択し、参加する。 従来の処理とは対照的に,デコーダ層の大部分で検索される外部情報の重要さを実証する。 われわれは、新しい反ファクトの長距離検索ベンチマークをオープンソース化し、Extended Mind Transformersが、現在最先端の最先端を平均6%上回っていることを示す。

Pre-trained language models demonstrate general intelligence and common sense, but long inputs quickly become a bottleneck for memorizing information at inference time. We resurface a simple method, Memorizing Transformers (Wu et al., 2022), that gives the model access to a bank of pre-computed memories. We show that it is possible to fix many of the shortcomings of the original method, such as the need for fine-tuning, by critically assessing how positional encodings should be updated for the keys and values retrieved. This intuitive method uses the model's own key/query system to select and attend to the most relevant memories at each generation step, rather than using external embeddings. We demonstrate the importance of external information being retrieved in a majority of decoder layers, contrary to previous work. We open source a new counterfactual long-range retrieval benchmark, and show that Extended Mind Transformers outperform today's state of the art by 6% on average.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 6Gネットワークにおける伝達学習のためのニューラルアーキテクチャ探索に向けて

Towards Neural Architecture Search for Transfer Learning in 6G Networks ( http://arxiv.org/abs/2406.02333v1 )

ライセンス: Link先を確認
Adam Orucu, Farnaz Moradi, Masoumeh Ebrahimi, Andreas Johnsson, (参考訳) 将来の6GネットワークはAIネイティブであると想定されており、MLモデルはパフォーマンスの最適化、エネルギー消費の削減、複雑さと不均一性の増加に対応するために広く利用される。 重要な課題は、様々なタスク、動的性、利用可能なリソースから生じる厳しい要求を満たす最適なモデルアーキテクチャを見つけるプロセスを自動化することである。 本稿では,ニューラルアーキテクチャ検索と伝達学習の現状とネットワークへの適用性について述べる。 さらに、オープンな研究課題を特定し、NASとTL、多目的探索、および表データを組み合わせることで、将来のネットワークに特有の要素を持つ3つの主要な要件に特異的に焦点を絞った方向を設定する。 最後に、今後の短期的および長期的な取り組みについて概説し、議論する。

The future 6G network is envisioned to be AI-native, and as such, ML models will be pervasive in support of optimizing performance, reducing energy consumption, and in coping with increasing complexity and heterogeneity. A key challenge is automating the process of finding optimal model architectures satisfying stringent requirements stemming from varying tasks, dynamicity and available resources in the infrastructure and deployment positions. In this paper, we describe and review the state-of-the-art in Neural Architecture Search and Transfer Learning and their applicability in networking. Further, we identify open research challenges and set directions with a specific focus on three main requirements with elements unique to the future network, namely combining NAS and TL, multi-objective search, and tabular data. Finally, we outline and discuss both near-term and long-term work ahead.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 変圧器言語モデルにおける動詞アスペクトのカテゴリーの探索

Probing the Category of Verbal Aspect in Transformer Language Models ( http://arxiv.org/abs/2406.02335v1 )

ライセンス: Link先を確認
Anisia Katinskaia, Roman Yangarber, (参考訳) 言語モデル(PLM)がロシア語の言語的側面の文法的カテゴリをどのように符号化するかを検討する。 トランス LM におけるアスペクトの符号化は、これまでどんな言語でも研究されていない。 特定の課題は「代替的な文脈」によって引き起こされる: 完全性または不完全な側面が文法的に、意味的に適している。 代替および非代替的な文脈でBERTとRoBERTaを用いて探索を行う。 まず、行動探索を用いて、アスペクト予測に基づくモデルの性能を評価する。 次に、因果探索を通して、文脈表現を反事実表現に置き換えた際のモデルの性能について検討する。 これらのカウンターファクトは、コンテキスト内のアクションを特徴付けるセマンティックな特徴である「バウンドネス」機能の価値を変更します。実験では、BERTとRoBERTaがアスペクトをエンコードしていることが示されています。 反事実的介入は、反対の方法で完璧で不完全であり、文法と一致する:完全性は有界性の意味を加えることによって肯定的に影響され、その逆も影響する。 その結果,BERTの最終層のみをモデル全体の微調整よりも高速かつ効果的に微調整できることが示唆された。 このモデルは、他の文脈におけるアスペクトに関する高い予測的不確実性を持ち、記述されたアクションの有界性に関する明確なヒントを欠く傾向がある。

We investigate how pretrained language models (PLM) encode the grammatical category of verbal aspect in Russian. Encoding of aspect in transformer LMs has not been studied previously in any language. A particular challenge is posed by "alternative contexts": where either the perfective or the imperfective aspect is suitable grammatically and semantically. We perform probing using BERT and RoBERTa on alternative and non-alternative contexts. First, we assess the models' performance on aspect prediction, via behavioral probing. Next, we examine the models' performance when their contextual representations are substituted with counterfactual representations, via causal probing. These counterfactuals alter the value of the "boundedness" feature--a semantic feature, which characterizes the action in the context. Experiments show that BERT and RoBERTa do encode aspect--mostly in their final layers. The counterfactual interventions affect perfective and imperfective in opposite ways, which is consistent with grammar: perfective is positively affected by adding the meaning of boundedness, and vice versa. The practical implications of our probing results are that fine-tuning only the last layers of BERT on predicting aspect is faster and more effective than fine-tuning the whole model. The model has high predictive uncertainty about aspect in alternative contexts, which tend to lack explicit hints about the boundedness of the described action.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 拡張関数とPDE近似のための弱直交制約を持つポリノーミアル強化ニューラルネットワーク(PANNs)

Polynomial-Augmented Neural Networks (PANNs) with Weak Orthogonality Constraints for Enhanced Function and PDE Approximation ( http://arxiv.org/abs/2406.02336v1 )

ライセンス: Link先を確認
Madison Cooley, Shandian Zhe, Robert M. Kirby, Varun Shankar, (参考訳) 本稿では,ディープニューラルネットワーク(DNN)と多項式近似を組み合わせた新しい機械学習アーキテクチャである,多項式拡張ニューラルネットワーク(PANN)を提案する。 PANNはDNNの強度(高次元近似の柔軟性と効率)と多項式近似の強度(滑らかな関数のラピッド収束率)を結合する。 様々な問題に対して, 安定トレーニングと精度の向上を両立させるため, 1) PANN内の多項式とDNNの相互直交性を規定する直交制約のファミリー, (2) 多項式成分がもたらした次元の呪いに対処する単純な基本プルーニングアプローチ, (3) 多項式プレコンディショニング戦略をDNNと多項式の両方に適用することを提案する。 本研究では, 多項式の再現性, 滑らかな関数と有限な滑らかさの関数を近似する能力, および偏微分方程式(PDE)の解法について検討する。 これらの実験を通して、PANNは回帰とPDEの数値解の両方に対してDNNに優れた近似特性を提供し、また、滑らか性に制限された回帰関数の場合、多項式とDNNに基づく回帰(each)の両方に対して精度が向上することを示した。

We present polynomial-augmented neural networks (PANNs), a novel machine learning architecture that combines deep neural networks (DNNs) with a polynomial approximant. PANNs combine the strengths of DNNs (flexibility and efficiency in higher-dimensional approximation) with those of polynomial approximation (rapid convergence rates for smooth functions). To aid in both stable training and enhanced accuracy over a variety of problems, we present (1) a family of orthogonality constraints that impose mutual orthogonality between the polynomial and the DNN within a PANN; (2) a simple basis pruning approach to combat the curse of dimensionality introduced by the polynomial component; and (3) an adaptation of a polynomial preconditioning strategy to both DNNs and polynomials. We test the resulting architecture for its polynomial reproduction properties, ability to approximate both smooth functions and functions of limited smoothness, and as a method for the solution of partial differential equations (PDEs). Through these experiments, we demonstrate that PANNs offer superior approximation properties to DNNs for both regression and the numerical solution of PDEs, while also offering enhanced accuracy over both polynomial and DNN-based regression (each) when regressing functions with limited smoothness.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 変圧器モデルにおける言語的フィンガープリント:皮肉検出における言語変化がパラメータ選択に与える影響

Linguistic Fingerprint in Transformer Models: How Language Variation Influences Parameter Selection in Irony Detection ( http://arxiv.org/abs/2406.02338v1 )

ライセンス: Link先を確認
Michele Mastromattei, Fabio Massimo Zanzotto, (参考訳) 本稿では,言語多様性,感情分析,トランスフォーマーモデルアーキテクチャの相関について検討する。 本研究の目的は、異なる英語のバリエーションが、皮肉検出のためのトランスフォーマーベースモデルにどのように影響するかを検討することである。 そこで本研究では,EPICコーパスを用いて5つの異なる英文変動特化データセットを抽出し,KENプルーニングアルゴリズムを5つのアーキテクチャに適用した。 本研究は, 言語的差異が強い部分ネットワークと, 相違点が大きい部分ネットワークとの類似点を明らかにした。 モデル間の最適サブネットは、パラメータの60%以上を共有しており、言語的変動を捉え、解釈する際のパラメータ値の重要性を強調している。 本研究は、同一言語の異なる変種に基づいて訓練されたモデル間の構造的類似点と、これらのニュアンスを捉える際のパラメータ値の重要な役割を強調した。

This paper explores the correlation between linguistic diversity, sentiment analysis and transformer model architectures. We aim to investigate how different English variations impact transformer-based models for irony detection. To conduct our study, we used the EPIC corpus to extract five diverse English variation-specific datasets and applied the KEN pruning algorithm on five different architectures. Our results reveal several similarities between optimal subnetworks, which provide insights into the linguistic variations that share strong resemblances and those that exhibit greater dissimilarities. We discovered that optimal subnetworks across models share at least 60% of their parameters, emphasizing the significance of parameter values in capturing and interpreting linguistic variations. This study highlights the inherent structural similarities between models trained on different variants of the same language and also the critical role of parameter values in capturing these nuances.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# インスタンス検索のためのクラスタ対応類似性拡散

Cluster-Aware Similarity Diffusion for Instance Retrieval ( http://arxiv.org/abs/2406.02343v1 )

ライセンス: Link先を確認
Jifei Luo, Hantao Yao, Changsheng Xu, (参考訳) 拡散に基づく再ランク付け(diffusion-based re-level)は、隣り合うグラフで類似性の伝播を実行することで、インスタンスを検索する一般的な方法である。 しかし、ペアのインスタンスをベースとした親和性グラフを構成する既存の手法は、外れ値や他の多様体からの誤情報を伝播させ、不正確な結果をもたらす可能性がある。 そこで本研究では,新しいクラスタ・アウェア類似性(CAS)拡散モデルを提案する。 CAS の第一の概念は局所クラスタ内で類似性拡散を行うことであり、これは他の多様体からの影響を明示的に減少させることである。 対称的かつ滑らかな類似性行列を得るために、我々の双方向類似性拡散戦略は、局所クラスタ拡散の最適化目的に逆制約項を導入する。 さらに、各インスタンスの局所的隣人間の類似性整合性を確保するために、Neighbor-guided similarity Smoothingアプローチを最適化した。 サンプル検索とオブジェクト再同定の結果,提案したCASの有効性が検証され,コードが公開されている。

Diffusion-based re-ranking is a common method used for retrieving instances by performing similarity propagation in a nearest neighbor graph. However, existing techniques that construct the affinity graph based on pairwise instances can lead to the propagation of misinformation from outliers and other manifolds, resulting in inaccurate results. To overcome this issue, we propose a novel Cluster-Aware Similarity (CAS) diffusion for instance retrieval. The primary concept of CAS is to conduct similarity diffusion within local clusters, which can reduce the influence from other manifolds explicitly. To obtain a symmetrical and smooth similarity matrix, our Bidirectional Similarity Diffusion strategy introduces an inverse constraint term to the optimization objective of local cluster diffusion. Additionally, we have optimized a Neighbor-guided Similarity Smoothing approach to ensure similarity consistency among the local neighbors of each instance. Evaluations in instance retrieval and object re-identification validate the effectiveness of the proposed CAS, our code is publicly available.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# 航法コンテキストを内陸船舶軌道予測に組み込む:ガウス混合モデルと変圧器アプローチ

Incorporating Navigation Context into Inland Vessel Trajectory Prediction: A Gaussian Mixture Model and Transformer Approach ( http://arxiv.org/abs/2406.02344v1 )

ライセンス: Link先を確認
Kathrin Donandt, Dirk Söffker, (参考訳) 自動識別システム(Automatic Identification System)以外のデータソースを使用して、船舶が航行しているコンテキストを表現し、その結果、船舶軌道予測(VTP)に対する機械学習アプローチでは、状況認識を改善することは依然として稀である。 船舶の移動がフェアウェイ内で制限されている内陸輸送では、航行コンテキスト情報は不可欠である。 内陸VTPを対象とするコントリビューションでは、AISの融合データセットと放電測定に基づいてガウス混合モデル(GMM)を適用し、マルチモーダル分布曲線を生成し、フェアウェイにおける典型的な側方容器の位置と水路沿いの変位速度を捉える。 GMMの確率密度曲線をサンプリングすることにより、VTP変換器モデルへの入力として、時空間の容器特徴やフェアウェイジオメトリとともに特徴ベクトルを導出する。 これらの分布特徴を現在のナビゲーションコンテキストと今後のナビゲーションコンテキストの両方に組み込むことで、予測精度が向上する。 内陸VTPの変圧器モデルよりもモデルの方が優れていることを示す。 新規性は、コンテキストデータからVTPタスクに関連する特徴を抽出するモデルに頼るのではなく、条件付き空間コンテキストを表す事前処理された統計ベースの特徴を提供することにある。 単一の典型的な経路を仮定したり、モデルアプリケーションに先立って特定のクラスタを選択することで、内陸ナビゲーションパターンの複雑さを過度に単純化することは避けられる。 この手法の一般化性は、3つの異なる河川区間のデータを用いて示される。 相互作用を意識した予測フレームワークに統合することができ、現在の位置と放電における全体の分布における実際の容器の挙動の位置に関する洞察は、軌道予測の精度を高めることができる。

Using data sources beyond the Automatic Identification System to represent the context a vessel is navigating in and consequently improve situation awareness is still rare in machine learning approaches to vessel trajectory prediction (VTP). In inland shipping, where vessel movement is constrained within fairways, navigational context information is indispensable. In this contribution targeting inland VTP, Gaussian Mixture Models (GMMs) are applied, on a fused dataset of AIS and discharge measurements, to generate multi-modal distribution curves, capturing typical lateral vessel positioning in the fairway and dislocation speeds along the waterway. By sampling the probability density curves of the GMMs, feature vectors are derived which are used, together with spatio-temporal vessel features and fairway geometries, as input to a VTP transformer model. The incorporation of these distribution features of both the current and forthcoming navigation context improves prediction accuracy. The superiority of the model over a previously proposed transformer model for inland VTP is shown. The novelty lies in the provision of preprocessed, statistics-based features representing the conditioned spatial context, rather than relying on the model to extract relevant features for the VTP task from contextual data. Oversimplification of the complexity of inland navigation patterns by assuming a single typical route or selecting specific clusters prior to model application is avoided by giving the model access to the entire distribution information. The methodology's generalizability is demonstrated through the usage of data of 3 distinct river sections. It can be integrated into an interaction-aware prediction framework, where insights into the positioning of the actual vessel behavior in the overall distribution at the current location and discharge can enhance trajectory prediction accuracy.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# オーディオ・ビジュアル・セグメンテーションのためのプログレッシブ信頼度マスキング注意ネットワーク

Progressive Confident Masking Attention Network for Audio-Visual Segmentation ( http://arxiv.org/abs/2406.02345v1 )

ライセンス: Link先を確認
Yuxuan Wang, Feng Dong, Jinchao Zhu, (参考訳) 通常、音声信号と視覚信号は同時に発生し、人間はこれらの2つのモードから情報を関連付け、同期する能力を持っている。 近年,シーン内の物体を聴くためのセグメンテーションマップを作成することを目的として,AVS(Audio-Visual Segmentation)と呼ばれる課題が出現している。 しかし,これまでに提案した手法は十分に統合されていないため,計算コストは極めて高い。 さらに、異なる段階の出力が完全に活用されていない。 本研究では,PMCANet(Progressive Confident Masking Attention Network)を紹介する。 注意機構を利用して、音声信号と視覚フレームの内在的相関を明らかにする。 さらに,クエリトークンを選択することで意味認識を高めるために,効率的かつ効果的なクロスアテンションモジュールを設計する。 この選択は、ネットワークの多段階予測出力に基づいて信頼性駆動ユニットによって決定される。 実験により、我々のネットワークは計算資源を少なくしながら、他のAVS手法よりも優れていることが示された。

Audio and visual signals typically occur simultaneously, and humans possess an innate ability to correlate and synchronize information from these two modalities. Recently, a challenging problem known as Audio-Visual Segmentation (AVS) has emerged, intending to produce segmentation maps for sounding objects within a scene. However, the methods proposed so far have not sufficiently integrated audio and visual information, and the computational costs have been extremely high. Additionally, the outputs of different stages have not been fully utilized. To facilitate this research, we introduce a novel Progressive Confident Masking Attention Network (PMCANet). It leverages attention mechanisms to uncover the intrinsic correlations between audio signals and visual frames. Furthermore, we design an efficient and effective cross-attention module to enhance semantic perception by selecting query tokens. This selection is determined through confidence-driven units based on the network's multi-stage predictive outputs. Experiments demonstrate that our network outperforms other AVS methods while requiring less computational resources.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# SiCの希薄スピンを用いた2D van der Waals室温強磁性Fe3GaTe2の非侵襲磁気検出

Noninvasive magnetic detection of 2D van der Waals room-temperature ferromagnet Fe3GaTe2 using divacancy spins in SiC ( http://arxiv.org/abs/2406.02346v1 )

ライセンス: Link先を確認
Xia Chen, Qin-Yue Luo, Pei-Jie Guo, Hao-Jie Zhou, Qi-Cheng Hu, Hong-Peng Wu, Xiao-Wen Shen, Ru-Yue Cui, Lei Dong, Tian-Xing Wei, Yu-Hang Xiao, De-Ren Li, Li Lei, Xi Zhang, Jun-Feng Wang, Gang Xiang, (参考訳) Room-Temperature (RT) two-dimensional van der Waals (vdW) ferromagnetsは、情報ストレージと処理のための次世代スピントロニクスデバイスを大いに約束する。 高密度エネルギー効率スピントロニクスデバイスを実現するためには、RT 2D vdW磁石の局所磁気特性を理解することが不可欠である。 本研究では, RTにおける炭化ケイ素(SiC)の希薄スピン量子センサを用いて, vdW層強磁性体Fe3GaTe2の非侵襲的In situ磁気検出を実現する。 Fe3GaTe2の構造的特徴と磁気特性は、ラマンスペクトル、磁化、磁気輸送の測定によって特徴づけられる。 Fe3GaTe2近傍のPL6空孔の温度依存性と磁場依存性の光磁気共鳴のさらなる詳細な解析により、Fe3GaTe2のキュリー温度(Tc)は360K程度であり、外部磁場とともに磁化が増加することが明らかになった。 さらに、スピン緩和技術を用いてFe3GaTe2の磁気揺らぎを探査し、Tc付近のスピン緩和速度のピークを明らかにする。 これらの実験は、2D vdW RT強磁性体Fe3GaTe2の興味深い局所磁気特性の洞察を与え、関連する2D vdW磁石の非侵襲的その場磁気検出におけるSiC量子センサの適用の道を開く。

Room-temperature (RT) two-dimensional (2D) van der Waals (vdW) ferromagnets hold immense promise for next-generation spintronic devices for information storage and processing. To achieve high-density energy-efficient spintronic devices, it is essential to understand local magnetic properties of RT 2D vdW magnets. In this work, we realize noninvasive in situ magnetic detection in vdW-layered ferromagnet Fe3GaTe2 using divacancy spins quantum sensor in silicon carbide (SiC) at RT. The structural features and magnetic properties of the Fe3GaTe2 are characterized utilizing Raman spectrum, magnetization and magneto-transport measurements. Further detailed analysis of temperature- and magnetic field-dependent optically detected magnetic resonances of the PL6 divacancy near the Fe3GaTe2 reveal that, the Curie temperature (Tc) of Fe3GaTe2 is ~360K, and the magnetization increases with external magnetic fields. Additionally, spin relaxometry technology is employed to probe the magnetic fluctuations of Fe3GaTe2, revealing a peak in the spin relaxation rate around Tc. These experiments give insights into the intriguing local magnetic properties of 2D vdW RT ferromagnet Fe3GaTe2 and pave the way for the application of SiC quantum sensors in noninvasive in situ magnetic detection of related 2D vdW magnets.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# Flash拡散: 画像生成のための条件付き拡散モデルを高速化する

Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation ( http://arxiv.org/abs/2406.02347v1 )

ライセンス: Link先を確認
Clement Chadebec, Onur Tasar, Eyal Benaroche, Benjamin Aubin, (参考訳) 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。 このメソッドは、COCO2014とCOCO2017データセット上でイメージ生成を行ういくつかのステップにおいて、FIDとCLIP-Scoreの面で最先端のパフォーマンスに達する。 その効率性に加えて、この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$\alpha$)、アダプタなどの異なるバックボーンの使用など、いくつかのタスクにまたがる。 いずれの場合も、非常に高品質な画像生成を維持しながら、サンプリングステップの数を劇的に削減することができる。 公式実装はhttps://github.com/gojasper/flash-diffusion.comで公開されている。

In this paper, we propose an efficient, fast, and versatile distillation method to accelerate the generation of pre-trained diffusion models: Flash Diffusion. The method reaches state-of-the-art performances in terms of FID and CLIP-Score for few steps image generation on the COCO2014 and COCO2017 datasets, while requiring only several GPU hours of training and fewer trainable parameters than existing methods. In addition to its efficiency, the versatility of the method is also exposed across several tasks such as text-to-image, inpainting, face-swapping, super-resolution and using different backbones such as UNet-based denoisers (SD1.5, SDXL) or DiT (Pixart-$\alpha$), as well as adapters. In all cases, the method allowed to reduce drastically the number of sampling steps while maintaining very high-quality image generation. The official implementation is available at https://github.com/gojasper/flash-diffusion.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# AMOSL: 拡張統一表現のための多視点グラフニューラルネットワークにおける適応的モダリティワイド構造学習

AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation ( http://arxiv.org/abs/2406.02348v1 )

ライセンス: Link先を確認
Peiyu Liang, Hongchang Gao, Xubin He, (参考訳) MRGNN(Multi-view Graph Neural Networks)は、オブジェクト表現の学習に様々なモダリティを活用するのに優れていますが、既存の手法では、現実世界の相違点を見下ろすモダリティをまたいだ同じ局所トポロジ構造を前提としています。 これによりMVGNNは、モダリティ融合とデノナイジングの表現においてバラバラになる。 これらの課題に対処するため,適応型モダリティワイド構造学習(AMoSL)を提案する。 AMoSLは最適な輸送によってモーダル間のノード対応をキャプチャし、グラフ埋め込みで共同学習する。 効率的なエンドツーエンドトレーニングを実現するために、複雑な二段階最適化問題に対する効率的な解法を用いる。 さらに、AMoSLはモダリティ間距離の教師なし学習を通じて下流タスクに適応する。 AMoSLの有効性は、より正確なグラフ分類器を6つのベンチマークデータセットで訓練できることによって示される。

While Multi-view Graph Neural Networks (MVGNNs) excel at leveraging diverse modalities for learning object representation, existing methods assume identical local topology structures across modalities that overlook real-world discrepancies. This leads MVGNNs straggles in modality fusion and representations denoising. To address these issues, we propose adaptive modality-wise structure learning (AMoSL). AMoSL captures node correspondences between modalities via optimal transport, and jointly learning with graph embedding. To enable efficient end-to-end training, we employ an efficient solution for the resulting complex bilevel optimization problem. Furthermore, AMoSL adapts to downstream tasks through unsupervised learning on inter-modality distances. The effectiveness of AMoSL is demonstrated by its ability to train more accurate graph classifiers on six benchmark datasets.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# CADE: スパイクニューラルネットワークの差分進化を補うコサイン

CADE: Cosine Annealing Differential Evolution for Spiking Neural Network ( http://arxiv.org/abs/2406.02349v1 )

ライセンス: Link先を確認
Runhua Jiang, Guodong Du, Shuyang Yu, Yifei Guo, Sim Kuan Goh, Ho-Kin Tang, (参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングとエネルギー効率のよい人工知能のポテンシャルで有名になったが、それらを最適化することは、その離散的なスパイクベースの計算のため、勾配ベースの手法にとって深刻な課題である。 本稿では,SNNモデルに対する差分進化(DE)の変異係数(F)とクロスオーバー率(CR)を変調するために設計されたCADE(Cosine Annealing Differential Evolution)を導入することで,課題に対処する。 CADEを解析するために大規模な実験評価を行った。 CADEは探索空間の探索と活用のバランスを示し、既存の勾配法やD法と比較して収束の加速と精度の向上を実現した。 さらに、移動学習環境に基づく初期化手法を開発し、ソースデータセット(CIFAR-10)を事前学習し、ターゲットデータセット(CIFAR-100)を微調整し、人口多様性を改善した。 SNNのCADEをさらに強化することが判明した。 注目すべきことに、CADEは高い精度のSEWモデルの性能を0.52ポイント向上させ、SNNの微調整と強化の有効性を裏付ける。 これらの知見は、特にD-based SNNにおいて、FとCR調整のためのスケジューラの役割の重要性を強調した。 Source Code on Github: https://github.com/Tank-Jiang/CADE4SNN.com

Spiking neural networks (SNNs) have gained prominence for their potential in neuromorphic computing and energy-efficient artificial intelligence, yet optimizing them remains a formidable challenge for gradient-based methods due to their discrete, spike-based computation. This paper attempts to tackle the challenges by introducing Cosine Annealing Differential Evolution (CADE), designed to modulate the mutation factor (F) and crossover rate (CR) of differential evolution (DE) for the SNN model, i.e., Spiking Element Wise (SEW) ResNet. Extensive empirical evaluations were conducted to analyze CADE. CADE showed a balance in exploring and exploiting the search space, resulting in accelerated convergence and improved accuracy compared to existing gradient-based and DE-based methods. Moreover, an initialization method based on a transfer learning setting was developed, pretraining on a source dataset (i.e., CIFAR-10) and fine-tuning the target dataset (i.e., CIFAR-100), to improve population diversity. It was found to further enhance CADE for SNN. Remarkably, CADE elevates the performance of the highest accuracy SEW model by an additional 0.52 percentage points, underscoring its effectiveness in fine-tuning and enhancing SNNs. These findings emphasize the pivotal role of a scheduler for F and CR adjustment, especially for DE-based SNN. Source Code on Github: https://github.com/Tank-Jiang/CADE4SNN.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# LlamaCare: 医療知識共有を促進するための大規模医療用言語モデル

LlamaCare: A Large Medical Language Model for Enhancing Healthcare Knowledge Sharing ( http://arxiv.org/abs/2406.02350v1 )

ライセンス: Link先を確認
Maojun Sun, (参考訳) 大規模言語モデル(LLM)は、知識の記憶と現在における驚くべき能力を示している。 しかし、ドメイン固有の知識や医学のような下流のタスクに関しては、一般のLLMは正確な答えを与えることができないことが多い。 また, LLMを分類問題に答えたい場合, 通常は命令チューニングを先導するが, LLMは必ずしも命令チューニング後に分類の直接的な指標を与えるとは限らない。 本稿では,細調整医療用言語モデルであるLlamaCareと,LLMの分類問題を扱うモジュールである拡張分類統合(ECI)を提案する。 私たちの貢献は (i)24G GPUによるChatGPTと同様の性能を達成し,低炭素排出量の医療知識の大規模言語モデルを微調整した。 (II)拡張分類統合と呼ばれる新しいモジュールを提案することにより,冗長な分類解の解決とLLMの性能向上を実現した。 (iii) PubMedQA や USMLE 1-3 ステップなど,いくつかのベンチマークを対象としたワンショットおよび少数ショットトレーニングのための処理データをリリースした。 提案手法は,ベンチマークにおける最先端モデルと密接な関係を保ちながら,同じパラメータを持つLLMと比較してGPUリソースの削減を図っている。 私たちのモデル、コード、データセットはhttps://github.com/Stephen-SMJ/LLamaCareにある。

Large language models (LLMs) have shown amazing capabilities in knowledge memorization and present. However, when it comes to domain-specific knowledge and downstream tasks like medical, general LLMs are often unable to give precise answers. In addition, when people want LLMs to answer classification questions, they usually go through instruction tuning first, however, LLMs do not always give a direct index of the categorization after instruction tuning. In this paper, we proposed LlamaCare, a fine-tuned medical language model, and Extended Classification Integration(ECI), a module to handle classification problems of LLMs. Our contributions are : (i) We fine-tuned a large language model of medical knowledge with very low carbon emissions and achieved similar performance with ChatGPT by a 24G GPU. (ii) We solved the problem of redundant categorical answers and improved the performance of LLMs by proposing a new module called Extended Classification Integration. (iii) We released our processed data for one-shot and few-shot training for some benchmarks such as PubMedQA and USMLE 1-3 step. Our method achieves a close effect with the state-of-the-art model in benchmarks while costing lower GPU resources compared to LLMs with the same quantity of parameters. Our models, codes, and datasets can be found in https://github.com/Stephen-SMJ/LLamaCare
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# Few-Shot Bayesian Optimizationのためのシステム対応ニューラルネットワークプロセス

System-Aware Neural ODE Processes for Few-Shot Bayesian Optimization ( http://arxiv.org/abs/2406.02352v1 )

ライセンス: Link先を確認
Jixiang Qing, Becky D Langdon, Robert M Lee, Behrang Shafei, Mark van der Wilk, Calvin Tsay, Ruth Misener, (参考訳) 本研究では,未知の常微分方程式(ODE)によって制御される力学系の初期条件とタイミングを最適化する問題を考察する。 いくつかの試行において最適条件を特定するために,システムの事前情報に基づいて,数発のベイズ最適化(BO)フレームワークを導入する。 我々のアプローチの核となるのは、新しいコンテキスト埋め込みブロックを使用して複数の軌道からODEシステムをメタ学習するように設計されたNeural ODE Processes (NODEP)の拡張であるSystem-Aware Neural ODE Processes (SANODEP)である。 さらに,最適化のための多シナリオ損失関数を提案する。 この2段階のBOフレームワークは,探索空間の制約を効果的に組み込んで,初期条件と観測タイミングの両方を効率的に最適化する。 数発のBOに対するSANODEPの可能性を示す広範囲な実験を行った。 また、SANODEPの様々な事前情報への適応性についても検討し、事前の柔軟性とモデルの適合精度のトレードオフを強調した。

We consider the problem of optimizing initial conditions and timing in dynamical systems governed by unknown ordinary differential equations (ODEs), where evaluating different initial conditions is costly and there are constraints on observation times. To identify the optimal conditions within several trials, we introduce a few-shot Bayesian Optimization (BO) framework based on the system's prior information. At the core of our approach is the System-Aware Neural ODE Processes (SANODEP), an extension of Neural ODE Processes (NODEP) designed to meta-learn ODE systems from multiple trajectories using a novel context embedding block. Additionally, we propose a multi-scenario loss function specifically for optimization purposes. Our two-stage BO framework effectively incorporates search space constraints, enabling efficient optimization of both initial conditions and observation timings. We conduct extensive experiments showcasing SANODEP's potential for few-shot BO. We also explore SANODEP's adaptability to varying levels of prior information, highlighting the trade-off between prior flexibility and model fitting accuracy.
翻訳日:2024-06-05 16:00:43 公開日:2024-06-04
# ラベルワイドアリアトリックおよびてんかん不確かさ定量化

Label-wise Aleatoric and Epistemic Uncertainty Quantification ( http://arxiv.org/abs/2406.02354v1 )

ライセンス: Link先を確認
Yusuf Sale, Paul Hofman, Timo Löhr, Lisa Wimmer, Thomas Nagler, Eyke Hüllermeier, (参考訳) 本稿では,不確実性尺度のラベルワイズ分解に基づく分類タスクにおける不確実性定量化手法を提案する。 このラベルの観点は、個々のクラスレベルで不確実性を定量化し、コストに敏感な意思決定を改善し、不確実性の原因を理解するのに役立つ。 さらに、分散のような非カテゴリー的な尺度に基づいて、総、アレタリック、および疫学的な不確実性を定義でき、共通のエントロピーに基づく測度を超えることができる。 特に、分散に基づく尺度は、最近文献で議論された確立された方法に関連するいくつかの制限に対処する。 提案手法は,いくつかの望ましい特性に則っていることを示す。 正確な不確実性定量化が不可欠である医療領域での応用を含む、さまざまなベンチマークデータセットに関する実証的な評価を通じて、ラベルに関する不確実性定量化の有効性を確立する。

We present a novel approach to uncertainty quantification in classification tasks based on label-wise decomposition of uncertainty measures. This label-wise perspective allows uncertainty to be quantified at the individual class level, thereby improving cost-sensitive decision-making and helping understand the sources of uncertainty. Furthermore, it allows to define total, aleatoric, and epistemic uncertainty on the basis of non-categorical measures such as variance, going beyond common entropy-based measures. In particular, variance-based measures address some of the limitations associated with established methods that have recently been discussed in the literature. We show that our proposed measures adhere to a number of desirable properties. Through empirical evaluation on a variety of benchmark data sets -- including applications in the medical domain where accurate uncertainty quantification is crucial -- we establish the effectiveness of label-wise uncertainty quantification.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# FedDr+:フェデレーション学習のためのグローバルな特徴蒸留によるドット回帰の安定化

FedDr+: Stabilizing Dot-regression with Global Feature Distillation for Federated Learning ( http://arxiv.org/abs/2406.02355v1 )

ライセンス: Link先を確認
Seongyoon Kim, Minchan Jeong, Sungnyun Kim, Sungwoo Cho, Sumyeong Ahn, Se-Young Yun, (参考訳) フェデレートラーニング (FL) は, グローバルモデル(グローバルFL) やパーソナライズされたモデル(個人化FL) の開発において, 異種非IDデータ分布を持つクライアント間で重要なフレームワークとして登場した。 FLの主な課題はクライアントのドリフトであり、データの不均一性は分散した知識の集約を妨げる。 近年の研究では、最終分類器層における大きなばらつきを特定することで、クライアントのドリフト問題に対処している。 この分散を緩和するため、分類器重みの凍結や特徴抽出器の整列といった戦略が有効であることが証明された。 分類器と特徴抽出器の局所的なアライメントはFLにおいて重要な要素として研究されているが、各クライアントで観測されたクラスを過度に強調するためにモデルが導かれる可能性がある。 1) 局所的なアライメントの強化、(2) 目に見えないクラスサンプルの表現の保存。 このアプローチは、個々のクライアントからの知識を効果的に統合し、グローバルかつパーソナライズされたFLの性能を向上させることを目的としている。 これを実現するために,ドット-回帰損失を用いた局所モデルアライメントを実現するFedDr+というアルゴリズムを提案する。 FedDr+は、分類器を単純なETFとして凍結して特徴を整列させ、未確認/欠クラスに関する情報を保持するために特徴蒸留機構を用いて集約されたグローバルモデルを改善する。 その結果,本アルゴリズムは,凍結型分類器を用いて多種多様な分布のアライメントを向上する既存の手法を超越していることを示す実証的証拠が得られた。

Federated Learning (FL) has emerged as a pivotal framework for the development of effective global models (global FL) or personalized models (personalized FL) across clients with heterogeneous, non-iid data distribution. A key challenge in FL is client drift, where data heterogeneity impedes the aggregation of scattered knowledge. Recent studies have tackled the client drift issue by identifying significant divergence in the last classifier layer. To mitigate this divergence, strategies such as freezing the classifier weights and aligning the feature extractor accordingly have proven effective. Although the local alignment between classifier and feature extractor has been studied as a crucial factor in FL, we observe that it may lead the model to overemphasize the observed classes within each client. Thus, our objectives are twofold: (1) enhancing local alignment while (2) preserving the representation of unseen class samples. This approach aims to effectively integrate knowledge from individual clients, thereby improving performance for both global and personalized FL. To achieve this, we introduce a novel algorithm named FedDr+, which empowers local model alignment using dot-regression loss. FedDr+ freezes the classifier as a simplex ETF to align the features and improves aggregated global models by employing a feature distillation mechanism to retain information about unseen/missing classes. Consequently, we provide empirical evidence demonstrating that our algorithm surpasses existing methods that use a frozen classifier to boost alignment across the diverse distribution.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 言語モデルは難解な算術的タスクを容易かつ難解に行う

Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks ( http://arxiv.org/abs/2406.02356v1 )

ライセンス: Link先を確認
Andrew Gambardella, Yusuke Iwasawa, Yutaka Matsuo, (参考訳) 算術的なタスクを実行する大きな言語モデル(LLM)の能力(および機能不全)は、理論的および実践的な議論の対象となっている。 LLMは、複雑な処理を必要とするにもかかわらず、思考推論の連鎖を使わずに、m桁乗算タスクによってn桁の最初の桁を正しくかつ確実に予測できることがよく示される。 同時に、実際にLLMはm桁の乗算によってn桁の最後の桁を正しくまたは確実に予測することができず、1桁の乗算で1桁に相当するタスクを学習または記憶しやすくする。 その結果,Llama 2-13B を 230% (0.13 から 0.43 ) 以上,Mistral-7B を 150% (0.22 から 0.55 ) 以上とすることで,LLM が 5 桁の最終桁の信頼度を平均5桁に高めれば,後者のタスクはより堅牢に解決できることを示した。

The ability (and inability) of large language models (LLMs) to perform arithmetic tasks has been the subject of much theoretical and practical debate. We show that LLMs are frequently able to correctly and confidently predict the first digit of n-digit by m-digit multiplication tasks without using chain of thought reasoning, despite these tasks require compounding operations to solve. Simultaneously, LLMs in practice often fail to correctly or confidently predict the last digit of an n-digit by m-digit multiplication, a task equivalent to 1-digit by 1-digit multiplication which can be easily learned or memorized. We show that the latter task can be solved more robustly when the LLM is conditioned on all of the correct higher-order digits, which on average increases the confidence of the correct last digit on 5-digit by 5-digit multiplication tasks using Llama 2-13B by over 230% (0.13 to 0.43) and Mistral-7B by 150% (0.22 to 0.55).
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 不完全情報ゲームにおける近似(粗相関平衡の複雑さ

The complexity of approximate (coarse) correlated equilibrium for incomplete information games ( http://arxiv.org/abs/2406.02357v1 )

ライセンス: Link先を確認
Binghui Peng, Aviad Rubinstein, (参考訳) 不完全情報ゲームにおける近似平衡の分散学習の繰り返し複雑性について検討する。 負の面において、$\mathit{extensive}$-$\mathit{form}$$\mathit{games}$,suming $\mathsf{PPAD} \not\subset \mathsf{TIME}(n^{\mathsf{polylog}(n)})$, any polynomial-time learning algorithm must take least $2^{\log_2^{1-o(1)}(|\mathcal{I}|)} $|\mathcal{I}|$$$$$$\epsilon$-approximate correlation equilibrium, ここで、$|\mathcal{I}|$$はゲームのノードの数であり、$$\epsilon>0はゲーム内のノードの数である。 これは、$o(1)$の項までほぼ一致し、$\epsilon$-approximate correlation equilibrium を学ぶための [PR'24, DDFG'24] アルゴリズムが、アナグノステイド、カラバシス、サンドホルム、ザンペタキスの開問題(AKSZ'24)を解決する。 我々の下界は、より簡単な解の概念である $\epsilon$-approximate $\mathit{coarse}$ correlation equilibrium に対してさえ成り立つが、正の面では、型の数に依存することなく、$$\epsilon$-approximate correlation equilibria of a $\mathit{Bayesian}$ $\mathit{game}$$ のような非結合な力学を与える。 これはベイズゲームとワイドフォームゲームとの分離を示す。

We study the iteration complexity of decentralized learning of approximate correlated equilibria in incomplete information games. On the negative side, we prove that in $\mathit{extensive}$-$\mathit{form}$ $\mathit{games}$, assuming $\mathsf{PPAD} \not\subset \mathsf{TIME}(n^{\mathsf{polylog}(n)})$, any polynomial-time learning algorithms must take at least $2^{\log_2^{1-o(1)}(|\mathcal{I}|)}$ iterations to converge to the set of $\epsilon$-approximate correlated equilibrium, where $|\mathcal{I}|$ is the number of nodes in the game and $\epsilon > 0$ is an absolute constant. This nearly matches, up to the $o(1)$ term, the algorithms of [PR'24, DDFG'24] for learning $\epsilon$-approximate correlated equilibrium, and resolves an open question of Anagnostides, Kalavasis, Sandholm, and Zampetakis [AKSZ'24]. Our lower bound holds even for the easier solution concept of $\epsilon$-approximate $\mathit{coarse}$ correlated equilibrium On the positive side, we give uncoupled dynamics that reach $\epsilon$-approximate correlated equilibria of a $\mathit{Bayesian}$ $\mathit{game}$ in polylogarithmic iterations, without any dependence of the number of types. This demonstrates a separation between Bayesian games and extensive-form games.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 自己教師型学習はモデルフェアネスを改善する

Using Self-supervised Learning Can Improve Model Fairness ( http://arxiv.org/abs/2406.02361v1 )

ライセンス: Link先を確認
Sofia Yfantidou, Dimitris Spathis, Marios Constantinides, Athena Vakali, Daniele Quercia, Fahim Kawsar, (参考訳) 自己教師付き学習(SSL)は、大規模モデルのデファクトトレーニングパラダイムとなり、ドメイン固有のデータとラベルを使用して教師付き微調整が行われる。 教師付きメソッドと同等のパフォーマンスを示すにもかかわらず、SSLが機械学習の公平性(すなわち、異なる人口統計のブレークダウンで同等に実行する)に与える影響を評価する包括的な努力は欠如している。 SSLモデルはより汎用的でバイアスの少ない表現を学習すると仮定し、事前学習と微調整の戦略が公正性に与える影響について検討する。 SSLの公平性評価フレームワークを導入し、データセット要件の定義、事前トレーニング、段階的凍結による微調整、人口統計学的条件による表現類似性の評価、ドメイン固有の評価プロセスの確立の5段階を含む。 実世界の3つの人間中心データセット(MIMIC, MESA, GLOBEM)における本手法の一般化可能性を評価する。 以上の結果から,SSLは教師付き手法と同等の性能を維持しつつ,自己監督による性能低下を最小限に抑えながら,モデルフェアネスを著しく向上させることができることが示唆された。 このような違いは、セグメント間のパフォーマンスの相違が大きい保護属性に対して、モデル全体にわたる最高の層と最悪のパフォーマンスを示す層の間で見いだされる表現の相違に起因する可能性があると仮定する。

Self-supervised learning (SSL) has become the de facto training paradigm of large models, where pre-training is followed by supervised fine-tuning using domain-specific data and labels. Despite demonstrating comparable performance with supervised methods, comprehensive efforts to assess SSL's impact on machine learning fairness (i.e., performing equally on different demographic breakdowns) are lacking. Hypothesizing that SSL models would learn more generic, hence less biased representations, this study explores the impact of pre-training and fine-tuning strategies on fairness. We introduce a fairness assessment framework for SSL, comprising five stages: defining dataset requirements, pre-training, fine-tuning with gradual unfreezing, assessing representation similarity conditioned on demographics, and establishing domain-specific evaluation processes. We evaluate our method's generalizability on three real-world human-centric datasets (i.e., MIMIC, MESA, and GLOBEM) by systematically comparing hundreds of SSL and fine-tuned models on various dimensions spanning from the intermediate representations to appropriate evaluation metrics. Our findings demonstrate that SSL can significantly improve model fairness, while maintaining performance on par with supervised methods-exhibiting up to a 30% increase in fairness with minimal loss in performance through self-supervision. We posit that such differences can be attributed to representation dissimilarities found between the best- and the worst-performing demographics across models-up to x13 greater for protected attributes with larger performance discrepancies between segments.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# Expander Graphsを用いたテンポラルグラフのリライト

Temporal Graph Rewiring with Expander Graphs ( http://arxiv.org/abs/2406.02362v1 )

ライセンス: Link先を確認
Katarina Petrović, Shenyang Huang, Farimah Poursafaei, Petar Veličković, (参考訳) 実世界のネットワークにおける進化関係は、しばしば時間グラフによってモデル化される。 グラフニューラルネットワーク(GNN)では,表現性の向上とモデル性能の向上のためにグラフ再配線技術が利用されている。 本研究では,時間グラフ上でのグラフリウィリングの最初のアプローチである時間グラフリウィリング(TGR)を提案する。 TGRは,遠隔ノード間のメッセージパッシングのためのメッセージパッシングハイウェイを構築するために,拡張グラフの伝搬を利用して,時間的に離れたノード間の通信を可能にする。 エクスパンダーグラフは、GNNでよく見られる過度な問題を克服するのに役立つため、再配線に適した候補である。 tgbl-wikiベンチマークでは、TGRが広く使われているTGNモデルの性能を大幅に向上することを示した。 コードリポジトリはhttps://anonymous.4open.science/r/TGR-254Cでアクセスできます。

Evolving relations in real-world networks are often modelled by temporal graphs. Graph rewiring techniques have been utilised on Graph Neural Networks (GNNs) to improve expressiveness and increase model performance. In this work, we propose Temporal Graph Rewiring (TGR), the first approach for graph rewiring on temporal graphs. TGR enables communication between temporally distant nodes in a continuous time dynamic graph by utilising expander graph propagation to construct a message passing highway for message passing between distant nodes. Expander graphs are suitable candidates for rewiring as they help overcome the oversquashing problem often observed in GNNs. On the public tgbl-wiki benchmark, we show that TGR improves the performance of a widely used TGN model by a significant margin. Our code repository is accessible at https://anonymous.4open.science/r/TGR-254C.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# NeMoの発見:拡散モデルにおける記憶に応答する神経細胞の局在化

Finding NeMo: Localizing Neurons Responsible For Memorization in Diffusion Models ( http://arxiv.org/abs/2406.02366v1 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch, (参考訳) 拡散モデル(DM)は非常に詳細で高品質な画像を生成する。 彼らのパワーは、大量のデータを広範囲にトレーニングすることによるものであり、通常はコンテンツ制作者からの適切な帰属や同意なしに、インターネットから取り除かれる。 残念ながら、このプラクティスはプライバシーと知的財産権の懸念を高め、DMは推論時に潜在的に機密性のある、あるいは著作権のあるトレーニングイメージを記憶し、後に再生することができる。 従来の取り組みでは、拡散プロセスへの入力を変更して、DMが推論中に記憶されたサンプルを生成するのを防いだり、記憶されたデータを完全にトレーニングから取り除いたりすることで、この問題を防止する。 DMが開発され、常に監視された環境に展開される場合、これらは有効な解決策であるが、安全対策を回避する敵のリスクを保持し、DM自体が公開されても効果がない。 この問題を解決するために,我々は,個々のデータサンプルの記憶を,DMのクロスアテンション層におけるニューロンのレベルまでローカライズする最初の方法であるNeMoを紹介する。 実験を通して、多くの場合において、単一ニューロンが特定のトレーニングサンプルを記憶する役割を担っていることを興味深いものにしています。 これらの記憶ニューロンを非活性化することにより、推論時のトレーニングデータの複製を回避し、生成した出力の多様性を高め、プライベートおよび著作権データの漏洩を軽減することができる。 このように、NeMoはDMのより責任ある展開に貢献します。

Diffusion models (DMs) produce very detailed and high-quality images. Their power results from extensive training on large amounts of data, usually scraped from the internet without proper attribution or consent from content creators. Unfortunately, this practice raises privacy and intellectual property concerns, as DMs can memorize and later reproduce their potentially sensitive or copyrighted training images at inference time. Prior efforts prevent this issue by either changing the input to the diffusion process, thereby preventing the DM from generating memorized samples during inference, or removing the memorized data from training altogether. While those are viable solutions when the DM is developed and deployed in a secure and constantly monitored environment, they hold the risk of adversaries circumventing the safeguards and are not effective when the DM itself is publicly released. To solve the problem, we introduce NeMo, the first method to localize memorization of individual data samples down to the level of neurons in DMs' cross-attention layers. Through our experiments, we make the intriguing finding that in many cases, single neurons are responsible for memorizing particular training samples. By deactivating these memorization neurons, we can avoid the replication of training data at inference time, increase the diversity in the generated outputs, and mitigate the leakage of private and copyrighted data. In this way, our NeMo contributes to a more responsible deployment of DMs.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# サンプル効率の良いレコメンダシステムを実現する大規模言語モデル

Large Language Models Make Sample-Efficient Recommender Systems ( http://arxiv.org/abs/2406.02368v1 )

ライセンス: Link先を確認
Jianghao Lin, Xinyi Dai, Rong Shan, Bo Chen, Ruiming Tang, Yong Yu, Weinan Zhang, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な進歩を遂げており、様々なタスクにおいて人間の言語に似たテキストを生成する際、顕著な能力を発揮している。 これにより、レコメンデータシステム(RS)に採用する新たな機会が開かれる。 本稿では, LLM強化レコメンデータシステムのサンプル効率について検討し, 限られたトレーニングデータ量で優れた性能を得るためのモデル能力について検討する。 従来のレコメンデーションモデル(CRM)は、機能やインタラクションの幅が広いため、大量のトレーニングデータを必要とすることが多い。 そこで本稿では,Large Language Models Make Sample-Efficient Recommender Systemsを提案する。 1) LLM自体がサンプル効率の高いレコメンデータであり、(2) LLMは機能ジェネレータやエンコーダとして、CRMをよりサンプリング効率の良いものにする。 2つの公開データセットに対する大規模な実験によると、トレーニングセット全体においてトレーニングされたCRMに適合または超えるために、レーザーはわずかなトレーニングサンプルしか必要とせず、より優れたサンプル効率を示す。

Large language models (LLMs) have achieved remarkable progress in the field of natural language processing (NLP), demonstrating remarkable abilities in producing text that resembles human language for various tasks. This opens up new opportunities for employing them in recommender systems (RSs). In this paper, we specifically examine the sample efficiency of LLM-enhanced recommender systems, which pertains to the model's capacity to attain superior performance with a limited quantity of training data. Conventional recommendation models (CRMs) often need a large amount of training data because of the sparsity of features and interactions. Hence, we propose and verify our core viewpoint: Large Language Models Make Sample-Efficient Recommender Systems. We propose a simple yet effective framework (i.e., Laser) to validate the viewpoint from two aspects: (1) LLMs themselves are sample-efficient recommenders; and (2) LLMs, as feature generators and encoders, make CRMs more sample-efficient. Extensive experiments on two public datasets show that Laser requires only a small fraction of training samples to match or even surpass CRMs that are trained on the entire training set, demonstrating superior sample efficiency.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 圧縮率の高いキー情報の保持:LCM用クエリ誘導圧縮機

Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs ( http://arxiv.org/abs/2406.02376v1 )

ライセンス: Link先を確認
Zhiwei Cao, Qian Cao, Yu Lu, Ningxin Peng, Luyang Huang, Shanbo Cheng, Jinsong Su, (参考訳) 大規模言語モデルの人気が高まり、LLM(Large Language Models)のコンテキスト圧縮への関心が高まった。 しかし、圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。 この減少は、圧縮プロセス中にキー情報が失われることに起因する。 本研究は, 高圧縮比下でのモデル性能を維持するために重要な情報を保持することの重要性を強調し, この仮説を支持する。 その結果,QGC (Query-Guided Compressor) を導入し,クエリを利用してコンテキスト圧縮プロセスのガイドを行い,圧縮されたコンテキスト内のキー情報を効果的に保存する。 さらに、動的圧縮戦略を採用する。 提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。 実験結果から,QGCは高い圧縮比でも一貫した性能を示し,推算コストとスループットの面でも有益であることがわかった。

The growing popularity of Large Language Models has sparked interest in context compression for Large Language Models (LLMs). However, the performance of previous methods degrades dramatically as compression ratios increase, sometimes even falling to the closed-book level. This decline can be attributed to the loss of key information during the compression process. Our preliminary study supports this hypothesis, emphasizing the significance of retaining key information to maintain model performance under high compression ratios. As a result, we introduce Query-Guided Compressor (QGC), which leverages queries to guide the context compression process, effectively preserving key information within the compressed context. Additionally, we employ a dynamic compression strategy. We validate the effectiveness of our proposed QGC on the Question Answering task, including NaturalQuestions, TriviaQA, and HotpotQA datasets. Experimental results show that QGC can consistently perform well even at high compression ratios, which also offers significant benefits in terms of inference cost and throughput.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# XRec: 説明可能な推奨のための大規模言語モデル

XRec: Large Language Models for Explainable Recommendation ( http://arxiv.org/abs/2406.02377v1 )

ライセンス: Link先を確認
Qiyao Ma, Xubin Ren, Chao Huang, (参考訳) リコメンダシステムは、ユーザが好みに合わせてパーソナライズされたレコメンデーションを提供することによって、情報の過負荷をナビゲートするのに役立つ。 協調フィルタリング(CF)は広く採用されているアプローチであるが、グラフニューラルネットワーク(GNN)や自己教師付き学習(SSL)といった高度な技術は、より良いユーザ表現のためにCFモデルを拡張しているが、推奨項目の説明を提供する能力に欠けることが多い。 説明可能なレコメンデーションは、レコメンデーション決定プロセスに対する透明性と洞察を提供することで、ユーザの理解を深めることによって、このギャップに対処することを目的としている。 この作業は、LLM(Large Language Models)の言語機能を活用して、説明可能なレコメンデータシステムのバウンダリを押し上げる。 我々は、LLMがレコメンデーションシステムにおけるユーザの振る舞いを包括的に説明できるXRecというモデルに依存しないフレームワークを紹介した。 協調的な信号の統合と軽量な協調的適応器の設計により、このフレームワークはLLMにユーザとイテムのインタラクションにおける複雑なパターンを理解し、ユーザの好みをより深く理解する権限を与える。 我々はXRecの有効性を実証し、説明可能なレコメンデーションシステムにおけるベースラインアプローチよりも優れた、包括的で意味のある説明を生成する能力を示した。 私たちはモデル実装をhttps://github.com/HKUDS/XRec.comでオープンソース化しました。

Recommender systems help users navigate information overload by providing personalized recommendations aligned with their preferences. Collaborative Filtering (CF) is a widely adopted approach, but while advanced techniques like graph neural networks (GNNs) and self-supervised learning (SSL) have enhanced CF models for better user representations, they often lack the ability to provide explanations for the recommended items. Explainable recommendations aim to address this gap by offering transparency and insights into the recommendation decision-making process, enhancing users' understanding. This work leverages the language capabilities of Large Language Models (LLMs) to push the boundaries of explainable recommender systems. We introduce a model-agnostic framework called XRec, which enables LLMs to provide comprehensive explanations for user behaviors in recommender systems. By integrating collaborative signals and designing a lightweight collaborative adaptor, the framework empowers LLMs to understand complex patterns in user-item interactions and gain a deeper understanding of user preferences. Our extensive experiments demonstrate the effectiveness of XRec, showcasing its ability to generate comprehensive and meaningful explanations that outperform baseline approaches in explainable recommender systems. We open-source our model implementation at https://github.com/HKUDS/XRec.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# LLMの固有の自己補正能力について:不確かさと潜在概念

On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept ( http://arxiv.org/abs/2406.02378v1 )

ライセンス: Link先を確認
Guangliang Liu, Haitao Mao, Bochuan Cao, Zhiyu Xue, Kristen Johnson, Jiliang Tang, Rongrong Wang, (参考訳) 大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。 これらの命令が応答における問題の具体的な詳細を欠いている場合、本質的な自己補正能力を活用することと呼ばれる。 自己補正の実証的な成功は、例えば、テキストのデトックス化や社会的偏見緩和など、様々な応用で見られる。 しかし、この自己補正能力を活用することは必ずしも効果的ではないかもしれない。 本稿では,自己補正能力の活用がいかに,なぜ有効かを理解するために努力する。 適切な命令によってLCMを収束状態に導くことができ、追加の自己補正ステップではさらなる性能向上は得られない。 モデル不確かさと活性化潜在概念が協調して自己補正の有効性を実証した。 さらに,活性化潜在概念がモデルの不確実性と自己補正性能の収束を促進することを示す数学的定式化を提案する。 我々の分析は、視覚言語モデル(VLM)で観察される自己補正行動にも一般化することができる。 さらに,タスク非依存のデバイアスは,効果的な微調整サンプルの選択という観点から,私たちの原則の恩恵を受けることができることを強調した。 このような初期の成功は、より良い命令チューニングと安全性アライメントのための潜在的な拡張性を示している。

Large Language Models (LLMs) can improve their responses when instructed to do so, a capability known as self-correction. When these instructions lack specific details about the issues in the response, this is referred to as leveraging the intrinsic self-correction capability. The empirical success of self-correction can be found in various applications, e.g., text detoxification and social bias mitigation. However, leveraging this self-correction capability may not always be effective, as it has the potential to revise an initially correct response into an incorrect one. In this paper, we endeavor to understand how and why leveraging the self-correction capability is effective. We identify that appropriate instructions can guide LLMs to a convergence state, wherein additional self-correction steps do not yield further performance improvements. We empirically demonstrate that model uncertainty and activated latent concepts jointly characterize the effectiveness of self-correction. Furthermore, we provide a mathematical formulation indicating that the activated latent concept drives the convergence of the model uncertainty and self-correction performance. Our analysis can also be generalized to the self-correction behaviors observed in Vision-Language Models (VLMs). Moreover, we highlight that task-agnostic debiasing can benefit from our principle in terms of selecting effective fine-tuning samples. Such initial success demonstrates the potential extensibility for better instruction tuning and safety alignment.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 絡み合いは量子シミュレーションを加速させる

Entanglement accelerates quantum simulation ( http://arxiv.org/abs/2406.02379v1 )

ライセンス: Link先を確認
Qi Zhao, You Zhou, Andrew M. Childs, (参考訳) 量子絡み合い(quantum entanglement)は、量子情報処理と基礎物理学の両方に影響を及ぼす多体系の重要な特徴である。 絡み合いの増大は古典的なシミュレーション手法の大きな課題である。 本研究は, 量子エンタングルメントと量子シミュレーションの関係について検討し, 積形式近似が絡み合ったシステムに対してより良い性能を示すことを示す。 エンタングルメントエントロピーの観点からアルゴリズムエラーに対するより厳密な上限を確立するとともに,測定装置を組み込んだ適応シミュレーションアルゴリズムを開発し,アルゴリズムエラーを推定する。 このことは、絡み合いは古典的なシミュレーションの障害であるだけでなく、量子アルゴリズムを加速できる特徴でもあることを示している。

Quantum entanglement is an essential feature of many-body systems that impacts both quantum information processing and fundamental physics. The growth of entanglement is a major challenge for classical simulation methods. In this work, we investigate the relationship between quantum entanglement and quantum simulation, showing that product-formula approximations can perform better for entangled systems. We establish a tighter upper bound for algorithmic error in terms of entanglement entropy and develop an adaptive simulation algorithm incorporating measurement gadgets to estimate the algorithmic error. This shows that entanglement is not only an obstacle to classical simulation, but also a feature that can accelerate quantum algorithms.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# EUFCC-340K:GLAMコレクションにおけるメタデータアノテーションのための階層的データセット

EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections ( http://arxiv.org/abs/2406.02380v1 )

ライセンス: Link先を確認
Francesc Net, Marc Folia, Pep Casals, Andrew D. Bagdanov, Lluis Gomez, (参考訳) 本稿では,欧州のポータルから収集した新たなデータセットであるEUFCC340Kを導入することで,ギャラリー,図書館,アーカイブ,博物館(GLAM)のドメインにおけるメタデータの自動アノテーションの課題に対処する。 このデータセットは、Art & Architecture Thesaurus (AAT)に基づく階層構造に従って、マテリアル、オブジェクトタイプ、ディシプリエンス、サブジェクトという複数の領域にまたがって構成されている。 我々は複数のベースラインモデルを開発し、複数のヘッドをConvNeXTバックボーンに組み込んで、これらのファセットに複数ラベルのイメージタグを付け、画像テキストペアでCLIPモデルを微調整した。 2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力を評価する実験は、文化遺産分野におけるカタログ化タスクを緩和する可能性を持つ多ラベル分類ツールの改善におけるデータセットの有用性を実証するものである。

In this paper, we address the challenges of automatic metadata annotation in the domain of Galleries, Libraries, Archives, and Museums (GLAMs) by introducing a novel dataset, EUFCC340K, collected from the Europeana portal. Comprising over 340,000 images, the EUFCC340K dataset is organized across multiple facets: Materials, Object Types, Disciplines, and Subjects, following a hierarchical structure based on the Art & Architecture Thesaurus (AAT). We developed several baseline models, incorporating multiple heads on a ConvNeXT backbone for multi-label image tagging on these facets, and fine-tuning a CLIP model with our image text pairs. Our experiments to evaluate model robustness and generalization capabilities in two different test scenarios demonstrate the utility of the dataset in improving multi-label classification tools that have the potential to alleviate cataloging tasks in the cultural heritage sector.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# キリガミ:大きな畳み込み核は深層学習に基づくRNA二次構造予測を改善する

Kirigami: large convolutional kernels improve deep learning-based RNA secondary structure prediction ( http://arxiv.org/abs/2406.02381v1 )

ライセンス: Link先を確認
Marc Harary, Chengxin Zhang, Anna Marie Pyle, (参考訳) 我々は,リボ核酸(RNA)分子の二次構造を予測するために,新しい完全畳み込みニューラルネットワーク(FCN)アーキテクチャを導入する。 RNA構造を重み付きグラフとして解釈し、ヌクレオチド残基間の塩基対の確率を推定するためにディープラーニングを用いる。 我々のモデルに共通するのは11ピクセルの巨大なカーネルであり、RNA二次構造の特殊領域におけるFCNの明確な優位性である。 広く採用されている1,305分子からなる標準化されたテストセットにおいて,本手法の精度は現在の最先端(SOTA)二次構造予測ソフトウェアよりも高く,マシューズ相関係数(MCC)が他の先行手法よりも11~40%高く,特に擬似結び目では58~400%高い値を示した。

We introduce a novel fully convolutional neural network (FCN) architecture for predicting the secondary structure of ribonucleic acid (RNA) molecules. Interpreting RNA structures as weighted graphs, we employ deep learning to estimate the probability of base pairing between nucleotide residues. Unique to our model are its massive 11-pixel kernels, which we argue provide a distinct advantage for FCNs on the specialized domain of RNA secondary structures. On a widely adopted, standardized test set comprised of 1,305 molecules, the accuracy of our method exceeds that of current state-of-the-art (SOTA) secondary structure prediction software, achieving a Matthews Correlation Coefficient (MCC) over 11-40% higher than that of other leading methods on overall structures and 58-400% higher on pseudoknots specifically.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# 自己スーパービジョンでビジュアルプログラムを編集する学習

Learning to Edit Visual Programs with Self-Supervision ( http://arxiv.org/abs/2406.02383v1 )

ライセンス: Link先を確認
R. Kenny Jones, Renhao Zhang, Aditya Ganeshan, Daniel Ritchie, (参考訳) 視覚プログラムの編集方法を学ぶシステムを設計する。 編集ネットワークは、完全な入力プログラムと視覚的ターゲットを消費する。 この入力から,入力プログラムに適用可能なローカル編集操作の予測を行い,ターゲットとの類似性を向上する。 プログラムアノテーションを欠いたドメインにこのスキームを適用するために、この編集ネットワークをブートストラップされた微調整ループに統合する自己教師付き学習アプローチと、プログラム全体を一括で予測するネットワークを開発する。 我々の共同ファインタニング手法は、1ショットモデルから個体群を初期化し、その個体群を編集ネットワークで進化させる推論手法と組み合わせることで、より正確な視覚プログラムを推論するのに役立つ。 複数のドメインにおいて、1ショットモデルのみを使用する方法と実験的に比較し、同じ検索時間予算下であっても、編集ベースのパラダイムが大きな利点をもたらすことを発見した。

We design a system that learns how to edit visual programs. Our edit network consumes a complete input program and a visual target. From this input, we task our network with predicting a local edit operation that could be applied to the input program to improve its similarity to the target. In order to apply this scheme for domains that lack program annotations, we develop a self-supervised learning approach that integrates this edit network into a bootstrapped finetuning loop along with a network that predicts entire programs in one-shot. Our joint finetuning scheme, when coupled with an inference procedure that initializes a population from the one-shot model and evolves members of this population with the edit network, helps to infer more accurate visual programs. Over multiple domains, we experimentally compare our method against the alternative of using only the one-shot model, and find that even under equal search-time budgets, our editing-based paradigm provides significant advantages.
翻訳日:2024-06-05 15:50:54 公開日:2024-06-04
# リモートセンシング画像の衛星搭載処理のためのトランスフォーマーを用いたオブジェクト指向物体検出器の低域適応

Low-Rank Adaption on Transformer-based Oriented Object Detector for Satellite Onboard Processing of Remote Sensing Images ( http://arxiv.org/abs/2406.02385v1 )

ライセンス: Link先を確認
Xinyang Pu, Feng Xu, (参考訳) 衛星搭載の深層学習モデルは、リモートセンシング画像のリアルタイム解釈を可能にし、地上へのデータ送信の必要性を低減し、通信資源を保存する。 衛星番号と観測周波数が増加するにつれて、衛星搭載画像のリアルタイム解釈への需要が増大し、この技術の重要性と発展が強調される。 しかし、無線衛星通信におけるアップリンク帯域幅の制限のため、衛星に展開する対象物検出モデルに対する広範囲なパラメータの更新は困難である。 そこで本研究では,ローランク適応 (LoRA) モジュールを用いたパラメータ効率の高い微調整技術を提案する。 低ランク行列パラメータをトレーニングし、乗算と和を通じて元のモデルの重み行列と統合することにより、最小の重み更新で新しいデータ分布に適応するようにモデルパラメータを微調整する。 提案手法は、オブジェクト指向物体検出アルゴリズムアーキテクチャのパラメータ更新戦略において、パラメータ効率の良い微調整と完全な微調整を組み合わせる。 この戦略により、最小限のパラメータ更新で完全な微調整効果に近いモデルパフォーマンスの改善が可能になる。 さらに、ロラ行列の最適ランク値を選択するために、低階近似を行う。 大規模実験により提案手法の有効性が検証された。 モデルの全パラメータの12.4$\%$のみを微調整し、更新することで、完全な微調整モデルの性能の97$\%$から100$\%$に到達できる。 さらに、トレーニング可能なパラメータの削減はモデルのトレーニングイテレーションを加速させ、オブジェクト指向オブジェクト検出モデルの一般化と堅牢性を高める。 ソースコードは: \url{https://github.com/fudanxu/LoRA-Det}.comで入手できる。

Deep learning models in satellite onboard enable real-time interpretation of remote sensing images, reducing the need for data transmission to the ground and conserving communication resources. As satellite numbers and observation frequencies increase, the demand for satellite onboard real-time image interpretation grows, highlighting the expanding importance and development of this technology. However, updating the extensive parameters of models deployed on the satellites for spaceborne object detection model is challenging due to the limitations of uplink bandwidth in wireless satellite communications. To address this issue, this paper proposes a method based on parameter-efficient fine-tuning technology with low-rank adaptation (LoRA) module. It involves training low-rank matrix parameters and integrating them with the original model's weight matrix through multiplication and summation, thereby fine-tuning the model parameters to adapt to new data distributions with minimal weight updates. The proposed method combines parameter-efficient fine-tuning with full fine-tuning in the parameter update strategy of the oriented object detection algorithm architecture. This strategy enables model performance improvements close to full fine-tuning effects with minimal parameter updates. In addition, low rank approximation is conducted to pick an optimal rank value for LoRA matrices. Extensive experiments verify the effectiveness of the proposed method. By fine-tuning and updating only 12.4$\%$ of the model's total parameters, it is able to achieve 97$\%$ to 100$\%$ of the performance of full fine-tuning models. Additionally, the reduced number of trainable parameters accelerates model training iterations and enhances the generalization and robustness of the oriented object detection model. The source code is available at: \url{https://github.com/fudanxu/LoRA-Det}.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# モニタリングされた単一粒子動力学における多フラクタル性

Multifractality in monitored single-particle dynamics ( http://arxiv.org/abs/2406.02386v1 )

ライセンス: Link先を確認
Kohei Yajima, Hisanori Oshima, Ken Mochizuki, Yohei Fuji, (参考訳) 繰り返し測定した単一粒子の時間発展におけるマルチフラクタル特性について検討した。 量子系では、局所的なユニタリゲートと局所射影測定からなる回路モデルを考える。 古典系では,局所遷移過程下で発達した粒子の軌道を部分的に測定することで推定するモデルを考える。 どちらの場合も、波動関数のアンサンブルや、十分に長い時間経過後に測定結果に条件付けられた確率分布にマルチフラクタルな挙動が現れる。 粒子輸送の性質(拡散性または弾道性)は、多フラクタル特性に質的に影響を及ぼすが、測定速度や特定のプロトコルに対してさえ定量的に堅牢である。 一方、多フラクタル性は、誤った結果が得られるような一般化された測定や、粒子検出のない結果のポストセレクションによって一般的に失われる。 数値シミュレーションによりこれらの特性を実証し、また、監視された単一粒子系における多重フラクタル特性を解析的に得るために、いくつかの単純化されたモデルを提案する。

We study multifractal properties in time evolution of a single particle subject to repeated measurements. For quantum systems, we consider circuit models consisting of local unitary gates and local projective measurements. For classical systems, we consider models for estimating the trajectory of a particle evolved under local transition processes by partially measuring particle occupations. In both cases, multifractal behaviors appear in the ensemble of wave functions or probability distributions conditioned on measurement outcomes after a sufficiently long time. While the nature of particle transport (diffusive or ballistic) qualitatively affects the multifractal properties, they are even quantitatively robust to the measurement rate or specific protocols. On the other hand, multifractality is generically lost by generalized measurements allowing erroneous outcomes or by postselection of the outcomes with no particle detection. We demonstrate these properties by numerical simulations and also propose several simplified models, which allow us to analytically obtain multifractal properties in the monitored single-particle systems.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 分子トウィーザアレイにおける消去変換の実証

Demonstration of Erasure Conversion in a Molecular Tweezer Array ( http://arxiv.org/abs/2406.02391v1 )

ライセンス: Link先を確認
Connor M. Holland, Yukai Lu, Samuel J. Li, Callum L. Welsh, Lawrence W. Cheuk, (参考訳) プログラム可能な分子のツイーザーアレイは、量子シミュレーションと量子情報科学のための新興プラットフォームである。 これらのアプリケーションにとって、初期状態の準備とその後の進化の間に発生するエラーの低減と軽減は大きな課題である。 本稿では, 内部状態の誤りと量子消去を, 既知位置の量子ビット誤差として検出する手法を提案する。 まず、新しいサイト解決検出手法を用いて、ロバストで拡張されたツイーザーアレイ作成特性を実証する。 これにより、低い欠陥率で分子配列を作成することができ、量子多体系の高忠実度シミュレーションへの扉を開くことができる。 第二に、分子において初めて、エラーのない量子ビットに最小限に影響を及ぼす複合検出方式を用いて、消去の中間回路検出を実演する。 また,ブラックボディによるエラーを検出可能な消去に変換した。 フォールトトレラントな量子誤り訂正のオーバーヘッドを大幅に低減することが示されている消去変換の実証は、分子トウィーザーアレイの量子情報処理に有用である。

Programmable optical tweezer arrays of molecules are an emerging platform for quantum simulation and quantum information science. For these applications, reducing and mitigating errors that arise during initial state preparation and subsequent evolution remain major challenges. In this paper, we present work on site-resolved detection of internal state errors and quantum erasures, which are qubit errors with known locations. First, using a new site-resolved detection scheme, we demonstrate robust and enhanced tweezer array preparation fidelities. This enables creating molecular arrays with low defect rates, opening the door to high-fidelity simulation of quantum many-body systems. Second, for the first time in molecules, we demonstrate mid-circuit detection of erasures using a composite detection scheme that minimally affects error-free qubits. We also demonstrate mid-circuit conversion of blackbody-induced errors into detectable erasures. Our demonstration of erasure conversion, which has been shown to significantly reduce overheads for fault-tolerant quantum error correction, could be useful for quantum information processing in molecular tweezer arrays.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 複数の選択質問と大規模言語モデル: 医療データを用いたケーススタディ

Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data ( http://arxiv.org/abs/2406.02394v1 )

ライセンス: Link先を確認
Maxime Griot, Jean Vanderdonckt, Demet Yuksel, Coralie Hemptinne, (参考訳) ChatGPTのような大規模言語モデル(LLM)は医療分野において有意義な可能性を示しており、USMLEと同様のマルチチョイス質問(MCQ)を用いてしばしば評価される。 医学教育が盛んであるにもかかわらず、MCQはLSMを評価する際にさらに悪化する可能性がある。 LLMの性能評価におけるMCQsの有効性を評価するために,Glianorexという非存在腺に焦点を当てた架空の医療ベンチマークを開発した。 このアプローチにより、LSMの知識を試験能力から切り離すことができました。 我々はGPT-4を用いて、英語とフランス語のGlianorexに関する総合的な教科書を作成し、両方の言語で対応する複数選択質問を開発した。 我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。 モデルの平均スコアは約67%で、大型モデルと小型モデルではパフォーマンスが小さかった。 パフォーマンスはフランス語よりも英語の方が若干高かった。 微調整された医療モデルは、基本版を英語で改善したが、フランス語では改善されなかった。 モデル間の均一なハイパフォーマンスは、従来のMCQベースのベンチマークがLSMの臨床的知識と推論能力を正確に測定せず、その代わりにパターン認識スキルを強調していることを示唆している。 本研究は,医学的文脈におけるLLMの真の能力を評価するために,より堅牢な評価方法の必要性を指摘する。

Large Language Models (LLMs) like ChatGPT demonstrate significant potential in the medical field, often evaluated using multiple-choice questions (MCQs) similar to those found on the USMLE. Despite their prevalence in medical education, MCQs have limitations that might be exacerbated when assessing LLMs. To evaluate the effectiveness of MCQs in assessing the performance of LLMs, we developed a fictional medical benchmark focused on a non-existent gland, the Glianorex. This approach allowed us to isolate the knowledge of the LLM from its test-taking abilities. We used GPT-4 to generate a comprehensive textbook on the Glianorex in both English and French and developed corresponding multiple-choice questions in both languages. We evaluated various open-source, proprietary, and domain-specific LLMs using these questions in a zero-shot setting. The models achieved average scores around 67%, with minor performance differences between larger and smaller models. Performance was slightly higher in English than in French. Fine-tuned medical models showed some improvement over their base versions in English but not in French. The uniformly high performance across models suggests that traditional MCQ-based benchmarks may not accurately measure LLMs' clinical knowledge and reasoning abilities, instead highlighting their pattern recognition skills. This study underscores the need for more robust evaluation methods to better assess the true capabilities of LLMs in medical contexts.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# GrootVL: ツリートポロジはステートスペースモデルに必要なもの

GrootVL: Tree Topology is All You Need in State Space Model ( http://arxiv.org/abs/2406.02395v1 )

ライセンス: Link先を確認
Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan, (参考訳) 状態空間モデルは再帰的に伝播する特徴を利用し、トランスフォーマーモデルに匹敵する強力な表現能力と優れた効率を示す。 しかし、列の固有の幾何学的制約に制約されているため、長距離依存のモデリングでは依然として不足している。 この問題に対処するために,まず空間的関係と入力特徴に基づいて木トポロジを動的に生成するGrootVLネットワークを提案する。 そして、このグラフに基づいて特徴伝搬を行い、元のシーケンス制約を破り、より強力な表現能力を達成する。 さらに,計算コストを増大させることなく,長距離相互作用を向上させる線形複雑性動的プログラミングアルゴリズムを導入する。 GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。 本手法は,画像分類,物体検出,セグメンテーションにおいて,既存の状態空間モデルよりも大幅に優れていることを示す。 さらに,大規模言語モデルの微調整により,学習コストの少ない複数のテキストタスクにおいて,一貫した改善が達成される。

The state space models, employing recursively propagated features, demonstrate strong representation capabilities comparable to Transformer models and superior efficiency. However, constrained by the inherent geometric constraints of sequences, it still falls short in modeling long-range dependencies. To address this issue, we propose the GrootVL network, which first dynamically generates a tree topology based on spatial relationships and input features. Then, feature propagation is performed based on this graph, thereby breaking the original sequence constraints to achieve stronger representation capabilities. Additionally, we introduce a linear complexity dynamic programming algorithm to enhance long-range interactions without increasing computational cost. GrootVL is a versatile multimodal framework that can be applied to both visual and textual tasks. Extensive experiments demonstrate that our method significantly outperforms existing structured state space models on image classification, object detection and segmentation. Besides, by fine-tuning large language models, our approach achieves consistent improvements in multiple textual tasks at minor training cost.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# スカンジナビア語埋め込みベンチマーク:多言語および単言語テキスト埋め込みの包括的評価

The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding ( http://arxiv.org/abs/2406.02396v1 )

ライセンス: Link先を確認
Kenneth Enevoldsen, Márton Kardos, Niklas Muennighoff, Kristoffer Laigaard Nielbo, (参考訳) 英語のテキスト埋め込みの評価は、少数のデータセットの評価から、MTEBなどのベンチマークを通じて、多くのタスクにまたがる広範なカバレッジへと移行してきた。 しかし、利用可能なベンチマークが不足しているため、多言語テキストの埋め込みではそうではない。 この問題に対処するため,Scandinavian Embedding Benchmark (SEB)を導入する。 SEBは、スカンジナビア語のテキスト埋め込み評価を24のタスク、10のサブタスク、4のタスクカテゴリで可能にする包括的なフレームワークである。 SEBに基づいて26モデル以上のモデルを評価し,これまでMTEBが取得していなかった公開ソリューションと商用ソリューションの大幅な性能格差を明らかにした。 我々はSEBをオープンソースにしてMTEBと統合し、スカンジナビア語のテキスト埋め込み評価のギャップを埋める。

The evaluation of English text embeddings has transitioned from evaluating a handful of datasets to broad coverage across many tasks through benchmarks such as MTEB. However, this is not the case for multilingual text embeddings due to a lack of available benchmarks. To address this problem, we introduce the Scandinavian Embedding Benchmark (SEB). SEB is a comprehensive framework that enables text embedding evaluation for Scandinavian languages across 24 tasks, 10 subtasks, and 4 task categories. Building on SEB, we evaluate more than 26 models, uncovering significant performance disparities between public and commercial solutions not previously captured by MTEB. We open-source SEB and integrate it with MTEB, thus bridging the text embedding evaluation gap for Scandinavian languages.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# MOTIF: Fuzzingを使った突然変異テストツール

MOTIF: A tool for Mutation Testing with Fuzzing ( http://arxiv.org/abs/2406.02398v1 )

ライセンス: Link先を確認
Jaekwon Lee, Enrico Viganò, Fabrizio Pastore, Lionel Briand, (参考訳) 突然変異テストは、元のテストスイートではできなかったソフトウェア(生成変異体)に注入された欠陥を検出するテストケースを生成することで構成される。 このような拡張されたテストケースを実行することで、元のテストスイートに気付かれなかった実際の障害を見つけることができる。 したがって、安全クリティカルなサイバー物理システム(CPS)で動作する組み込みソフトウェアには望ましいプラクティスである。 残念なことに、CPSソフトウェアの典型的な言語であるCをターゲットにした最先端のツールがシンボル実行に依存している。 MOTIFは、グレーボックスファジィツールを活用して、ミュータント内の注入された欠陥を検出するCの単体テストケースを生成することで、そのような制限を克服する。 実際、ファジィツールは、カバレッジフィードバックによってガイドされたテストの下で、コンパイルされたバージョンのソフトウェアを動作させることで、自動的にインプットを生成するため、シンボリック実行の制限を克服する。 我々の経験的評価は、後者が適用可能な場合、シンボリック実行よりも多くの障害(最大47ポイント)を検出することを示した。

Mutation testing consists of generating test cases that detect faults injected into software (generating mutants) which its original test suite could not. By running such an augmented set of test cases, it may discover actual faults that may have gone unnoticed with the original test suite. It is thus a desired practice for embedded software running in safety-critical cyber-physical systems (CPS). Unfortunately, the state-of-the-art tool targeting C, a typical language for CPS software, relies on symbolic execution, whose limitations often prevent its application. MOTIF overcomes such limitations by leveraging grey-box fuzzing tools to generate unit test cases in C that detect injected faults in mutants. Indeed, fuzzing tools automatically generate inputs by exercising the compiled version of the software under test guided by coverage feedback, thus overcoming the limitations of symbolic execution. Our empirical assessment has shown that it detects more faults than symbolic execution (i.e., up to 47 percentage points), when the latter is applicable.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 生鮮資源のオンラインフェアアロケーション

Online Fair Allocation of Perishable Resources ( http://arxiv.org/abs/2406.02402v1 )

ライセンス: Link先を確認
Siddhartha Banerjee, Chamsi Hssaine, Sean R. Sinclair, (参考訳) 意思決定者は、一定回数のラウンドを割って割り当てることのできるリソースの予算を持っている。 各ラウンドにはランダムな数の到着があり、意思決定者は次のラウンドに進む前に、これらの個人に対してアロケーションをコミットしなければならない。 目標は、うらやましいほど効率的で効率的なアロケーションのシーケンスを構築することです。 我々の研究は2つの重要な貢献をしている: 最初は、決定者は、不要な設定に対して、期待できることに根本的な制限があることを示す最適なエンビー効率トレードオフの強い低い境界を導出し、次に入力$の低い境界を達成するアルゴリズムを設計する。 (i)$の終了順序の予測と$ (ii)うらやみに所望の束縛を課す。 各期間の残りの予算を考えると、アルゴリズムは将来の需要予測を使い、慎重に構築された2つのガードレールのうちの1つを適応的に選択する。 実世界のデータセットにキャリブレーションされたシミュレーションにおいて、我々のアルゴリズムの強い数値性能、そして最先端で、難解なアルゴリズムの非効率性を実証する。

We consider a practically motivated variant of the canonical online fair allocation problem: a decision-maker has a budget of perishable resources to allocate over a fixed number of rounds. Each round sees a random number of arrivals, and the decision-maker must commit to an allocation for these individuals before moving on to the next round. The goal is to construct a sequence of allocations that is envy-free and efficient. Our work makes two important contributions toward this problem: we first derive strong lower bounds on the optimal envy-efficiency trade-off that demonstrate that a decision-maker is fundamentally limited in what she can hope to achieve relative to the no-perishing setting; we then design an algorithm achieving these lower bounds which takes as input $(i)$ a prediction of the perishing order, and $(ii)$ a desired bound on envy. Given the remaining budget in each period, the algorithm uses forecasts of future demand and perishing to adaptively choose one of two carefully constructed guardrail quantities. We demonstrate our algorithm's strong numerical performance - and state-of-the-art, perishing-agnostic algorithms' inefficacy - on simulations calibrated to a real-world dataset.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# スケーラブルなエラー補正イオントラップ量子プロセッサアーキテクチャのための二次元接続の実証

Demonstration of two-dimensional connectivity for a scalable error-corrected ion-trap quantum processor architecture ( http://arxiv.org/abs/2406.02406v1 )

ライセンス: Link先を確認
Marco Valentini, Martin W. van Mourik, Friederike Butt, Jakob Wahl, Matthias Dietl, Michael Pfeifer, Fabian Anmasser, Yves Colombe, Clemens Rössler, Philip Holz, Rainer Blatt, Markus Müller, Thomas Monz, Philipp Schindler, (参考訳) 大規模量子コンピュータを構築するための大きなハードルは、量子ビット間の接続性を維持しながら、量子ビットの数をスケールアップすることである。 閉じ込められたイオンデバイスでは、この接続は、プロセッサにまたがる数個のイオンからなるサブレジストを物理的に移動させることによって提供される。 接続のトポロジーは1次元と2次元の配置が可能なイオントラップのレイアウトによって与えられる。 ここでは、長方形の2次元格子に基づいて、各格子サイトが線形なイオン列を持つサブレジスタを含むアーキテクチャに焦点を当てる。 このアーキテクチャをQuantum Spring Array (QSA)と呼ぶ。 隣接する格子サイトに置かれたサブレジストは、それぞれのイオン弦を互いに近接させ、それらを単一のトラップ電位にマージすることを避けて結合することができる。 格子の1軸に沿ってサブレジストを分離する制御は軸方向と呼ばれ、準静電圧を用いるが、第2軸であるラジアルは無線周波数信号を制御する必要がある。 本研究では, 両軸に沿った2次元格子量子計算アーキテクチャの鍵要素について検討し, 隣り合う格子サイト間の結合速度は, サイト当たりのイオン数とともに増加し, 結合系の運動はノイズに耐性を持つことを示した。 結合のコヒーレンスを評価し、放射軸に沿った別々のトラップ領域における量子ビットの絡み合った状態を示す。 さらに、弦間の半径分離を調整し、結合率を調整するために、無線周波数信号の制御を実証する。 さらに、2D格子アーキテクチャをフォールトトレラントな量子エラー訂正のためのプリミティブにマッピングし、大規模なフォールトトレラント操作に最適化された量子プロセッサアーキテクチャへのステップを提供する。

A major hurdle for building a large-scale quantum computer is to scale up the number of qubits while maintaining connectivity between them. In trapped-ion devices, this connectivity can be provided by physically moving subregisters consisting of a few ions across the processor. The topology of the connectivity is given by the layout of the ion trap where one-dimensional and two-dimensional arrangements are possible. Here, we focus on an architecture based on a rectangular two-dimensional lattice, where each lattice site contains a subregister with a linear string of ions. We refer to this architecture as the Quantum Spring Array (QSA). Subregisters placed in neighboring lattice sites can be coupled by bringing the respective ion strings close to each other while avoiding merging them into a single trapping potential. Control of the separation of subregisters along one axis of the lattice, known as the axial direction, uses quasi-static voltages, while the second axis, the radial, requires control of radio frequency signals. In this work, we investigate key elements of the 2D lattice quantum computation architecture along both axes: We show that the coupling rate between neighboring lattice sites increases with the number of ions per site and the motion of the coupled system can be resilient to noise. The coherence of the coupling is assessed, and an entangled state of qubits in separate trapping regions along the radial axis is demonstrated. Moreover, we demonstrate control over radio frequency signals to adjust radial separation between strings, and thus tune their coupling rate. We further map the 2D lattice architecture to code primitives for fault-tolerant quantum error correction, providing a step towards a quantum processor architecture that is optimized for large-scale fault-tolerant operation.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# WE-GS: 制約のない写真コレクションのための高効率3Dガウス表現

WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections ( http://arxiv.org/abs/2406.02407v1 )

ライセンス: Link先を確認
Yuze Wang, Junyi Wang, Yue Qi, (参考訳) 制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。 近年,3D Gaussian Splatting (3DGS) は静的シーンの写実的およびリアルタイムNVSを約束している。 3DGS上に構築した画像コレクションからのシーン再構成のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。 我々の重要な革新は、残差ベースの球面係数伝達モジュールであり、3DGSを様々な照明条件や測光後処理に適応させる。 この軽量モジュールは事前計算が可能で、レンダリング画像から3次元ガウス属性への効率的な勾配伝播を保証する。 さらに,非拘束の写真コレクションからNVSの2つの重要な部分である出現エンコーダと過渡マスク予測器が相互に有用であることを示す。 プラグアンドプレイの軽量空間アテンションモジュールを導入し,各画像に対する一過性オクローダと潜時出現表現を同時に予測する。 トレーニングと事前処理の後,本手法は標準の3DGSフォーマットおよびレンダリングパイプラインと整合し,様々な3DGSアプリケーションへのシームレスな統合を容易にする。 多様なデータセットに対する大規模な実験により、我々のアプローチは、新しいビューのレンダリング品質と、高い収束とレンダリング速度で外観合成において、既存のアプローチよりも優れていることを示す。

Novel View Synthesis (NVS) from unconstrained photo collections is challenging in computer graphics. Recently, 3D Gaussian Splatting (3DGS) has shown promise for photorealistic and real-time NVS of static scenes. Building on 3DGS, we propose an efficient point-based differentiable rendering framework for scene reconstruction from photo collections. Our key innovation is a residual-based spherical harmonic coefficients transfer module that adapts 3DGS to varying lighting conditions and photometric post-processing. This lightweight module can be pre-computed and ensures efficient gradient propagation from rendered images to 3D Gaussian attributes. Additionally, we observe that the appearance encoder and the transient mask predictor, the two most critical parts of NVS from unconstrained photo collections, can be mutually beneficial. We introduce a plug-and-play lightweight spatial attention module to simultaneously predict transient occluders and latent appearance representation for each image. After training and preprocessing, our method aligns with the standard 3DGS format and rendering pipeline, facilitating seamlessly integration into various 3DGS applications. Extensive experiments on diverse datasets show our approach outperforms existing approaches on the rendering quality of novel view and appearance synthesis with high converge and rendering speed.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# ニューラルネットワークキャリブレーション対策のデカップリング

Decoupling of neural network calibration measures ( http://arxiv.org/abs/2406.02411v1 )

ライセンス: Link先を確認
Dominik Werner Wolf, Prasannavenkatesh Balaji, Alexander Braun, Markus Ulrich, (参考訳) 現在、コンピュータービジョンのためのディープニューラルネットワークに大きく依存している自動運転システムの保護に多くの努力が注がれている。 本研究では,ニューラルネットワークのキャリブレーション対策と,スペーシフィケーション誤差曲線(AUSE)測定値に基づく領域に着目した結合性について検討する。 我々は、期待校正誤差(ECE)を用いた最適校正判定の不整合について詳しく検討し、AUSE、不確かさ校正スコア(UCS)、および不確かさ校正誤差(UCE)に関しても同様の問題を示す。 本稿は,現行の手法が自由度を保ち,安全クリティカル機能のホモログ化のためのユニークなモデル校正を妨げていると結論付けている。 さらに、AUSEは、固定されたネットワークアーキテクチャでは不可能であり、基礎となるデータ生成プロセス(アリアティックコントリビューション)の確率性や仮説空間(エステミックコントリビューション)の制限によって駆動される、残留不確実性の間接尺度として提案する。

A lot of effort is currently invested in safeguarding autonomous driving systems, which heavily rely on deep neural networks for computer vision. We investigate the coupling of different neural network calibration measures with a special focus on the Area Under the Sparsification Error curve (AUSE) metric. We elaborate on the well-known inconsistency in determining optimal calibration using the Expected Calibration Error (ECE) and we demonstrate similar issues for the AUSE, the Uncertainty Calibration Score (UCS), as well as the Uncertainty Calibration Error (UCE). We conclude that the current methodologies leave a degree of freedom, which prevents a unique model calibration for the homologation of safety-critical functionalities. Furthermore, we propose the AUSE as an indirect measure for the residual uncertainty, which is irreducible for a fixed network architecture and is driven by the stochasticity in the underlying data generation process (aleatoric contribution) as well as the limitation in the hypothesis space (epistemic contribution).
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# FAIRSECO: 研究ソフトウェアのインパクト測定のための拡張可能なフレームワーク

FAIRSECO: An Extensible Framework for Impact Measurement of Research Software ( http://arxiv.org/abs/2406.02412v1 )

ライセンス: Link先を確認
Deekshitha, Siamak Farshidi, Jason Maassen, Rena Bakhshi, Rob van Nieuwpoort, Slinger Jansen, (参考訳) 研究コミュニティにおける研究ソフトウェアの利用の増加は、研究者だけでなく、Research Software Engineersによる貢献の認識と認識の必要性を強調している。 しかし、研究ソフトウェアと研究ソフトウェア技術者を信用する既存の手法は不十分であることが証明されている。 そこで我々は,研究ソフトウェアが様々な要因を評価して研究に与える影響を評価することを目的とした,拡張性のあるオープンソースフレームワークであるFAIRSECOを開発した。 FAIRSECOフレームワークは、2つの重要な情報要件に対処する。第一に、ソフトウェアの品質とFAIRnessに関連するメトリクスを持つ研究ソフトウェアの潜在的ユーザを提供する。 第二に、このフレームワークは影響データを提供することでプロジェクトの成功を測りたい人のための情報を提供する。 研究ソフトウェアの品質と影響を探ることで、リサーチソフトウェアエンジニアが自分たちの価値ある貢献にふさわしい評価を受けられるようにすることを目的としています。

The growing usage of research software in the research community has highlighted the need to recognize and acknowledge the contributions made not only by researchers but also by Research Software Engineers. However, the existing methods for crediting research software and Research Software Engineers have proven to be insufficient. In response, we have developed FAIRSECO, an extensible open source framework with the objective of assessing the impact of research software in research through the evaluation of various factors. The FAIRSECO framework addresses two critical information needs: firstly, it provides potential users of research software with metrics related to software quality and FAIRness. Secondly, the framework provides information for those who wish to measure the success of a project by offering impact data. By exploring the quality and impact of research software, our aim is to ensure that Research Software Engineers receive the recognition they deserve for their valuable contributions.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 回転フィンディング問題に対する変量誘導前方反射法の高速化

Accelerated Variance-Reduced Forward-Reflected Methods for Root-Finding Problems ( http://arxiv.org/abs/2406.02413v1 )

ライセンス: Link先を確認
Quoc Tran-Dinh, (参考訳) そこで我々は,Nesterov の確率的促進型前方反射型手法の新しいクラスを提案し,その分散を低減し,$\frac{1}{L}$-co-co-coerciveness の下で根のフィニング問題を解く。 我々のアルゴリズムは単ループであり、ルートフィリング問題に特化して設計された非バイアス分散還元推定器の新たなファミリーを利用する。 これは$\mathcal{O}(L^2/k^2)$と$o(1/k^2)$-last-iterate収束率の両方を期待された作用素二乗ノルムで達成する。 SVRGとSAGAという2つの著名な推定器のフレームワークをインスタンス化する。 パラメータの適切な選択により、どちらの変種も$\mathcal{O}(n + Ln^{2/3}\epsilon^{-1})$のオラクル複雑性を得ることができ、$\epsilon$-solutionに達する。 さらに、$\mu$-strong quasi-monotonicityの下では、この手法は線形収束率と、$\mathcal{O}(n+ \kappa n^{2/3}\log(\epsilon^{-1})$のオラクル複雑性を達成し、$\kappa := \frac{L}{\mu}$となる。 我々は、有限サム単調包含のクラスを解くためのアプローチを拡張し、我々のスキームが方程式設定と同じ理論的保証を保持することを示す。 最後に,我々のアルゴリズムを検証し,最先端手法と比較して有望な性能を示す数値実験を行った。

We propose a novel class of Nesterov's stochastic accelerated forward-reflected-based methods with variance reduction to solve root-finding problems under $\frac{1}{L}$-co-coerciveness. Our algorithm is single-loop and leverages a new family of unbiased variance-reduced estimators specifically designed for root-finding problems. It achieves both $\mathcal{O}(L^2/k^2)$ and $o(1/k^2)$-last-iterate convergence rates in terms of expected operator squared norm, where $k$ denotes the iteration counter. We instantiate our framework for two prominent estimators: SVRG and SAGA. By an appropriate choice of parameters, both variants attain an oracle complexity of $\mathcal{O}( n + Ln^{2/3}\epsilon^{-1})$ to reach an $\epsilon$-solution, where $n$ represents the number of summands in the finite-sum operator. Furthermore, under $\mu$-strong quasi-monotonicity, our method achieves a linear convergence rate and an oracle complexity of $\mathcal{O}(n+ \kappa n^{2/3}\log(\epsilon^{-1}))$, where $\kappa := \frac{L}{\mu}$. We extend our approach to solve a class of finite-sum monotone inclusions, demonstrating that our schemes retain the same theoretical guarantees as in the equation setting. Finally, numerical experiments validate our algorithms and demonstrate their promising performance compared to state-of-the-art methods.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 偽真空崩壊と負モードに対する配向線形ポテンシャル

Piecewise linear potentials for false vacuum decay and negative modes ( http://arxiv.org/abs/2406.02414v1 )

ライセンス: Link先を確認
Wen-Yuan Ai, Jean Alexandre, Sarben Sarkar, (参考訳) 滑らかなポテンシャルの近似と見なすことができる一方向線型三角ポテンシャルのクラスにおけるバウンス解と関連する負モードについて検討する。 これらの単純なポテンシャルにおいて、バウンス解と作用は一般時空次元$D$に対して解析的に得ることができる。 バウンス周りのゆらぎの等式は普遍的であり、デルタ関数ポテンシャルを持つシュリンガー型方程式の形をしている。 このシュリンガー方程式は、正に1であることを確認した負モードに対して解かれる。 後者の結果は、偽真空崩壊の研究において、そのような部分的な線形ポテンシャルの有用性を正当化する可能性がある。

We study bounce solutions and associated negative modes in the class of piecewise linear triangular-shaped potentials that may be viewed as approximations of smooth potentials. In these simple potentials, the bounce solution and action can be obtained analytically for a general spacetime dimension $D$. The eigenequations for the fluctuations around the bounce are universal and have the form of a Schr\"odinger-like equation with delta-function potentials. This Schr\"odinger equation is solved exactly for the negative modes whose number is confirmed to be one. The latter result may justify the usefulness of such piecewise linear potentials in the study of false vacuum decay.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 混合Dirichlet-Multinomialを用いたフェデレーションデータセットのモデル化

Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials ( http://arxiv.org/abs/2406.02416v1 )

ライセンス: Link先を確認
Jonathan Scott, Áine Cahill, (参考訳) 実際には、連合学習を用いたトレーニングは、標準的な集中学習よりも桁違いに遅い。 これにより、行うことができる実験やチューニングの量を大幅に制限し、与えられたタスクで優れたパフォーマンスを得るのが難しくなります。 サーバサイドプロキシデータは、例えばハイパーパラメータチューニングなど、トレーニングシミュレーションの実行に使用することができる。 これにより、真のクライアントで実行すべきチューニング実行回数を減らすことで、トレーニングパイプラインを大幅にスピードアップできる。 しかし、これらのシミュレーションが実際のフェデレーショントレーニングのダイナミクスを正確に反映していることを保証することは困難である。 特に、シミュレーションに使用されるプロキシデータは、個々のクライアントに分割せずに単一の集中データセットとして提供されることが多い。 本稿では、真のフェデレートされたクライアントの統計的不均一性を反映した方法で、集中型データを分割する方法の課題に対処する。 提案手法は, 実クライアントの分布を効率よく学習し, 推定分布を用いてサーバサイドのシミュレーションを改良し, 集中型データからシミュレーションされたクライアントを生成するアルゴリズムである。

In practice, training using federated learning can be orders of magnitude slower than standard centralized training. This severely limits the amount of experimentation and tuning that can be done, making it challenging to obtain good performance on a given task. Server-side proxy data can be used to run training simulations, for instance for hyperparameter tuning. This can greatly speed up the training pipeline by reducing the number of tuning runs to be performed overall on the true clients. However, it is challenging to ensure that these simulations accurately reflect the dynamics of the real federated training. In particular, the proxy data used for simulations often comes as a single centralized dataset without a partition into distinct clients, and partitioning this data in a naive way can lead to simulations that poorly reflect real federated training. In this paper we address the challenge of how to partition centralized data in a way that reflects the statistical heterogeneity of the true federated clients. We propose a fully federated, theoretically justified, algorithm that efficiently learns the distribution of the true clients and observe improved server-side simulations when using the inferred distribution to create simulated clients from the centralized data.
翻訳日:2024-06-05 15:40:59 公開日:2024-06-04
# 2量子量子ラビモデルに対するN-光子解

N-photon solutions to the two-qubit quantum Rabi model ( http://arxiv.org/abs/2406.02418v1 )

ライセンス: Link先を確認
Qiang Lin, Junlong Tian, Pinghua Tang, Jie Peng, (参考訳) 我々は、2量子ビットのRabiモデルを研究し、ほとんどのN光子でその暗黒状態解を発見した。 1つの特異なケースは、$N=3$ であり、これは結合状態全体において一定の等質性を持ち、同じパリティ部分空間内でレベル交差をもたらす。 また、少なくとも$N=2i+3$$(i=1,2,3,\dots)$ photons, and constant eigenenergy $N\hbar \omega$ if coupling $g$ become much than photon frequency $\omega$。 一般に、全ての光子数状態は2量子量子ラビモデルに関係しているが、そのような$N$光子解は存在し、超強結合を持つ量子情報処理に応用できる。

We studied the two-qubit quantum Rabi model and found its dark state solutions with at most N photons. One peculiar case presents when $N=3$, which has constant eigenenergy in the whole coupling regime and leads to level crossings within the same parity subspace. We also discovered asymptotic solutions with at most $N=2i+3$ $(i=1,2,3,\dots)$ photons, and constant eigenenergy $N\hbar \omega$ when coupling $g$ becomes much larger than photon frequency $\omega$. Although generally all photon number states are involved in the two-qubit quantum Rabi model, such $N$-photon solutions exist and may have applications in quantum information processing with ultrastrong couplings.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 最小アリティを持つ関数による経時的線形関数の表現

Representing Piecewise-Linear Functions by Functions with Minimal Arity ( http://arxiv.org/abs/2406.02421v1 )

ライセンス: Link先を確認
Christoph Koutschan, Anton Ponomarchuk, Josef Schicho, (参考訳) 任意の連続ピースワイズ線型関数 $F\colon \mathbb{R}^{n}\to \mathbb{R}$ は、少なくとも$n+1$ アフィン線型関数の$\max$函数の線型結合として表すことができる。 AAECC, 2023] では、この上界の$n+1$引数は厳密であることを示した。 本稿では,任意の分解に必要な関数$F$と最小数の引数との対応性を確立することにより,この結果を拡張する。 入力空間 $\mathbb{R}^{n}$ の関数 $F$ によるテッセル化は、$\max$ 関数の引数の数に直結することを示す。

Any continuous piecewise-linear function $F\colon \mathbb{R}^{n}\to \mathbb{R}$ can be represented as a linear combination of $\max$ functions of at most $n+1$ affine-linear functions. In our previous paper [``Representing piecewise linear functions by functions with small arity'', AAECC, 2023], we showed that this upper bound of $n+1$ arguments is tight. In the present paper, we extend this result by establishing a correspondence between the function $F$ and the minimal number of arguments that are needed in any such decomposition. We show that the tessellation of the input space $\mathbb{R}^{n}$ induced by the function $F$ has a direct connection to the number of arguments in the $\max$ functions.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# IterMask2:MRIにおける脳病変に対する空間および周波数マスキングによる反復的非教師的異常分割

IterMask2: Iterative Unsupervised Anomaly Segmentation via Spatial and Frequency Masking for Brain Lesions in MRI ( http://arxiv.org/abs/2406.02422v1 )

ライセンス: Link先を確認
Ziyun Liang, Xiaoqing Guo, J. Alison Noble, Konstantinos Kamnitsas, (参考訳) 病理セグメント化に対する教師なし異常セグメンテーションアプローチは、正常な被験者の画像に基づいてモデルを訓練し、「正常な」データ分布と定義する。 推測では, 「正常」 トレーニングデータから逸脱するパターンを示すため, 新しい画像の病理を「異常」として分類することを目的としている。 一般的な手法は'失敗と再構築'のパラダイムに従う。 彼らは意図的に入力画像を破壊し、学習した'正規'分布に従って再構成し、その後、再構成エラーに基づいてセグメント異常を分割する。 しかし、入力画像の破壊は必然的に、通常の領域でも最適でない再構成をもたらし、偽陽性を引き起こす。 これを軽減するために,IterMask2 を用いた新しい空間マスク修復手法を提案する。 我々は、画像の領域を反復的にマスクし、再構成し、復元誤差に基づいてマスクを更新する。 この反復的プロセスは、モデルと同様に確実に正常な領域に関する情報を徐々に追加します。 内容量の増加は、近隣のマスク領域の再構築をガイドし、これらの領域における正常組織の再構築を改善し、偽陽性を減少させる。 また、副入力として高周波画像コンテンツを使用し、マスク領域に付加的な構造情報を提供する。 これにより、異常領域と比較して正常な再構成誤差が向上し、後者のセグメンテーションが容易になる。 いくつかの脳病変データセットの実験を行い,本手法の有効性を実証した。 コードは、https://github.com/ZiyunLiang/IterMasks2で入手できる。

Unsupervised anomaly segmentation approaches to pathology segmentation train a model on images of healthy subjects, that they define as the 'normal' data distribution. At inference, they aim to segment any pathologies in new images as 'anomalies', as they exhibit patterns that deviate from those in 'normal' training data. Prevailing methods follow the 'corrupt-and-reconstruct' paradigm. They intentionally corrupt an input image, reconstruct it to follow the learned 'normal' distribution, and subsequently segment anomalies based on reconstruction error. Corrupting an input image, however, inevitably leads to suboptimal reconstruction even of normal regions, causing false positives. To alleviate this, we propose a novel iterative spatial mask-refining strategy IterMask2. We iteratively mask areas of the image, reconstruct them, and update the mask based on reconstruction error. This iterative process progressively adds information about areas that are confidently normal as per the model. The increasing content guides reconstruction of nearby masked areas, improving reconstruction of normal tissue under these areas, reducing false positives. We also use high-frequency image content as an auxiliary input to provide additional structural information for masked areas. This further improves reconstruction error of normal in comparison to anomalous areas, facilitating segmentation of the latter. We conduct experiments on several brain lesion datasets and demonstrate effectiveness of our method. Code is available at: https://github.com/ZiyunLiang/IterMasks2
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 文脈動的価格:アルゴリズム、最適性、局所微分プライバシー制約

Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints ( http://arxiv.org/abs/2406.02424v1 )

ライセンス: Link先を確認
Zifeng Zhao, Feiyu Jiang, Yi Yu, (参考訳) 本研究では、企業が商品をT$で販売するコンテキスト動的価格問題について検討する。 同社は、その収益を最大化すること、すなわち、前もってモデルを知っている透かし師に対する後悔を最小限にすることを目的としている。 需要モデルは一般化線形モデル(GLM)であり、製品と消費者情報をエンコードする$\mathbb R^d$の確率的特徴ベクトルを可能にする。 まず、最適後悔の上界は次数$\sqrt{dT}$、対数係数までで、文献の既存の上界を$\sqrt{d}$ factorで改善することを示す。 このシャープレートは、信頼境界型(supCB)アルゴリズムと探索-then-commit(ETC)アルゴリズムの2つのアルゴリズムによって実現されている。 我々の理論結果に対する重要な洞察は、動的価格と、注意深い離散化に基づく多くのアームによるコンテキスト多武装バンディット問題との本質的な関係である。 さらに,ローカルディファレンシャルプライバシ(LDP)制約下でのコンテキスト動的価格設定について検討する。 特に,次数$d\sqrt{T}/\epsilon$の最適後悔上限を対数係数まで達成する確率勾配降下に基づくETCアルゴリズムを提案し,ここではプライバシーパラメータを$\epsilon>0$とする。 LDP制約のない後悔の上限には、新たに構築されたミニマックス下限が伴い、プライバシのコストをさらに高める。 動的価格設定における提案アルゴリズムの効率性と実用性を示すため,大規模な数値実験とオンライン貸付に関する実データ応用を行った。

We study the contextual dynamic pricing problem where a firm sells products to $T$ sequentially arriving consumers that behave according to an unknown demand model. The firm aims to maximize its revenue, i.e. minimize its regret over a clairvoyant that knows the model in advance. The demand model is a generalized linear model (GLM), allowing for a stochastic feature vector in $\mathbb R^d$ that encodes product and consumer information. We first show that the optimal regret upper bound is of order $\sqrt{dT}$, up to a logarithmic factor, improving upon existing upper bounds in the literature by a $\sqrt{d}$ factor. This sharper rate is materialised by two algorithms: a confidence bound-type (supCB) algorithm and an explore-then-commit (ETC) algorithm. A key insight of our theoretical result is an intrinsic connection between dynamic pricing and the contextual multi-armed bandit problem with many arms based on a careful discretization. We further study contextual dynamic pricing under the local differential privacy (LDP) constraints. In particular, we propose a stochastic gradient descent based ETC algorithm that achieves an optimal regret upper bound of order $d\sqrt{T}/\epsilon$, up to a logarithmic factor, where $\epsilon>0$ is the privacy parameter. The regret upper bounds with and without LDP constraints are accompanied by newly constructed minimax lower bounds, which further characterize the cost of privacy. Extensive numerical experiments and a real data application on online lending are conducted to illustrate the efficiency and practical value of the proposed algorithms in dynamic pricing.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# CoNav: 人中心コラボレーションナビゲーションのベンチマーク

CoNav: A Benchmark for Human-Centered Collaborative Navigation ( http://arxiv.org/abs/2406.02425v1 )

ライセンス: Link先を確認
Changhao Li, Xinyu Sun, Peihao Chen, Jugang Fan, Zixu Wang, Yanxia Liu, Jinhui Zhu, Chuang Gan, Mingkui Tan, (参考訳) ロボットとロボットのコラボレーションは、ロボットが人間をその次のタスクでインテリジェントに支援するものであり、魅力的な目的である。 この目的を達成するためには、エージェントは基本的な協調ナビゲーション能力を備えており、エージェントは人間の活動を観察して人間の意図を推論し、人間の前で人間の意図した目的地へ移動する必要がある。 しかし、この重要な能力は以前の文献では十分に研究されていない。 このギャップを埋めるために、協調ナビゲーション(CoNav)ベンチマークを提案する。 われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。 そこで本研究では,テキスト記述と環境コンテキストの両方を条件とした,新しいLLMベースのヒューマノイドアニメーション生成フレームワークを設計する。 生成されたヒューマノイド軌道は環境条件に従っており、人気のあるシミュレータに容易に組み込むことができる。 既存のナビゲーション手法は,人間の意図の認識を無視するため,CoNavタスクで苦労している。 そこで本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。 エージェントは、予測された意図とパノラマ観測に基づいて、ナビゲーション動作を予測する。 人間を観察し、人間の衝突を回避し、ナビゲーションを含む創発的エージェントの振る舞いは、提案されたデータセットとエージェントの効率を明らかにする。

Human-robot collaboration, in which the robot intelligently assists the human with the upcoming task, is an appealing objective. To achieve this goal, the agent needs to be equipped with a fundamental collaborative navigation ability, where the agent should reason human intention by observing human activities and then navigate to the human's intended destination in advance of the human. However, this vital ability has not been well studied in previous literature. To fill this gap, we propose a collaborative navigation (CoNav) benchmark. Our CoNav tackles the critical challenge of constructing a 3D navigation environment with realistic and diverse human activities. To achieve this, we design a novel LLM-based humanoid animation generation framework, which is conditioned on both text descriptions and environmental context. The generated humanoid trajectory obeys the environmental context and can be easily integrated into popular simulators. We empirically find that the existing navigation methods struggle in CoNav task since they neglect the perception of human intention. To solve this problem, we propose an intention-aware agent for reasoning both long-term and short-term human intention. The agent predicts navigation action based on the predicted intention and panoramic observation. The emergent agent behavior including observing humans, avoiding human collision, and navigation reveals the efficiency of the proposed datasets and agents.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 共変量シフト下における文脈最適化:ワッサースタイン球交差によるロバストなアプローチ

Contextual Optimization under Covariate Shift: A Robust Approach by Intersecting Wasserstein Balls ( http://arxiv.org/abs/2406.02426v1 )

ライセンス: Link先を確認
Tianyu Wang, Ningyuan Chen, Chun Wang, (参考訳) 文脈最適化において、意思決定者は、その共同分布を知らずに、不確実な変数と関連する同時共変量の歴史的サンプルを観察する。 追加の共変量観測では、運用コストを最小限に抑える決定を選択することが目標である。 ここで問題となるのは共変量シフト(covariate shift)であり、新しい共変量の限界分布は歴史的サンプルとは異なるため、非パラメトリックまたはパラメトリック推定器による決定性能のばらつきが生じる。 そこで本研究では,2つのワッサーシュタイン球の交叉によるあいまいさを用いた分布的ロバストなアプローチを提案する。 計算学的には、この分布的に堅牢な最適化問題のトラクタブルな再構成を確立する。 統計的には、推定器の測定濃度を解析することにより、共変量シフトの下でのワッサースタイン球交叉アプローチの保証を提供する。 さらに、計算複雑性を低減するために、同様の一般化保証を維持する代理目的を用いる。 収益予測とポートフォリオ最適化に関する総合的および経験的ケーススタディを通じて、提案したモデルの強力な経験的性能を実証する。

In contextual optimization, a decision-maker observes historical samples of uncertain variables and associated concurrent covariates, without knowing their joint distribution. Given an additional covariate observation, the goal is to choose a decision that minimizes some operational costs. A prevalent issue here is covariate shift, where the marginal distribution of the new covariate differs from historical samples, leading to decision performance variations with nonparametric or parametric estimators. To address this, we propose a distributionally robust approach that uses an ambiguity set by the intersection of two Wasserstein balls, each centered on typical nonparametric or parametric distribution estimators. Computationally, we establish the tractable reformulation of this distributionally robust optimization problem. Statistically, we provide guarantees for our Wasserstein ball intersection approach under covariate shift by analyzing the measure concentration of the estimators. Furthermore, to reduce computational complexity, we employ a surrogate objective that maintains similar generalization guarantees. Through synthetic and empirical case studies on income prediction and portfolio optimization, we demonstrate the strong empirical performance of our proposed models.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 安定化器符号のレンズによる雑音安定化器状態の2部絡み合い

Bipartite entanglement of noisy stabilizer states through the lens of stabilizer codes ( http://arxiv.org/abs/2406.02427v1 )

ライセンス: Link先を確認
Kenneth Goodenough, Aqil Sajjad, Eneet Kaur, Saikat Guha, Don Towsley, (参考訳) 安定化器状態は、秘密共有や測定に基づく量子計算など、量子情報科学における多くの応用の主要な資源である。 このことは、二分割にまたがるノイズ安定化状態の絡み合いを研究する動機となる。 本研究では、対応する縮小状態のスペクトルを、対応する安定化器符号の特性で表すことができることを示す。 特に、コヒーレントな情報が、基盤となるコードのいわゆるシンドロームエントロピーと関連していることを示すことができる。 この視点を用いて、雑音に対する耐性のある安定化状態を見つけ、短期量子ネットワークにおけるより堅牢な絡み合い分布を実現する。 実験結果をグラフ状態のケースに特化することで,安定化器符号との接続が従来の線形符号に還元され,ノイズが強調される。 その過程で、全てのキュービット安定化器符号がグラフコードへの単一キュービットクリフォードゲートに等しいという事実の代替的証明を提供する。

Stabilizer states are a prime resource for a number of applications in quantum information science, such as secret-sharing and measurement-based quantum computation. This motivates us to study the entanglement of noisy stabilizer states across a bipartition. We show that the spectra of the corresponding reduced states can be expressed in terms of properties of an associated stabilizer code. In particular, this allows us to show that the coherent information is related to the so-called syndrome entropy of the underlying code. We use this viewpoint to find stabilizer states that are resilient against noise, allowing for more robust entanglement distribution in near-term quantum networks. We specialize our results to the case of graph states, where the found connections with stabilizer codes reduces back to classical linear codes for dephasing noise. On our way we provide an alternative proof of the fact that every qubit stabilizer code is equivalent up to single-qubit Clifford gates to a graph code.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 効果的でスケーラブルなクラスインクリメンタルラーニングのためのニューラルユニットダイナミクスのハーネス化

Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning ( http://arxiv.org/abs/2406.02428v1 )

ライセンス: Link先を確認
Depeng Li, Tianqi Wang, Junwei Chen, Wei Dai, Zhigang Zeng, (参考訳) クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。 本稿では,ニューラルネットワークの動作をCILに適応させるニューラル・ユニット・ダイナミクスを調整し,新しいタイプのコネクショナリストモデルを提案する。 各トレーニングセッションでは、新たに到着したタスクの本質的な複雑さと、成長サイズがコンパクトに一致したネットワーク拡張を誘導する監督機構を導入する。 これは、モデルが新しいクラスを十分に保持できない場合にキャパシティを拡張しながら、ほぼ最小のネットワークを構築する。 推論時に、知識を取得するために必要な神経ユニットを自動的に再活性化し、干渉を防ぐために残りの非活性化を残します。 当社のモデルであるAutoActivatorは,効率的かつスケーラブルです。 ニューラルネットワークのダイナミクスに関する知見を得るため,CILコミュニティで探索されていない逐次写像の学習に関する普遍近似定理を用いてモデル収束特性を理論的に解析する。 実験により, バックボーンの異なるリハーサルフリー, 最小拡張設定において, 高いCIL性能が得られた。

Class-incremental learning (CIL) aims to train a model to learn new classes from non-stationary data streams without forgetting old ones. In this paper, we propose a new kind of connectionist model by tailoring neural unit dynamics that adapt the behavior of neural networks for CIL. In each training session, it introduces a supervisory mechanism to guide network expansion whose growth size is compactly commensurate with the intrinsic complexity of a newly arriving task. This constructs a near-minimal network while allowing the model to expand its capacity when cannot sufficiently hold new classes. At inference time, it automatically reactivates the required neural units to retrieve knowledge and leaves the remaining inactivated to prevent interference. We name our model AutoActivator, which is effective and scalable. To gain insights into the neural unit dynamics, we theoretically analyze the model's convergence property via a universal approximation theorem on learning sequential mappings, which is under-explored in the CIL community. Experiments show that our method achieves strong CIL performance in rehearsal-free and minimal-expansion settings with different backbones.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 軽量低ランク近似に対する再加重解法

Reweighted Solutions for Weighted Low Rank Approximation ( http://arxiv.org/abs/2406.02431v1 )

ライセンス: Link先を確認
David P. Woodruff, Taisuke Yasuda, (参考訳) 重み付き低階近似(WLRA)は、統計解析、モデル圧縮、信号処理など、重要かつ計算的に難しいプリミティブである。 この問題のNPハードネスに対処するため、先行研究では、この問題を解決するためにヒューリスティックス、ビクリテリア、あるいは固定パラメータ抽出可能なアルゴリズムを検討する。 本研究では,WLRAに新たな緩和解を導入する。これは必ずしも低ランクではない行列を出力するが,非常に少ないパラメータで保存することができ,重み行列が低ランクである場合に証明可能な近似保証を与える。 我々の中心的な考え方は、重み行列自体を低階解の重み付けに利用することであり、これは、圧縮や合成データセットのモデル化への応用において、顕著な経験的性能を持つ非常に単純なアルゴリズムを提供する。 また、本アルゴリズムは、この問題に関連する自然分散問題に対して、ほぼ最適な通信複雑性境界を与える。 重み行列のランクがWLRAの通信複雑性をパラメータ化することを示す。 また、重み付けされた目的を持つ特徴選択に対する最初の相対誤差保証を得る。

Weighted low rank approximation (WLRA) is an important yet computationally challenging primitive with applications ranging from statistical analysis, model compression, and signal processing. To cope with the NP-hardness of this problem, prior work considers heuristics, bicriteria, or fixed parameter tractable algorithms to solve this problem. In this work, we introduce a new relaxed solution to WLRA which outputs a matrix that is not necessarily low rank, but can be stored using very few parameters and gives provable approximation guarantees when the weight matrix has low rank. Our central idea is to use the weight matrix itself to reweight a low rank solution, which gives an extremely simple algorithm with remarkable empirical performance in applications to model compression and on synthetic datasets. Our algorithm also gives nearly optimal communication complexity bounds for a natural distributed problem associated with this problem, for which we show matching communication lower bounds. Together, our communication complexity bounds show that the rank of the weight matrix provably parameterizes the communication complexity of WLRA. We also obtain the first relative error guarantees for feature selection with a weighted objective.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# Coresets for multiple $\ell_p$ Regression

Coresets for Multiple $\ell_p$ Regression ( http://arxiv.org/abs/2406.02432v1 )

ライセンス: Link先を確認
David P. Woodruff, Taisuke Yasuda, (参考訳) n$サンプルと$d$機能を備えたデータセットのコアセットは、下流のデータ分析タスクを解決するのに十分なサンプルの重み付けされたサブセットである。 最小二乗のコアセットと1つの応答を持つ$\ell_p$線形回帰のほぼ最適構成は、以前の研究で知られている。 しかし、$m$レスポンスがある複数の$\ell_p$回帰の場合、$m$のサブリニアを持つ既知の構造は存在しない。 本研究では、$\tilde O(\varepsilon^{-2}d)$ for $p<2$ and $\tilde O(\varepsilon^{-p}d^{p/2})$ for $p>2$ of $m$(つまり、次元のない)とは独立に、ドメイン内の各点における複数の$\ell_p$回帰目標を(1\pm\varepsilon)$ 相対誤差に近似するコアセットを構築する。 部分空間制約の対象となる最小値を保存する必要がなければ、すべての$p>1$に対して$\varepsilon$ factorでこれらの境界を改善する。 私たちの境界はどれもほとんどきつい。 我々はその結果を2つ応用する。 まず、$\tilde\Theta(\varepsilon^{-2})$ sample for $p = 1$, $\tilde\Theta(\varepsilon^{-1})$ sample for $1 < p < 2$, $\tilde\Theta(\varepsilon^{1-p})$ sample for $p>2$ is tight, and answering a question of Cohen-Addad, Saulpic, and Schwiegelshohn。 第二に、$<p<2$の場合、すべての行列は$\tilde O(\varepsilon^{-1}k)$ rows の部分集合を持ち、$(1+\varepsilon)$-atimate optimal $k$-dimensional subspace for $\ell_p$ subspace approximation もほぼ最適である。

A coreset of a dataset with $n$ examples and $d$ features is a weighted subset of examples that is sufficient for solving downstream data analytic tasks. Nearly optimal constructions of coresets for least squares and $\ell_p$ linear regression with a single response are known in prior work. However, for multiple $\ell_p$ regression where there can be $m$ responses, there are no known constructions with size sublinear in $m$. In this work, we construct coresets of size $\tilde O(\varepsilon^{-2}d)$ for $p<2$ and $\tilde O(\varepsilon^{-p}d^{p/2})$ for $p>2$ independently of $m$ (i.e., dimension-free) that approximate the multiple $\ell_p$ regression objective at every point in the domain up to $(1\pm\varepsilon)$ relative error. If we only need to preserve the minimizer subject to a subspace constraint, we improve these bounds by an $\varepsilon$ factor for all $p>1$. All of our bounds are nearly tight. We give two application of our results. First, we settle the number of uniform samples needed to approximate $\ell_p$ Euclidean power means up to a $(1+\varepsilon)$ factor, showing that $\tilde\Theta(\varepsilon^{-2})$ samples for $p = 1$, $\tilde\Theta(\varepsilon^{-1})$ samples for $1 < p < 2$, and $\tilde\Theta(\varepsilon^{1-p})$ samples for $p>2$ is tight, answering a question of Cohen-Addad, Saulpic, and Schwiegelshohn. Second, we show that for $1<p<2$, every matrix has a subset of $\tilde O(\varepsilon^{-1}k)$ rows which spans a $(1+\varepsilon)$-approximately optimal $k$-dimensional subspace for $\ell_p$ subspace approximation, which is also nearly optimal.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 広帯域・超高効率非線形変換と絡み合った光子生成のためのInGaP $ ^{(2)}$統合フォトニクスプラットフォーム

InGaP $χ^{(2)}$ integrated photonics platform for broadband, ultra-efficient nonlinear conversion and entangled photon generation ( http://arxiv.org/abs/2406.02434v1 )

ライセンス: Link先を確認
Joshua Akin, Yunlei Zhao, Yuvraj Misra, A. K. M. Naziul Haque, Kejie Fang, (参考訳) 非線形光学は科学や技術の多くの分野で重要な役割を果たしている。 非線形光学の進歩は、光非線形性の増大を伴う材料の発見と利用によって促進される。 InGaP(Indium gallium phosphide)の統合フォトニクスプラットフォームについて述べる。 InGaPナノフォトニック導波路は、正常化効率が128,000\%/W/cm$^2$で1.55$\mu$mのポンプ波長で、電気通信Cバンドの最先端よりも2桁近く高い第2高調波発生を可能にする。 さらに, 波長97 GHz/mW, 帯域幅115 nmの超高輝度, ブロードバンド型光子源を実現する。 InGaPの絡み合った光子源は、CAR$>10^4$と2光子干渉可視性$>98\%$と高い一致-事故数比を示す。 InGaPの2階非線形フォトニクスプラットフォームは、非古典的な光発生、光信号処理、量子ネットワークに幅広い影響を与える。

Nonlinear optics plays an important role in many areas of science and technology. The advance of nonlinear optics is empowered by the discovery and utilization of materials with growing optical nonlinearity. Here we demonstrate an indium gallium phosphide (InGaP) integrated photonics platform for broadband, ultra-efficient second-order nonlinear optics. The InGaP nanophotonic waveguide enables second-harmonic generation with a normalized efficiency of $128,000\%$/W/cm$^2$ at 1.55 $\mu$m pump wavelength, nearly two orders of magnitude higher than the state of the art in the telecommunication C band. Further, we realize an ultra-bright, broadband time-energy entangled photon source with a pair generation rate of 97 GHz/mW and a bandwidth of 115 nm centered at the telecommunication C band. The InGaP entangled photon source shows high coincidence-to-accidental counts ratio CAR $>10^4$ and two-photon interference visibility $>98\%$. The InGaP second-order nonlinear photonics platform will have wide-ranging implications for non-classical light generation, optical signal processing, and quantum networking.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 長距離インスタンスセグメンテーションのための生成能動学習

Generative Active Learning for Long-tailed Instance Segmentation ( http://arxiv.org/abs/2406.02435v1 )

ライセンス: Link先を確認
Muzhi Zhu, Chengxiang Fan, Hao Chen, Yang Liu, Weian Mao, Xiaogang Xu, Chunhua Shen, (参考訳) 近年,大規模言語画像生成モデルが注目され,これらのモデルから生成されたデータを活用して認識タスクの性能をさらに向上する研究が数多く行われている。 しかし、すべての生成されたデータが下流モデルに肯定的な影響を与えるわけではない。 一方、生成したデータに対するアクティブな学習を指向する研究は、いまだに不足している。 本稿では,長期化インスタンスセグメンテーションタスクにおいて,生成されたデータに対して,アクティブな学習を行う方法について検討する。 次に、勾配キャッシュに基づいて生成されたデータの寄与をオンラインで推定する新しいアルゴリズムであるBSGALを提案する。 BSGALは、無制限に生成されたデータと複雑な下流セグメンテーションタスクを効果的に処理できる。 実験により,BSGALはベースラインアプローチより優れ,長い尾のセグメンテーションの性能が効果的に向上することが示された。 私たちのコードはhttps://github.com/aim-uofa/DiverGenで参照できます。

Recently, large-scale language-image generative models have gained widespread attention and many works have utilized generated data from these models to further enhance the performance of perception tasks. However, not all generated data can positively impact downstream models, and these methods do not thoroughly explore how to better select and utilize generated data. On the other hand, there is still a lack of research oriented towards active learning on generated data. In this paper, we explore how to perform active learning specifically for generated data in the long-tailed instance segmentation task. Subsequently, we propose BSGAL, a new algorithm that online estimates the contribution of the generated data based on gradient cache. BSGAL can handle unlimited generated data and complex downstream segmentation tasks effectively. Experiments show that BSGAL outperforms the baseline approach and effectually improves the performance of long-tailed segmentation. Our code can be found at https://github.com/aim-uofa/DiverGen.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# インド芸術音楽におけるラガ同定のための説明可能なディープラーニング解析

Explainable Deep Learning Analysis for Raga Identification in Indian Art Music ( http://arxiv.org/abs/2406.02443v1 )

ライセンス: Link先を確認
Parampreet Singh, Vipul Arora, (参考訳) ラガ識別の課題は、音楽情報検索において非常に人気のある研究課題である。 このタスクを探索した研究では、信号処理や機械学習(ML)手法、最近ではディープラーニング(DL)ベースの手法など、さまざまなアプローチが採用されている。 しかし、これらのML/DLメソッドは、人間の専門家と同じような方法でRagasを学習し、解釈するのか? さらに、この研究における重要な障害は、これらML/DLベースの手法を駆動するリッチなラベル付きデータセットの十分な供給が不可能であることだ。 本稿では,Handstani Classical Music (HCM) レコードを正確にラベル付けした191時間の新規データセットであるPrasarbharti Indian Musicバージョン1(PIM-v1)を紹介する。 PIM-v1データセットを用いた自動ラガ識別(ARI)のためのベンチマーク分類モデルを見つけるためのアブレーション研究を実施する。 12のラガクラスの集合に対して0.89のチャンクワイズf1スコアを達成する。 次に、モデル説明可能性手法を用いて分類器の予測を評価し、それらがラガの人間の理解と一致しているか、あるいは任意のパターンによって駆動されているかを確認する。 本研究では,2つのExAIモデルから得られた説明と人間の専門家アノテーションを比較して,モデル予測の正当性を検証する。 次に,各テスト例について,モデルによる正しい予測や誤った予測における説明によって強調される領域の役割を理解するために,説明を分析した。

The task of Raga Identification is a very popular research problem in Music Information Retrieval. Few studies that have explored this task employed various approaches, such as signal processing, Machine Learning (ML) methods, and more recently Deep Learning (DL) based methods. However, a key question remains unanswered in all of these works: do these ML/DL methods learn and interpret Ragas in a manner similar to human experts? Besides, a significant roadblock in this research is the unavailability of ample supply of rich, labeled datasets, which drives these ML/DL based methods. In this paper, we introduce "Prasarbharti Indian Music" version-1 (PIM-v1), a novel dataset comprising of 191 hours of meticulously labeled Hindustani Classical Music (HCM) recordings, which is the largest labeled dataset for HCM recordings to the best of our knowledge. Our approach involves conducting ablation studies to find the benchmark classification model for Automatic Raga Identification (ARI) using PIM-v1 dataset. We achieve a chunk-wise f1-score of 0.89 for a subset of 12 Raga classes. Subsequently, we employ model explainability techniques to evaluate the classifier's predictions, aiming to ascertain whether they align with human understanding of Ragas or are driven by arbitrary patterns. We validate the correctness of model's predictions by comparing the explanations given by two ExAI models with human expert annotations. Following this, we analyze explanations for individual test examples to understand the role of regions highlighted by explanations in correct or incorrect predictions made by the model.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 振幅減衰雑音に対する雑音適応Qudit符号

Noise-adapted qudit codes for amplitude-damping noise ( http://arxiv.org/abs/2406.02444v1 )

ライセンス: Link先を確認
Sourav Dutta, Debjyoti Biswas, Prabha Mandayam, (参考訳) 量子誤り訂正(QEC)は、量子システムにおける情報損失を防ぐ重要な役割を担い、信頼性の高い量子計算のためのフレームワークを提供する。 物理的に動機付けられたノイズモデルのための優れたコードパラメータを持つ量子コードを特定することは、興味深い課題である。 ここでは、量子ビット符号を超越して、振幅減衰ノイズから保護するために調整されたクディット誤り訂正符号のクラスを提案する。 具体的には、全単一量子の誤り訂正条件を満たす4量子符号のクラスを構築し、減衰パラメータ$\gamma$の先頭の順序まで誤差を減衰させる。 我々は、この一連のエラーをあいまいに識別するシンドロームを抽出するプロトコルを考案し、ノイズ適応型回復スキームが$\cO(\gamma^{2})$の忠実度損失を達成した。 for the $d=2$ case, our QEC scheme is similar to the known example of the $4$-qubit code and the associated syndrome-based recovery。 また、Petzリカバリマップを用いて、私たちのクラスのコードの性能を評価し、qubitの場合から興味深い逸脱がいくつかあることに注意する。

Quantum error correction (QEC) plays a critical role in preventing information loss in quantum systems and provides a framework for reliable quantum computation. Identifying quantum codes with nice code parameters for physically motivated noise models remains an interesting challenge. Going beyond qubit codes, here we propose a class of qudit error correcting codes tailored to protect against amplitude-damping noise. Specifically, we construct a class of four-qudit codes that satisfies the error correction conditions for all single-qudit and a few two-qudit damping errors up to the leading order in the damping parameter $\gamma$. We devise a protocol to extract syndromes that identify this set of errors unambiguously, leading to a noise-adapted recovery scheme that achieves a fidelity loss of $\cO(\gamma^{2})$. For the $d=2$ case, our QEC scheme is identical to the known example of the $4$-qubit code and the associated syndrome-based recovery. We also assess the performance of our class of codes using the Petz recovery map and note some interesting deviations from the qubit case.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 階層的生成型を用いたフェデレーションクラスインクリメンタルラーニングにおけるバイアス低減

Reducing Bias in Federated Class-Incremental Learning with Hierarchical Generative Prototypes ( http://arxiv.org/abs/2406.02447v1 )

ライセンス: Link先を確認
Riccardo Salami, Pietro Buzzega, Matteo Mosconi, Mattia Verasani, Simone Calderara, (参考訳) Federated Learning (FL) は、複数のデバイス(クライアント)に分散した計算を分散し、データのプライバシを保護することによって、ディープモデルのトレーニングを解き放つことを目的としている。 それに加えて、FCL(Federated Continual Learning)は、リアルタイム環境の動的性質を反映した、時間とともに進化するデータ分散も説明しています。 この研究では、FCLで自然に現れるインクリメンタルとフェデレーションのバイアスに光を当てました。 前者は、最近導入されたクラスの優先順位付けに起因して、連続学習において既知の問題であるが、後者(すなわち、局所分布に対する偏見)は、比較的未解明のままである。 提案手法は,学習可能なプロンプトを用いて事前学習したバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。 したがって、パラメータアグリゲーションのみに頼るのではなく、生成プロトタイプを活用し、グローバルモデルの予測を効果的にバランスさせる。 提案手法は現状を改良し, 平均精度は+7.9%向上した。

Federated Learning (FL) aims at unburdening the training of deep models by distributing computation across multiple devices (clients) while safeguarding data privacy. On top of that, Federated Continual Learning (FCL) also accounts for data distribution evolving over time, mirroring the dynamic nature of real-world environments. In this work, we shed light on the Incremental and Federated biases that naturally emerge in FCL. While the former is a known problem in Continual Learning, stemming from the prioritization of recently introduced classes, the latter (i.e., the bias towards local distributions) remains relatively unexplored. Our proposal constrains both biases in the last layer by efficiently fine-tuning a pre-trained backbone using learnable prompts, resulting in clients that produce less biased representations and more biased classifiers. Therefore, instead of solely relying on parameter aggregation, we also leverage generative prototypes to effectively balance the predictions of the global model. Our method improves on the current State Of The Art, providing an average increase of +7.9% in accuracy.
翻訳日:2024-06-05 15:30:46 公開日:2024-06-04
# 言語としての表現:解釈可能性のための情報理論フレームワーク

Representations as Language: An Information-Theoretic Framework for Interpretability ( http://arxiv.org/abs/2406.02449v1 )

ライセンス: Link先を確認
Henry Conklin, Kenny Smith, (参考訳) 大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。 それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。 これにより、彼らが何を学び、いつ学習するかを理解する能力や、どのような表現が分布からうまく一般化するかを記述する能力が制限されます。 そこで本研究では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新たなアプローチを提案する。 そこで我々は,モデル表現が入力に対してどのように構造化されているか,また,学習中にその構造が生じるのかを定量化する情報理論尺度のセットを導入する。 我々の測度は計算が速く、言語理論に基礎を置いており、どのモデルがそれらの表現に基づいて最も良く一般化するかを予測することができる。 これらの手法を用いて,変圧器を訓練する2つの異なる段階,すなわち,タスク損失を低減させる分散学習の初期段階,および表現が雑音に頑健になる第2段階を記述した。 一般化性能は、この第2フェーズで増加し始め、一般化とノイズへの堅牢性の間にリンクを引いている。 最後に、モデルサイズが表現空間の構造にどのように影響するかを見て、より大きなモデルが最終的により小さなモデルよりも表現を圧縮することを示す。

Large scale neural models show impressive performance across a wide array of linguistic tasks. Despite this they remain, largely, black-boxes - inducing vector-representations of their input that prove difficult to interpret. This limits our ability to understand what they learn, and when the learn it, or describe what kinds of representations generalise well out of distribution. To address this we introduce a novel approach to interpretability that looks at the mapping a model learns from sentences to representations as a kind of language in its own right. In doing so we introduce a set of information-theoretic measures that quantify how structured a model's representations are with respect to its input, and when during training that structure arises. Our measures are fast to compute, grounded in linguistic theory, and can predict which models will generalise best based on their representations. We use these measures to describe two distinct phases of training a transformer: an initial phase of in-distribution learning which reduces task loss, then a second stage where representations becoming robust to noise. Generalisation performance begins to increase during this second phase, drawing a link between generalisation and robustness to noise. Finally we look at how model size affects the structure of the representational space, showing that larger models ultimately compress their representations more than their smaller counterparts.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 不均質な学生の教育戦略をモデル化するための総合的な認証学習フレームワーク

A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies ( http://arxiv.org/abs/2406.02450v1 )

ライセンス: Link先を確認
Md Mirajul Islam, Xi Yang, John Hostetter, Adittya Soukarjya Saha, Min Chi, (参考訳) Intelligent Tutoring Systems(ITS)のようなeラーニング環境における重要な課題は、効果的な教育方針を効果的に導き出すことである。 Deep Reinforcement Learning (DRL) はしばしばサンプルの非効率性と報酬関数設計の難しさに悩まされるが、Apprenticeship Learning (AL) アルゴリズムはそれらを克服することができる。 しかし、ほとんどのALアルゴリズムは、全ての実演が1つの報酬関数によって駆動される均質なポリシーで生成されると仮定して、不均一性を扱うことができない。 それでも、不均一性を考える一部のALアルゴリズムは、しばしば大きな連続状態空間に一般化できず、離散状態でのみ動作する。 本稿では,不均質な報酬関数によって駆動されると推定される最適あるいは準最適の実証から効果的な教育政策を誘導する一般ALフレームワークである期待最大化(EM)-EDMを提案する。 提案したEM-EDMにより誘導される方針と,DRLによって誘発される2つの基本方針とを,教育的行動予測を伴う2つの異なる,関連する課題に対して比較した。 その結果、EM-EDMは全てのパフォーマンス指標と2つのDRLベースラインで4つのALベースラインを上回ります。 このことは、EM-EDMが、大規模で連続的な状態空間を管理し、多種多様な報酬関数に適応する能力を通じて、複雑な学生の教育的意思決定プロセスを効果的にモデル化できることを示唆している。

A key challenge in e-learning environments like Intelligent Tutoring Systems (ITSs) is to induce effective pedagogical policies efficiently. While Deep Reinforcement Learning (DRL) often suffers from sample inefficiency and reward function design difficulty, Apprenticeship Learning(AL) algorithms can overcome them. However, most AL algorithms can not handle heterogeneity as they assume all demonstrations are generated with a homogeneous policy driven by a single reward function. Still, some AL algorithms which consider heterogeneity, often can not generalize to large continuous state space and only work with discrete states. In this paper, we propose an expectation-maximization(EM)-EDM, a general AL framework to induce effective pedagogical policies from given optimal or near-optimal demonstrations, which are assumed to be driven by heterogeneous reward functions. We compare the effectiveness of the policies induced by our proposed EM-EDM against four AL-based baselines and two policies induced by DRL on two different but related tasks that involve pedagogical action prediction. Our overall results showed that, for both tasks, EM-EDM outperforms the four AL baselines across all performance metrics and the two DRL baselines. This suggests that EM-EDM can effectively model complex student pedagogical decision-making processes through the ability to manage a large, continuous state space and adapt to handle diverse and heterogeneous reward functions with very few given demonstrations.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 正規化流れからの量子状態

Quantum states from normalizing flows ( http://arxiv.org/abs/2406.02451v1 )

ライセンス: Link先を確認
Scott Lawrence, Arlee Shelby, Yukari Yamauchi, (参考訳) 正規化フローに基づく多体量子力学系のためのニューラル量子状態のアーキテクチャを提案する。 正規化フローを使用することで、波動関数によって定義される確率分布から構成の非相関な効率的なサンプリングが可能となり、シミュレーションでニューラルステートを使用する際の大きなコストが軽減される。 本研究では,この構造を地中準備(ハーモニックトラップ内での自己相互作用粒子)とリアルタイム進化(一次元トンネル)の両方に利用することを示す。 最後に、ニューラルネットワークを用いて量子進化を近似する際の体系的誤差の厳密な推定方法について述べる。

We introduce an architecture for neural quantum states for many-body quantum-mechanical systems, based on normalizing flows. The use of normalizing flows enables efficient uncorrelated sampling of configurations from the probability distribution defined by the wavefunction, mitigating a major cost of using neural states in simulation. We demonstrate the use of this architecture for both ground-state preparation (for self-interacting particles in a harmonic trap) and real-time evolution (for one-dimensional tunneling). Finally, we detail a procedure for obtaining rigorous estimates of the systematic error when using neural states to approximate quantum evolution.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 有限状態MDPにおけるオフラインベイズアレタリックおよびてんかん不確かさの定量化と後値最適化

Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs ( http://arxiv.org/abs/2406.02456v1 )

ライセンス: Link先を確認
Filippo Valdettaro, A. Aldo Faisal, (参考訳) 我々はベイズの不確実性を定量化し、それを未知の力学を持つ有限状態マルコフ決定過程(MDP)のオフラインユースケースに組み込むという課題に対処する。 本手法は,MDPの後方分布に関する強い仮定に頼ることなく,ベイジアンの後方予測値を最適化する新手法を提案する。 まず、標準ベイズ強化学習法を用いて、利用可能なデータに基づいて、MDPパラメータの後方不確実性を捉える。 次に, 後部サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し, 総分散の法則を適用した。 後続の期待値を最大化するポリシを見つけるために、ポリシの関数として値のクローズドフォーム表現を利用する。 これにより、この問題を解決するための確率的勾配に基づくアプローチを提案することができる。 本稿では, 単純かつ解釈可能なグリッドワールドにおけるエージェントの不確実性定量化とベイズ的後値最適化性能について述べる。 最後に,集中治療単位の患者に対する治療を推奨するAIクリニック問題に適用することで,本手法の現実的な影響と計算スケーラビリティを強調し,オフラインデータを用いた有限状態MDPのキーケースとして登場した。 我々は,ベイズ決定理論に根ざした手法を実世界に適用する可能性を示した上で,大規模MDPのベイズ的モデリングで生じる課題について論じる。 コードはhttps://github.com/filippovaldettaro/finite-state-mdpsで公開しています。

We address the challenge of quantifying Bayesian uncertainty and incorporating it in offline use cases of finite-state Markov Decision Processes (MDPs) with unknown dynamics. Our approach provides a principled method to disentangle epistemic and aleatoric uncertainty, and a novel technique to find policies that optimise Bayesian posterior expected value without relying on strong assumptions about the MDP's posterior distribution. First, we utilise standard Bayesian reinforcement learning methods to capture the posterior uncertainty in MDP parameters based on available data. We then analytically compute the first two moments of the return distribution across posterior samples and apply the law of total variance to disentangle aleatoric and epistemic uncertainties. To find policies that maximise posterior expected value, we leverage the closed-form expression for value as a function of policy. This allows us to propose a stochastic gradient-based approach for solving the problem. We illustrate the uncertainty quantification and Bayesian posterior value optimisation performance of our agent in simple, interpretable gridworlds and validate it through ground-truth evaluations on synthetic MDPs. Finally, we highlight the real-world impact and computational scalability of our method by applying it to the AI Clinician problem, which recommends treatment for patients in intensive care units and has emerged as a key use case of finite-state MDPs with offline data. We discuss the challenges that arise with Bayesian modelling of larger scale MDPs while demonstrating the potential to apply our methods rooted in Bayesian decision theory into the real world. We make our code available at https://github.com/filippovaldettaro/finite-state-mdps .
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 同変ニューラルネットワークを用いた機械学習ハバードパラメータ

Machine learning Hubbard parameters with equivariant neural networks ( http://arxiv.org/abs/2406.02457v1 )

ライセンス: Link先を確認
Martin Uhrin, Austin Zadoks, Luca Binci, Nicola Marzari, Iurii Timrov, (参考訳) 拡張ハバード汎関数 (DFT+$U$+$V$) を持つ密度汎関数理論は、遷移金属または希土類元素を含む複雑な物質を正確に記述するための堅牢な枠組みを提供する。 これは半局所函数に固有の自己相互作用誤差を緩和し、部分的に満たされた$d$と$f$電子状態を持つ系では特に顕著である。 しかし、このアプローチにおける精度の達成は、オンサイト$U$とインターサイト$V$Hubbardパラメータの正確な決定に依存している。 実際には、これらは半経験的なチューニングによって得られ、事前の知識を必要とするか、より正確には予測的だが高価な第一原理計算を用いて得られる。 本稿では,原子の占有行列を記述子として利用し,電子構造,局所化学環境,酸化状態を直接把握する同変ニューラルネットワークに基づく機械学習モデルを提案する。 ここでは,密度汎関数摂動理論(DFPT)や構造緩和のように,繰り返し線形応答計算と自己整合的に計算されたハバードパラメータの予測を行う。 注目すべきは、様々な結晶構造と組成にまたがる11の材料からのデータに基づいてトレーニングすると、Hubbard $U$および$V$パラメータの平均絶対相対誤差が3%および5%に達することである。 計算コストの高い DFT や DFPT の自己整合性プロトコルを回避することにより,DFPT の精度を向上しつつ,計算オーバーヘッドが無視できる Hubbard パラメータの予測を著しく高速化する。 さらに, その堅牢な伝達性から, 高スループット計算による材料発見と設計の高速化が促進され, 様々な技術応用への応用が期待できる。

Density-functional theory with extended Hubbard functionals (DFT+$U$+$V$) provides a robust framework to accurately describe complex materials containing transition-metal or rare-earth elements. It does so by mitigating self-interaction errors inherent to semi-local functionals which are particularly pronounced in systems with partially-filled $d$ and $f$ electronic states. However, achieving accuracy in this approach hinges upon the accurate determination of the on-site $U$ and inter-site $V$ Hubbard parameters. In practice, these are obtained either by semi-empirical tuning, requiring prior knowledge, or, more correctly, by using predictive but expensive first-principles calculations. Here, we present a machine learning model based on equivariant neural networks which uses atomic occupation matrices as descriptors, directly capturing the electronic structure, local chemical environment, and oxidation states of the system at hand. We target here the prediction of Hubbard parameters computed self-consistently with iterative linear-response calculations, as implemented in density-functional perturbation theory (DFPT), and structural relaxations. Remarkably, when trained on data from 11 materials spanning various crystal structures and compositions, our model achieves mean absolute relative errors of 3% and 5% for Hubbard $U$ and $V$ parameters, respectively. By circumventing computationally expensive DFT or DFPT self-consistent protocols, our model significantly expedites the prediction of Hubbard parameters with negligible computational overhead, while approaching the accuracy of DFPT. Moreover, owing to its robust transferability, the model facilitates accelerated materials discovery and design via high-throughput calculations, with relevance for various technological applications.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# RoomTex: 反復塗布による室内構成シーンのテクスチャ化

RoomTex: Texturing Compositional Indoor Scenes via Iterative Inpainting ( http://arxiv.org/abs/2406.02461v1 )

ライセンス: Link先を確認
Qi Wang, Ruijie Lu, Xudong Xu, Jingbo Wang, Michael Yu Wang, Bo Dai, Gang Zeng, Dan Xu, (参考訳) 拡散モデルの進歩は、テキストから3Dオブジェクト生成の境界を押し上げている。 合理的な形状のシーンにオブジェクトを合成するのは簡単だが、スタイルの不整合やオブジェクト間の閉塞により、そのようなシーンを完璧にテクスチャ化することは容易ではない。 これらの問題に対処するため,RoomTexと呼ばれる粗大な3次元シーンテクスチャフレームワークを提案し,非テクスチャ構成のシーンメッシュに対して高忠実でスタイルに一貫性のあるテクスチャを生成する。 粗い段階では、RoomTexはまずシーンメッシュをパノラマ深度マップに切り離し、ControlNetを利用して部屋パノラマを生成します。 ファインステージでは、パノラマ画像とパースペクティブデプスマップに基づいて、RoomTexは、選択されたカメラビューに沿って、部屋内のすべてのオブジェクトを反復的に洗練し、テクスチャ化する。 さらに,RGBと奥行き空間の整合性を維持するために,エッジ検出の微妙な手法を提案する。 広汎な実験により,本手法は高品質で多様な部屋のテクスチャを生成可能であることが示され,さらに,インペイントベースのフレームワークと構成メッシュ入力により,インタラクティブなきめ細かいテクスチャ制御とフレキシブルなシーン編集をサポートする。 私たちのプロジェクトページはhttps://qwang666.github.io/RoomTex/で公開されています。

The advancement of diffusion models has pushed the boundary of text-to-3D object generation. While it is straightforward to composite objects into a scene with reasonable geometry, it is nontrivial to texture such a scene perfectly due to style inconsistency and occlusions between objects. To tackle these problems, we propose a coarse-to-fine 3D scene texturing framework, referred to as RoomTex, to generate high-fidelity and style-consistent textures for untextured compositional scene meshes. In the coarse stage, RoomTex first unwraps the scene mesh to a panoramic depth map and leverages ControlNet to generate a room panorama, which is regarded as the coarse reference to ensure the global texture consistency. In the fine stage, based on the panoramic image and perspective depth maps, RoomTex will refine and texture every single object in the room iteratively along a series of selected camera views, until this object is completely painted. Moreover, we propose to maintain superior alignment between RGB and depth spaces via subtle edge detection methods. Extensive experiments show our method is capable of generating high-quality and diverse room textures, and more importantly, supporting interactive fine-grained texture control and flexible scene editing thanks to our inpainting-based framework and compositional mesh input. Our project page is available at https://qwang666.github.io/RoomTex/.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 逆問題解決のためのパッチベース拡散モデルによる画像優先学習

Learning Image Priors through Patch-based Diffusion Models for Solving Inverse Problems ( http://arxiv.org/abs/2406.02462v1 )

ライセンス: Link先を確認
Jason Hu, Bowen Song, Xiaojian Xu, Liyue Shen, Jeffrey A. Fessler, (参考訳) 拡散モデルは、基礎となるデータ分布から強力な画像前処理を学習し、それを使って逆問題を解決することができるが、トレーニングプロセスは計算コストが高く、大量のデータを必要とする。 このようなボトルネックは、ほとんどの既存の作品が3D画像のような高次元・高解像度のデータに対して実現可能であることを妨げている。 本稿では,画像のパッチのみに基づく拡散モデルのトレーニングにより,画像全体に対する効率的なデータ学習手法を提案する。 具体的には、パッチを用いた位置認識拡散逆解法PaDISを提案し、パッチのスコアと位置符号化を通して画像全体のスコア関数を取得し、これを逆問題解決の先駆けとして利用する。 まず, この拡散モデルは, 位置符号化による画像全体の生成能力を維持しつつ, メモリ効率とデータ効率の向上を実現していることを示す。 さらに、提案したPaDISモデルは非常に柔軟であり、異なる拡散逆解法(DIS)で接続することができる。 提案手法は,パッチベースのみを前提としたCT再構成,デブロアリング,超解像といった,自然画像領域と医用画像領域の様々な逆問題の解決を可能にする。 特に、PaDISは、トレーニングデータに制限がある場合、画像の事前に基づいてトレーニングされた従来のDIメソッドよりも優れており、パッチベースの事前学習によって提案手法のデータ効率を実証している。

Diffusion models can learn strong image priors from underlying data distribution and use them to solve inverse problems, but the training process is computationally expensive and requires lots of data. Such bottlenecks prevent most existing works from being feasible for high-dimensional and high-resolution data such as 3D images. This paper proposes a method to learn an efficient data prior for the entire image by training diffusion models only on patches of images. Specifically, we propose a patch-based position-aware diffusion inverse solver, called PaDIS, where we obtain the score function of the whole image through scores of patches and their positional encoding and utilize this as the prior for solving inverse problems. First of all, we show that this diffusion model achieves an improved memory efficiency and data efficiency while still maintaining the capability to generate entire images via positional encoding. Additionally, the proposed PaDIS model is highly flexible and can be plugged in with different diffusion inverse solvers (DIS). We demonstrate that the proposed PaDIS approach enables solving various inverse problems in both natural and medical image domains, including CT reconstruction, deblurring, and superresolution, given only patch-based priors. Notably, PaDIS outperforms previous DIS methods trained on entire image priors in the case of limited training data, demonstrating the data efficiency of our proposed approach by learning patch-based prior.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# Click Without Compromise: ユーザ毎の差分プライバシーによるオンライン広告計測

Click Without Compromise: Online Advertising Measurement via Per User Differential Privacy ( http://arxiv.org/abs/2406.02463v1 )

ライセンス: Link先を確認
Yingtai Xiao, Jian Du, Shikun Zhang, Qiang Yan, Danfeng Zhang, Daniel Kifer, (参考訳) オンライン広告はインターネットエコシステムの基盤であり、広告測定は効率を最適化する上で重要な役割を担っている。 広告測定は、購入などの望ましい行動に、さまざまなプラットフォームにわたる広告露出をもたらし、これらのプラットフォームにまたがるユーザー活動の収集を必要とする。 このプラクティスは、プライバシーの懸念の高まりによる制限の増大に直面しているため、このコンテキストにおけるユーザのプライバシ保護は必須である。 私たちの研究は、広告キャンペーンでリアルタイムにストリーミングデータを報告することで、広告計測システムの現実的な課題を定式化した初めてのものです。 本稿では,広告測定結果のための新しいユーザレベルの差分プライバシー保護スキームであるAds-BPCを紹介する。 提案手法は,大域的なノイズパワーを最適化し,測定精度を高めつつ,差分プライバシーを保った非同一分散ノイズ分布を実現する。 実世界の広告キャンペーンと合成データセットの両方の実験を通じて、Ads-BPCは広告測定に適用される既存のストリーミングDPメカニズムよりも25%から50%精度が向上する。 そこで本手法は, プライバシー保証と同時に精度を向上し, プライバシー保護広告測定の最先端化を図っている。

Online advertising is a cornerstone of the Internet ecosystem, with advertising measurement playing a crucial role in optimizing efficiency. Ad measurement entails attributing desired behaviors, such as purchases, to ad exposures across various platforms, necessitating the collection of user activities across these platforms. As this practice faces increasing restrictions due to rising privacy concerns, safeguarding user privacy in this context is imperative. Our work is the first to formulate the real-world challenge of advertising measurement systems with real-time reporting of streaming data in advertising campaigns. We introduce Ads-BPC, a novel user-level differential privacy protection scheme for advertising measurement results. This approach optimizes global noise power and results in a non-identically distributed noise distribution that preserves differential privacy while enhancing measurement accuracy. Through experiments on both real-world advertising campaigns and synthetic datasets, Ads-BPC achieves a 25% to 50% increase in accuracy over existing streaming DP mechanisms applied to advertising measurement. This highlights our method's effectiveness in achieving superior accuracy alongside a formal privacy guarantee, thereby advancing the state-of-the-art in privacy-preserving advertising measurement.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 複数の環境にまたがる部分同定処理効果のためのメタラーナー

Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments ( http://arxiv.org/abs/2406.02464v1 )

ライセンス: Link先を確認
Jonas Schweisthal, Dennis Frauen, Mihaela van der Schaar, Stefan Feuerriegel, (参考訳) 観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。 ここでは、異なる病院、医師、国など、さまざまな環境から観測データが得られた広い環境に焦点を当てる。 さらに、標準的な因果仮定、すなわち環境内における重複と不整合の違反を許容する。 この目的のために、我々は点同定から離れ、部分的同定に焦点をあてる。 具体的には、複数の環境における文献からの仮定により、環境を計測変数(IV)として解釈できることを示す。 これにより、環境全体にわたる処理割り当て機構を活用することで、CATEの部分的識別のためのIV文献からのバウンダリを適応することができる。 そこで我々は、任意の機械学習モデルと組み合わせて使用できる境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。 さらに、シミュレーションデータと実世界データの両方を用いて、様々な実験においてメタラーナーの有効性を実証する。 最後に,非準拠なランダム化制御試験など,機器変数設定における部分的識別へのメタラーナーの適用性について論じる。

Estimating the conditional average treatment effect (CATE) from observational data is relevant for many applications such as personalized medicine. Here, we focus on the widespread setting where the observational data come from multiple environments, such as different hospitals, physicians, or countries. Furthermore, we allow for violations of standard causal assumptions, namely, overlap within the environments and unconfoundedness. To this end, we move away from point identification and focus on partial identification. Specifically, we show that current assumptions from the literature on multiple environments allow us to interpret the environment as an instrumental variable (IV). This allows us to adapt bounds from the IV literature for partial identification of CATE by leveraging treatment assignment mechanisms across environments. Then, we propose different model-agnostic learners (so-called meta-learners) to estimate the bounds that can be used in combination with arbitrary machine learning models. We further demonstrate the effectiveness of our meta-learners across various experiments using both simulated and real-world data. Finally, we discuss the applicability of our meta-learners to partial identification in instrumental variable settings, such as randomized controlled trials with non-compliance.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 自己監督型エンコーダを用いた未知データセットのクラスタリングに関する実証的研究

An Empirical Study into Clustering of Unseen Datasets with Self-Supervised Encoders ( http://arxiv.org/abs/2406.02465v1 )

ライセンス: Link先を確認
Scott C. Lowe, Joakim Bruslund Haurum, Sageev Oore, Thomas B. Moeslund, Graham W. Taylor, (参考訳) 事前トレーニングされたモデルは、再トレーニングなしに新しいデータセットに一般化できるか? トレーニングされていないデータセットに事前トレーニングされたイメージモデルをデプロイし、それらの埋め込みが意味のあるクラスタを形成するかどうかを調査します。 ベンチマーク実験のスイートでは、ImageNet-1kで事前トレーニングされたエンコーダと、教師付きまたは自己教師型トレーニング技術、トレーニング中に見られなかったイメージデータセットにデプロイされ、従来のクラスタリングアルゴリズムでクラスタリングされる。 この評価は、教師付きモデルに異なる特徴を優先する自己教師付きモデルの埋め込みに関する新たな洞察を提供する。 スーパービジョンエンコーダは通常、トレーニングドメイン内のSSLエンコーダよりも実用性が高く、その外では逆向きであるが、微調整エンコーダは逆の傾向を示している。 クラスタリングは、kNNのような既存のメソッドと直交する自己教師付き学習表現の有用性を評価する方法を提供する。 さらに, 実測空間におけるシルエットスコアは, クラスタリング性能と高い相関関係があり, 基底真理ラベルのないデータ上でのクラスタリング性能のプロキシとして利用することができる。 コード実装は \url{https://github.com/scottclowe/zs-ssl-clustering/} で利用可能です。

Can pretrained models generalize to new datasets without any retraining? We deploy pretrained image models on datasets they were not trained for, and investigate whether their embeddings form meaningful clusters. Our suite of benchmarking experiments use encoders pretrained solely on ImageNet-1k with either supervised or self-supervised training techniques, deployed on image datasets that were not seen during training, and clustered with conventional clustering algorithms. This evaluation provides new insights into the embeddings of self-supervised models, which prioritize different features to supervised models. Supervised encoders typically offer more utility than SSL encoders within the training domain, and vice-versa far outside of it, however, fine-tuned encoders demonstrate the opposite trend. Clustering provides a way to evaluate the utility of self-supervised learned representations orthogonal to existing methods such as kNN. Additionally, we find the silhouette score when measured in a UMAP-reduced space is highly correlated with clustering performance, and can therefore be used as a proxy for clustering performance on data with no ground truth labels. Our code implementation is available at \url{https://github.com/scottclowe/zs-ssl-clustering/}.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# DL-KDD:暗黒における行動認識のためのデュアルライト知識蒸留

DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark ( http://arxiv.org/abs/2406.02468v1 )

ライセンス: Link先を確認
Chi-Jui Chang, Oscar Tai-Yuan Chen, Vincent S. Tseng, (参考訳) ダークビデオにおける人間の行動認識は、コンピュータビジョンにとって難しい課題である。 近年の研究では、映像の視認性を改善するためにダークエンハンスメント法の適用に焦点が当てられている。 しかし、このようなビデオ処理により、オリジナルの(未改良の)ビデオに重要な情報が失われる。 逆に、従来の2ストリーム方式では、オリジナルビデオとプロセッシングビデオの両方から情報を学習することができるが、ビデオ分類作業の推論フェーズにおいて、計算コストが大幅に増加する可能性がある。 これらの課題に対処するため、我々は、Dual-Light KnowleDge Distillation for Action Recognition in the Dark (DL-KDD)という、教師が学習する新しいビデオ分類フレームワークを提案する。 このフレームワークは、推論中に追加の計算コストを導入することなく、オリジナルのビデオと拡張ビデオの両方から学習することができる。 具体的には、DL-KDDは、訓練中に知識蒸留の戦略を利用する。 教師モデルは、強化ビデオで訓練され、学生モデルは、教師モデルによって生成されたオリジナルビデオとソフトターゲットの両方で訓練される。 この教師学生フレームワークにより、学生モデルは推論中にオリジナルの入力ビデオのみを使用して行動を予測することができる。 実験では,提案するDL-KDDフレームワークがARID,ARID V1.5,Dark-48データセットの最先端手法より優れていた。 各データセット上で最高のパフォーマンスを実現し、オリジナルビデオ入力のみを使用してDark-48の4.18%の改善を実現し、推論に2ストリームフレームワークや拡張モジュールを使用するのを避ける。 さらに, アブレーション実験における蒸留方法の有効性を検証した。 その結果,暗黒人間の行動認識における知識蒸留フレームワークの利点を浮き彫りにした。

Human action recognition in dark videos is a challenging task for computer vision. Recent research focuses on applying dark enhancement methods to improve the visibility of the video. However, such video processing results in the loss of critical information in the original (un-enhanced) video. Conversely, traditional two-stream methods are capable of learning information from both original and processed videos, but it can lead to a significant increase in the computational cost during the inference phase in the task of video classification. To address these challenges, we propose a novel teacher-student video classification framework, named Dual-Light KnowleDge Distillation for Action Recognition in the Dark (DL-KDD). This framework enables the model to learn from both original and enhanced video without introducing additional computational cost during inference. Specifically, DL-KDD utilizes the strategy of knowledge distillation during training. The teacher model is trained with enhanced video, and the student model is trained with both the original video and the soft target generated by the teacher model. This teacher-student framework allows the student model to predict action using only the original input video during inference. In our experiments, the proposed DL-KDD framework outperforms state-of-the-art methods on the ARID, ARID V1.5, and Dark-48 datasets. We achieve the best performance on each dataset and up to a 4.18% improvement on Dark-48, using only original video inputs, thus avoiding the use of two-stream framework or enhancement modules for inference. We further validate the effectiveness of the distillation strategy in ablative experiments. The results highlight the advantages of our knowledge distillation framework in dark human action recognition.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# ランドスケープを意識して成長する: 小さなRAGの力

Landscape-Aware Growing: The Power of a Little LAG ( http://arxiv.org/abs/2406.02469v1 )

ライセンス: Link先を確認
Stefani Karp, Nikunj Saunshi, Sobhan Miryoosefi, Sashank J. Reddi, Sanjiv Kumar, (参考訳) 近年,Transformerベースのモデルのトレーニングに有効な事前学習パラダイムへの関心が高まっている。 最近のいくつかのアプローチでは、計算を節約するためにより小さなモデルを使用して、より大きなモデルを初期化している(例えば、スタックや融合)。 本研究では,成長戦略のプールから最適な成長戦略をどのように選択するかという根本的な問題について考察する。 以前の作業は、初期化時の損失および/または機能保存行動、あるいはトレーニングの終了時の単にパフォーマンスに重点を置いてきた。 その代わり、初期化時の行動は最終性能の予測因子として誤解を招く可能性があり、「ランドスケープ・アウェア・グロース(LAG)」(ランドスケープ・アウェア・グロース)と呼ばれる早期トレーニングのダイナミクスに基づく別の視点を示す。 トレーニングの初期段階における最終性能と性能の相関関係を広範囲に解析し、最適な成長戦略(初期化後に小さな「ラグ」しか持たない)の早期かつより正確な予測を求める。 この視点はまた、段階的な積み重ねに対する適応的な戦略を動機付けている。

Recently, there has been increasing interest in efficient pretraining paradigms for training Transformer-based models. Several recent approaches use smaller models to initialize larger models in order to save computation (e.g., stacking and fusion). In this work, we study the fundamental question of how to select the best growing strategy from a given pool of growing strategies. Prior works have extensively focused on loss- and/or function-preserving behavior at initialization or simply performance at the end of training. Instead, we identify that behavior at initialization can be misleading as a predictor of final performance and present an alternative perspective based on early training dynamics, which we call "landscape-aware growing (LAG)". We perform extensive analysis of correlation of the final performance with performance in the initial steps of training and find early and more accurate predictions of the optimal growing strategy (i.e., with only a small "lag" after initialization). This perspective also motivates an adaptive strategy for gradual stacking.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# メタ設計による言語モデルを用いた量子実験

Meta-Designing Quantum Experiments with Language Models ( http://arxiv.org/abs/2406.02470v1 )

ライセンス: Link先を確認
Sören Arlt, Haonan Duan, Felix Li, Sang Michael Xie, Yuhuai Wu, Mario Krenn, (参考訳) 人工知能(AI)は、人間の能力を超えた解決策を見つけることによって、科学的発見を著しく前進させる可能性がある。 しかし、これらの超人的解はしばしば直感的ではなく、可能な限り根底にある原理を明らかにするのにかなりの努力を必要とする。 ここでは、合成データに基づいて訓練されたコード生成言語モデルが、特定の問題の解決策を見つけるだけでなく、メタソリューションを生成できることを示す。 具体的には、新しい量子物理学実験の設計のために、シーケンス・ツー・シーケンス・トランスフォーマーアーキテクチャは、量子システム全体の実験的青写真を記述する解釈可能なPythonコードを生成する。 我々は、無限大の量子状態のクラスに対する一般的な、以前は知られていなかった設計規則を発見する。 可読性のあるコンピュータコードで一般化されたパターンを自動的に生成する能力は、物理の中心的な目的の一つである新しい科学的理解の発見を支援する機械にとって、重要なステップだ。

Artificial Intelligence (AI) has the potential to significantly advance scientific discovery by finding solutions beyond human capabilities. However, these super-human solutions are often unintuitive and require considerable effort to uncover underlying principles, if possible at all. Here, we show how a code-generating language model trained on synthetic data can not only find solutions to specific problems but can create meta-solutions, which solve an entire class of problems in one shot and simultaneously offer insight into the underlying design principles. Specifically, for the design of new quantum physics experiments, our sequence-to-sequence transformer architecture generates interpretable Python code that describes experimental blueprints for a whole class of quantum systems. We discover general and previously unknown design rules for infinitely large classes of quantum states. The ability to automatically generate generalized patterns in readable computer code is a crucial step toward machines that help discover new scientific understanding -- one of the central aims of physics.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 大規模言語モデルを用いた時間的複合イベントの分析 : 時間的・長期的理解に向けてのベンチマーク

Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding ( http://arxiv.org/abs/2406.02472v1 )

ライセンス: Link先を確認
Zhihan Zhang, Yixin Cao, Chenchen Ye, Yunshan Ma, Lizi Liao, Tat-Seng Chua, (参考訳) デジタルの風景は急速に進化しており、オンラインニュースの量は増え続けており、複雑な出来事の迅速かつ正確な分析の必要性を強調している。 本稿では,時間的複合イベント(TCE: Temporal Complex Event)として,多くのニュース記事からなる複合イベントについて述べる。 本稿では,Large Language Models (LLMs) を用いてTCE内のイベントチェーンを系統的に抽出・解析する手法を提案する。 我々は、時間的ダイナミクスの扱いと広範なテキスト理解におけるLLMの熟練度を評価するため、TCELongBenchというベンチマークを構築した。 このベンチマークは、読み取り理解、時間的シークエンシング、将来のイベント予測という、3つの異なるタスクを含む。 実験では,検索拡張生成法と長いコンテキストウィンドウを持つLLMを用いて,TEの長いニュース記事を扱う。 この結果から,検索に適したモデルでは,長期のコンテキストウインドウを用いたモデルと同等の性能を示した。

The digital landscape is rapidly evolving with an ever-increasing volume of online news, emphasizing the need for swift and precise analysis of complex events. We refer to the complex events composed of many news articles over an extended period as Temporal Complex Event (TCE). This paper proposes a novel approach using Large Language Models (LLMs) to systematically extract and analyze the event chain within TCE, characterized by their key points and timestamps. We establish a benchmark, named TCELongBench, to evaluate the proficiency of LLMs in handling temporal dynamics and understanding extensive text. This benchmark encompasses three distinct tasks - reading comprehension, temporal sequencing, and future event forecasting. In the experiment, we leverage retrieval-augmented generation (RAG) method and LLMs with long context window to deal with lengthy news articles of TCE. Our findings indicate that models with suitable retrievers exhibit comparable performance with those utilizing long context window.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 腰部脊柱管内MRIにおける遅発性拡散像の検討

Inpainting Pathology in Lumbar Spine MRI with Latent Diffusion ( http://arxiv.org/abs/2406.02477v1 )

ライセンス: Link先を確認
Colin Hansen, Simas Glinskis, Ashwin Raju, Micha Kornreich, JinHyeong Park, Jayashri Pawar, Richard Herzog, Li Zhang, Benjamin Odry, (参考訳) 放射線学における自動診断のためのデータ駆動モデルは、集団における病理の表現の低さと専門家アノテーションのコストにより、不十分で不均衡なデータセットに悩まされる。 データセットは、データ拡張によって強化される。 しかしながら、モデルトレーニング中に完全な変換スイートを利用する場合であっても、典型的なデータ拡張は人間の解剖学のバリエーションに対処しない。 別の方法は、生成モデルを使用してデータを合成することであり、特定の属性でデータセットを作成できる可能性がある。 このことは約束するが、ジェネレーティブ・アドバイサル・ネットワークのような一般的な生成モデルは、必然的に解剖学的に不正確な特徴を生み出す可能性がある。 一方、より安定性の高い拡散モデルでは、トレーニングデータを記憶し、プライバシや生成多様性に関する懸念を提起する傾向がある。 あるいは、医療画像に病理を直接挿入することで、データの増大の可能性を秘めている。 しかし、このアプローチでは、発生した病理特徴と周囲の解剖学的コンテキストを正確にマージする、という新しい課題がもたらされる。 インペインティングは単純な病変に対処する方法として確立されているが、複雑な構造変化を含む病理学への応用はいまだに未解明のままである。 潜伏拡散モデルにおけるボクセルワイドノイズスケジューリングにより,MRIの健全な解剖学に病理学的特徴を塗布する効率的な手法を提案する。 腰椎椎間板ヘルニアと中心管狭窄を診断し, 術式と比較してFrechet Inception Distanceが良好である。

Data driven models for automated diagnosis in radiology suffer from insufficient and imbalanced datasets due to low representation of pathology in a population and the cost of expert annotations. Datasets can be bolstered through data augmentation. However, even when utilizing a full suite of transformations during model training, typical data augmentations do not address variations in human anatomy. An alternative direction is to synthesize data using generative models, which can potentially craft datasets with specific attributes. While this holds promise, commonly used generative models such as Generative Adversarial Networks may inadvertently produce anatomically inaccurate features. On the other hand, diffusion models, which offer greater stability, tend to memorize training data, raising concerns about privacy and generative diversity. Alternatively, inpainting has the potential to augment data through directly inserting pathology in medical images. However, this approach introduces a new challenge: accurately merging the generated pathological features with the surrounding anatomical context. While inpainting is a well established method for addressing simple lesions, its application to pathologies that involve complex structural changes remains relatively unexplored. We propose an efficient method for inpainting pathological features onto healthy anatomy in MRI through voxelwise noise scheduling in a latent diffusion model. We evaluate the method's ability to insert disc herniation and central canal stenosis in lumbar spine sagittal T2 MRI, and it achieves superior Frechet Inception Distance compared to state-of-the-art methods.
翻訳日:2024-06-05 15:20:58 公開日:2024-06-04
# 大規模言語モデルにおけるテキストの扱い:無条件トーケン強制融合の導入

Hiding Text in Large Language Models: Introducing Unconditional Token Forcing Confusion ( http://arxiv.org/abs/2406.02481v1 )

ライセンス: Link先を確認
Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki, (参考訳) 単純な微調整の助けを借りて、隠れたテキストを大きな言語モデル(LLM)に人工的に埋め込むことができる。 このテキストは LLM への特定のクエリによってのみ公開される。 主な用途はLLMフィンガープリントとステガノグラフィである。 LLMフィンガープリントの文脈では、ライセンスコンプライアンスを検証するために、ユニークなテキスト識別子(フィンガープリント)がモデル内に埋め込まれている。 ステガノグラフィーの文脈では、LSMは指定されたトリガーを通して開示できる隠されたメッセージのキャリアとして機能する。 我々の研究は、LLMに隠されたテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガー(文字やトークンのシーケンスがトリガーとして機能する)のために安全であるように見えるが、LCMの出力復号プロセスの分析を通じて抽出される可能性があることを実証している。 本研究では,無条件トークンフォーシングと呼ばれる抽出手法を提案する。 LLMの語彙から各トークンをモデルに反復的に供給すると、異常に高いトークン確率を持つシーケンスが明らかになり、潜在的な埋め込みテキスト候補を示すという仮説に基づいている。 さらに, 隠れ指紋の最初のトークンを入力として使用する場合, LLMは高いトークン確率を持つ出力シーケンスを生成するだけでなく, 指紋自体を反復的に生成することを示した。 また,テキストを非条件トークン強制に耐性のある形で隠蔽する方法を提案し,無条件トークン強制融合と名付けた。

With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a designated trigger. Our work demonstrates that embedding hidden text in the LLM via fine-tuning, though seemingly secure due to the vast number of potential triggers (any sequence of characters or tokens could serve as a trigger), is susceptible to extraction through analysis of the LLM's output decoding process. We propose a novel approach to extraction called Unconditional Token Forcing. It is premised on the hypothesis that iteratively feeding each token from the LLM's vocabulary into the model should reveal sequences with abnormally high token probabilities, indicating potential embedded text candidates. Additionally, our experiments show that when the first token of a hidden fingerprint is used as an input, the LLM not only produces an output sequence with high token probabilities, but also repetitively generates the fingerprint itself. We also present a method to hide text in such a way that it is resistant to Unconditional Token Forcing, which we named Unconditional Token Forcing Confusion.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# Toeplitz non-quidsとToeplitz Braiding

Toeplitz non-liquids and Toeplitz braiding ( http://arxiv.org/abs/2406.02482v1 )

ライセンス: Link先を確認
Boxi Li, Yao Zhou, Peng Ye, (参考訳) 我々は '`Toeplitz non-liquids'' と呼ばれる3ドルの非液体状態のクラスを研究する。 これらの状態は、$z$-directionに沿って2Dツイストされた$\mathbb{Z}_N$位相的に順序付けられた層からなる。 有効場の理論は無限チャーン・サイモンズ理論(英語版)(iCS)により記述され、ブロック三角形トープリッツ行列型である ``$K$-matrix'' と呼ばれる係数行列を持つ。 z$-方向に沿った開境界条件(OBC)により、ある$K$-行列は '`Toeplitz Braiding'' と呼ばれるエキゾチックな現象を示す。 必要条件として、これはOBCの下での$K$-行列スペクトルにおける境界ゼロモードを必要とする。 鍵となる例は、1ドルのSu-Schrieffer-Heeger絶縁体のハミルトニアンに似た$K$-行列である。 チャーン・サイモンズ理論のゲージ不変性は、$K$-行列に対して整数量子化エントリを保証するので、これらのゼロモードやトゥープリッツブレイディングを保護するために通常の大域対称性は必要ない。 一般理論を得るために、Toeplitzのブレイディングをサポートする$K$-matricesを3つのタイプに分類し、それぞれの条件を解析する。 さらに、K$-行列のあらゆる種類の解析結果を数値的に研究する。 比較のために、自明なケースが数値的に示され、相互統計位相角は熱力学的極限において指数関数的に0に崩壊する。

We study a class of $3$D non-liquid states called ``Toeplitz non-liquids''. These states consist of a stack of $2$D twisted $\mathbb{Z}_N$ topologically ordered layers along the $z$-direction; nearby layers are coupled while keeping translational symmetry along $z$. The effective field theory is described by infinite Chern-Simons (iCS) theory, with a coefficient matrix called ``$K$-matrix'' that is of block-tridiagonal Toeplitz matrix-type. With open boundary conditions (OBC) along the $z$-direction, certain $K$-matrices exhibit an exotic phenomenon called ``Toeplitz braiding'', where the mutual braiding statistical phase between two anyons at opposite boundaries oscillates and remains non-zero in the thermodynamic limit. As a necessary condition, this requires boundary zero modes in the $K$-matrix spectrum under OBC. A key example is the $K$-matrix resembling the Hamiltonian of the $1$D Su-Schrieffer-Heeger insulator. Since the gauge invariance of Chern-Simons theory guarantees integer quantized entries for $K$-matrices, no usual global symmetries are needed to protect these zero modes or Toeplitz braiding. In order to obtain the general theory, we categorize $K$-matrices that support Toeplitz braiding into three types and analyze the conditions for each. We further numerically study the analytical results for all types of $K$-matrices. For comparison, a trivial case is numerically shown, where the mutual statistical phase angle decays exponentially to zero in the thermodynamic limit.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# ニューラル・スポーフィング対策はどのようにして部分的スポーフィング音声を検出するのか?

How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio? ( http://arxiv.org/abs/2406.02483v1 )

ライセンス: Link先を確認
Tianchi Liu, Lin Zhang, Rohan Kumar Das, Yi Ma, Ruijie Tao, Haizhou Li, (参考訳) 文を部分的に操作することは、その意味を大きく変えることができる。 近年の研究では、部分的にスプーフされたオーディオで訓練された対策(CM)が、そのようなスプーフを効果的に検出できることが示されている。 しかし、現在のCMの意思決定プロセスの理解は限られている。 我々はGrad-CAMを利用し、CMの判断を解釈するために定量的分析指標を導入する。 バルナフッ化物とスプーフドオーディオを連結した場合に発生する遷移領域のアーティファクトをCMが優先していることが判明した。 この焦点は、完全にスプーフされたオーディオで訓練されたCMと異なり、ボナフィドとスプーフされた部分のパターンの違いに重点を置いている。 さらなる調査では,CMの焦点の多様性について,正しい予測や誤った予測を行いながら説明する。 これらの洞察は、CMモデルの設計とデータセットの作成の基礎となる。 さらに,本研究は,これまでよく研究されていない部分的スプーフ音声検出の分野において,解釈可能性の基礎を築いた。

Partially manipulating a sentence can greatly change its meaning. Recent work shows that countermeasures (CMs) trained on partially spoofed audio can effectively detect such spoofing. However, the current understanding of the decision-making process of CMs is limited. We utilize Grad-CAM and introduce a quantitative analysis metric to interpret CMs' decisions. We find that CMs prioritize the artifacts of transition regions created when concatenating bona fide and spoofed audio. This focus differs from that of CMs trained on fully spoofed audio, which concentrate on the pattern differences between bona fide and spoofed parts. Our further investigation explains the varying nature of CMs' focus while making correct or incorrect predictions. These insights provide a basis for the design of CM models and the creation of datasets. Moreover, this work lays a foundation of interpretability in the field of partial spoofed audio detection that has not been well explored previously.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# スタブルパス:Pose-Guided Text-to- Image 生成のためのレバレッジトランス

Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation ( http://arxiv.org/abs/2406.02485v1 )

ライセンス: Link先を確認
Jiajun Wang, Morteza Ghahremani, Yitong Li, Björn Ommer, Christian Wachinger, (参考訳) 制御可能なテキスト・ツー・イメージ(T2I)拡散モデルでは,様々な条件が組み込まれ,高品質な視覚コンテンツを生成できる。 しかしながら、現在の方法では、人体の側面や後部の視点のような複雑なポーズ条件において、骨格的な人間のポーズによってガイドされるときの限られたパフォーマンスを示す。 この問題に対処するために,視覚変換器(ViT)に粗い注目マスキング戦略を導入し,T2Iモデルの正確なポーズガイダンスを得る新しいアダプタモデルであるStable-Poseを提案する。 Stable-Poseは、事前訓練された安定拡散内のポーズ条件を順応的に処理するように設計されており、画像合成中にポーズ表現を整列する洗練された効率的な方法を提供する。 我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。 マスクされたポーズ画像は、ターゲットのポーズ関連特徴に基づいた注意マップを階層的な方法で円滑に洗練し、粗いものから細かいものへと遷移させる。 さらに、損失関数を定式化し、ポーズ領域に重きを置くことで、複雑なポーズの詳細を捉える際のモデルの精度を向上する。 屋内および屋外のさまざまな人間のポーズシナリオにおいて,5つの公開データセット間での安定度の評価を行った。 Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。 プロジェクトのリンクとコードはhttps://github.com/ai-med/StablePose.comで公開されている。

Controllable text-to-image (T2I) diffusion models have shown impressive performance in generating high-quality visual content through the incorporation of various conditions. Current methods, however, exhibit limited performance when guided by skeleton human poses, especially in complex pose conditions such as side or rear perspectives of human figures. To address this issue, we present Stable-Pose, a novel adapter model that introduces a coarse-to-fine attention masking strategy into a vision Transformer (ViT) to gain accurate pose guidance for T2I models. Stable-Pose is designed to adeptly handle pose conditions within pre-trained Stable Diffusion, providing a refined and efficient way of aligning pose representation during image synthesis. We leverage the query-key self-attention mechanism of ViTs to explore the interconnections among different anatomical parts in human pose skeletons. Masked pose images are used to smoothly refine the attention maps based on target pose-related features in a hierarchical manner, transitioning from coarse to fine levels. Additionally, our loss function is formulated to allocate increased emphasis to the pose region, thereby augmenting the model's precision in capturing intricate pose details. We assessed the performance of Stable-Pose across five public datasets under a wide range of indoor and outdoor human pose scenarios. Stable-Pose achieved an AP score of 57.1 in the LAION-Human dataset, marking around 13% improvement over the established technique ControlNet. The project link and code is available at https://github.com/ai-med/StablePose.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# 時系列予測のための時空間コルモゴロフ・アルノルド変換器

A Temporal Kolmogorov-Arnold Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.02486v1 )

ライセンス: Link先を確認
Remi Genet, Hugo Inzirillo, (参考訳) 多変量データストリーム内の複雑な時間パターンと関係をキャプチャするのは難しい作業です。 本稿では,時間的コルモゴロフ・アルノルド変換器(TKAT)を提案する。 TKATは、TFT(Temporal Fusion Transformer)にインスパイアされた強力なエンコーダ・デコーダモデルとして登場し、観測された特徴が既知の部分よりも重要となるタスクを処理する。 この新建築はコルモゴロフ=アルノルド表現の理論的基礎と変圧器の力を組み合わせたものである。 TKATは、時系列に固有の複雑な依存関係を単純化し、より「解釈可能な」ことを目的としている。 このフレームワークでトランスフォーマーアーキテクチャを使うことで、自己認識機構を通じて長距離依存関係をキャプチャできる。

Capturing complex temporal patterns and relationships within multivariate data streams is a difficult task. We propose the Temporal Kolmogorov-Arnold Transformer (TKAT), a novel attention-based architecture designed to address this task using Temporal Kolmogorov-Arnold Networks (TKANs). Inspired by the Temporal Fusion Transformer (TFT), TKAT emerges as a powerful encoder-decoder model tailored to handle tasks in which the observed part of the features is more important than the a priori known part. This new architecture combined the theoretical foundation of the Kolmogorov-Arnold representation with the power of transformers. TKAT aims to simplify the complex dependencies inherent in time series, making them more "interpretable". The use of transformer architecture in this framework allows us to capture long-range dependencies through self-attention mechanisms.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# 初心者ソフトウェアエンジニアのオンラインリクルートと選択ジャーニー:アンチパターンと勧告

Investigating the Online Recruitment and Selection Journey of Novice Software Engineers: Anti-patterns and Recommendations ( http://arxiv.org/abs/2406.02487v1 )

ライセンス: Link先を確認
Miguel Setúbal, Tayana Conte, Marcos Kalinowski, Allysson Allex Araújo, (参考訳) [文脈]成長するソフトウェア開発市場は、ソフトウェア工学(SE)の資格を持つプロフェッショナルの需要を増大させています。 この目的のために企業は、訓練生やインターンなどの初心者に機会を開放するなど、高品質なチームを維持するために、Recruitment and Selection(R&S)プロセスを強化する必要がある。 しかし、様々な判断や社会技術的要因を考慮すると、このR&Sの複雑なプロセスは、近年の卒業生が市場に参入する上での課題となっている。 [目的]本論文は、R&Sプロセスに関する初期のSE専門家のためのアンチパターンとレコメンデーションのセットを特定することを目的としている。 [方法]探索的,定性的な方法論的アプローチの下で,ソフトウェア産業におけるR&S経験者18名を対象に,オンラインフォーカスグループを6回実施した。 結果] 質的分析の結果,12件のアンチパターンと31件の推奨項目を抽出した。 特定されたアンチパターンは、R&Sプロセスに固有の行動的および技術的な次元を含んでいる。 [結論]これらの発見は、SE産業を反映する豊富な機会を与え、アーリーケアの候補者や組織に貴重なガイダンスを与えます。 学術的な視点から見ると、この研究は、SEの協力的側面と人間的側面の文脈において、大きな可能性を持つ分野である人的資源とSEの交差に対する認識を高める。

[Context] The growing software development market has increased the demand for qualified professionals in Software Engineering (SE). To this end, companies must enhance their Recruitment and Selection (R&S) processes to maintain high quality teams, including opening opportunities for beginners, such as trainees and interns. However, given the various judgments and sociotechnical factors involved, this complex process of R&S poses a challenge for recent graduates seeking to enter the market. [Objective] This paper aims to identify a set of anti-patterns and recommendations for early career SE professionals concerning R&S processes. [Method] Under an exploratory and qualitative methodological approach, we conducted six online Focus Groups with 18 recruiters with experience in R&S in the software industry. [Results] After completing our qualitative analysis, we identified 12 anti-patterns and 31 actionable recommendations regarding the hiring process focused on entry level SE professionals. The identified anti-patterns encompass behavioral and technical dimensions innate to R&S processes. [Conclusion] These findings provide a rich opportunity for reflection in the SE industry and offer valuable guidance for early-career candidates and organizations. From an academic perspective, this work also raises awareness of the intersection of Human Resources and SE, an area with considerable potential to be expanded in the context of cooperative and human aspects of SE.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# ゼロショット多言語音声音声認識における言語大学音声属性のモデル化

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition ( http://arxiv.org/abs/2406.02488v1 )

ライセンス: Link先を確認
Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee, (参考訳) 我々は、エンドツーエンドの自動音声キーワード認識(SKR)に活用する新しい言語・ユニバーサルアプローチを提案する。 (i)自己指導型事前訓練モデル及び (ii)普遍的な音声属性のセット(マンガと調音の場所) 特に、Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。 訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。 Multilingual Spoken Words Corpusの実験では、文字と音素に基づくSKRに匹敵する性能を示した。 DAT(Domain Adversarial Training)が提案されたフレームワークを改善し、文字と音素ベースのSKRアプローチを13.73%と17.22%の相対的な単語誤り率(WER)で改善し、ゼロショット設定で未確認言語に対して32.14%と19.92%のWER削減を達成した。

We propose a novel language-universal approach to end-to-end automatic spoken keyword recognition (SKR) leveraging upon (i) a self-supervised pre-trained model, and (ii) a set of universal speech attributes (manner and place of articulation). Specifically, Wav2Vec2.0 is used to generate robust speech representations, followed by a linear output layer to produce attribute sequences. A non-trainable pronunciation model then maps sequences of attributes into spoken keywords in a multilingual setting. Experiments on the Multilingual Spoken Words Corpus show comparable performances to character- and phoneme-based SKR in seen languages. The inclusion of domain adversarial training (DAT) improves the proposed framework, outperforming both character- and phoneme-based SKR approaches with 13.73% and 17.22% relative word error rate (WER) reduction in seen languages, and achieves 32.14% and 19.92% WER reduction for unseen languages in zero-shot settings.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# Ai-Sampler:インボリューティブマップを用いたマルコフカーネルの逆学習

Ai-Sampler: Adversarial Learning of Markov kernels with involutive maps ( http://arxiv.org/abs/2406.02490v1 )

ライセンス: Link先を確認
Evgenii Egorov, Ricardo Valperga, Efstratios Gavves, (参考訳) マルコフ連鎖モンテカルロ法は、複雑な確率分布からサンプリングする多元的手法として統計学で人気を博している。 本研究では,マルコフ連鎖の遷移核のパラメータ化と訓練を行い,効率的なサンプリングと良好な混合を実現する手法を提案する。 この訓練方法は、チェーンの定常分布とデータの経験分布との総変動距離を最小化する。 我々のアプローチは、建設による詳細なバランスを確保するために、可逆ニューラルネットワークから構築されたインボリューティブなメトロポリス・ハスティングスカーネルを活用する。 可逆性はまた、その函数空間を制限するために使用できる判別関数の$C_2$-equivarianceを意味する。

Markov chain Monte Carlo methods have become popular in statistics as versatile techniques to sample from complicated probability distributions. In this work, we propose a method to parameterize and train transition kernels of Markov chains to achieve efficient sampling and good mixing. This training procedure minimizes the total variation distance between the stationary distribution of the chain and the empirical distribution of the data. Our approach leverages involutive Metropolis-Hastings kernels constructed from reversible neural networks that ensure detailed balance by construction. We find that reversibility also implies $C_2$-equivariance of the discriminator function which can be used to restrict its function space.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# 室温量子シミュレーションのための速度走査トモグラフィ

Velocity Scanning Tomography for Room-Temperature Quantum Simulation ( http://arxiv.org/abs/2406.02494v1 )

ライセンス: Link先を確認
Jiefei Wang, Ruosong Mao, Xingqi Xu, Yunzhou Lu, Jianhao Dai, Xiao Liu, Gang-Qin Liu, Dawei Lu, Huizhu Hu, Shi-Yao Zhu, Han Cai, Da-Wei Wang, (参考訳) 量子シミュレーションは、制御可能なプラットフォームを使用して、量子コヒーレンスを維持するためにウルトラコールド温度を必要とする、エキゾチックな量子現象を探索するためのアナログアプローチを提供する。 超放射格子(SL)は室温でのコヒーレントなトポロジカル物理をシミュレートするために利用されてきたが、原子の熱運動は物理量を正確に測定する上で重要な課題である。 この障害を克服するために、速度走査トモグラフィー技術を用いて、異なる速度の原子の応答を識別し、室温SL内の冷原子分光分解能を実現する。 吸収スペクトルと特定の速度で移動する原子とを比べることで、様々な有効な静電場にまたがるSLのワニエ・スタークはしごを導き出すことができ、その強度は原子速度に比例する。 我々は,ラダー周波数シフトを原子速度の関数として監視することにより,SLのザック位相を抽出し,エネルギーバンドのトポロジ的巻線を効果的に実証する。 本研究は,室温量子シミュレーションの実現可能性を示し,量子情報処理への応用を促進するものである。

Quantum simulation offers an analog approach for exploring exotic quantum phenomena using controllable platforms, typically necessitating ultracold temperatures to maintain the quantum coherence. Superradiance lattices (SLs) have been harnessed to simulate coherent topological physics at room temperature, but the thermal motion of atoms remains a notable challenge in accurately measuring the physical quantities. To overcome this obstacle, we invent and validate a velocity scanning tomography technique to discern the responses of atoms with different velocities, allowing cold-atom spectroscopic resolution within room-temperature SLs. By comparing absorption spectra with and without atoms moving at specific velocities, we can derive the Wannier-Stark ladders of the SL across various effective static electric fields, their strengths being proportional to the atomic velocities. We extract the Zak phase of the SL by monitoring the ladder frequency shift as a function of the atomic velocity, effectively demonstrating the topological winding of the energy bands. Our research signifies the feasibility of room-temperature quantum simulation and facilitates their applications in quantum information processing.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# GenS:多視点画像からの一般化可能なニューラルサーフェス再構成

GenS: Generalizable Neural Surface Reconstruction from Multi-View Images ( http://arxiv.org/abs/2406.02495v1 )

ライセンス: Link先を確認
Rui Peng, Xiaodong Gu, Luyang Tang, Shihe Shen, Fanqi Yu, Ronggang Wang, (参考訳) 符号付き距離関数(SDF)と可変ボリュームレンダリングを組み合わせた多視点画像から3次元の監督なしに表面再構成を行うための強力なパラダイムとして登場した。 しかし、現在の手法は、長時間のシーンごとの最適化を必要とするため、新しいシーンに一般化できない。 本稿では,エンド・ツー・エンドの一般化可能なニューラルサーフェス再構成モデルであるGenSを提案する。 各シーンごとに個別のネットワークをトレーニングする座標ベースの手法とは異なり、全シーンを直接エンコードする一般化されたマルチスケールボリュームを構築している。 既存のソリューションと比較して、我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を復元することができる。 一方,光度整合性の失敗に対して頑健な,より識別性の高いマルチスケール特徴空間において,マルチビュー整合性を実現するためのマルチスケール特徴量整合性を導入する。 そして、学習可能な特徴を自己強化することで、マッチング精度を継続的に改善し、アグリゲーションのあいまいさを軽減することができる。 さらに,高密度入力からスパース入力への幾何先行を蒸留することにより,モデルが少数の視点でカバーされた領域に対して頑健であるように,視点コントラスト損失を設計する。 一般的なベンチマーク実験により, 地中深度監視を用いた場合であっても, 我々のモデルは新たなシーンによく適応でき, 既存の最先端手法よりも優れることが示された。 コードはhttps://github.com/prstrive/GenS.comで入手できる。

Combining the signed distance function (SDF) and differentiable volume rendering has emerged as a powerful paradigm for surface reconstruction from multi-view images without 3D supervision. However, current methods are impeded by requiring long-time per-scene optimizations and cannot generalize to new scenes. In this paper, we present GenS, an end-to-end generalizable neural surface reconstruction model. Unlike coordinate-based methods that train a separate network for each scene, we construct a generalized multi-scale volume to directly encode all scenes. Compared with existing solutions, our representation is more powerful, which can recover high-frequency details while maintaining global smoothness. Meanwhile, we introduce a multi-scale feature-metric consistency to impose the multi-view consistency in a more discriminative multi-scale feature space, which is robust to the failures of the photometric consistency. And the learnable feature can be self-enhanced to continuously improve the matching accuracy and mitigate aggregation ambiguity. Furthermore, we design a view contrast loss to force the model to be robust to those regions covered by few viewpoints through distilling the geometric prior from dense input to sparse input. Extensive experiments on popular benchmarks show that our model can generalize well to new scenes and outperform existing state-of-the-art methods even those employing ground-truth depth supervision. Code is available at https://github.com/prstrive/GenS.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# Kolmogorov-Arnold Networks for Time Series: Bridging Predictive Power and Interpretability

Kolmogorov-Arnold Networks for Time Series: Bridging Predictive Power and Interpretability ( http://arxiv.org/abs/2406.02496v1 )

ライセンス: Link先を確認
Kunpeng Xu, Lifei Chen, Shengrui Wang, (参考訳) Kolmogorov-Arnold Networks (KAN)は、最近MITチームが提案した画期的なモデルであり、この分野におけるゲームチェンジャーになる可能性のある革命的なアプローチを表している。 この革新的な概念は、AIコミュニティ内の世界中で急速に関心を集めている。 コルモゴロフ・アルノルドの表現定理に着想を得たカンは、伝統的な線形重みの代わりにスプラインパラメタライズされた単変数関数を使い、活性化パターンを動的に学習し、解釈可能性を大幅に向上させる。 本稿では,kanの時系列予測への応用について検討し,T-KANとMT-KANの2つの変種を提案する。 T-KANは、時系列内の概念ドリフトを検出するように設計されており、予測と過去の時間ステップの間の非線形関係を象徴的回帰によって説明できるため、動的に変化する環境において高い解釈が可能である。 一方、MT-KANは、多変量時系列における変数間の複雑な関係を効果的に発見し、活用することにより予測性能を向上させる。 これらの手法の有効性を検証する実験により、T-KANとMT-KANは、予測精度を向上するだけでなく、モデル解釈可能性も向上するだけでなく、時系列予測タスクにおいて従来の手法よりも著しく優れていることを示した。 本研究は、適応予測モデルのための新たな道を開き、予測分析における強力な解釈可能なツールとしてのkanの可能性を強調した。

Kolmogorov-Arnold Networks (KAN) is a groundbreaking model recently proposed by the MIT team, representing a revolutionary approach with the potential to be a game-changer in the field. This innovative concept has rapidly garnered worldwide interest within the AI community. Inspired by the Kolmogorov-Arnold representation theorem, KAN utilizes spline-parametrized univariate functions in place of traditional linear weights, enabling them to dynamically learn activation patterns and significantly enhancing interpretability. In this paper, we explore the application of KAN to time series forecasting and propose two variants: T-KAN and MT-KAN. T-KAN is designed to detect concept drift within time series and can explain the nonlinear relationships between predictions and previous time steps through symbolic regression, making it highly interpretable in dynamically changing environments. MT-KAN, on the other hand, improves predictive performance by effectively uncovering and leveraging the complex relationships among variables in multivariate time series. Experiments validate the effectiveness of these approaches, demonstrating that T-KAN and MT-KAN significantly outperform traditional methods in time series forecasting tasks, not only enhancing predictive accuracy but also improving model interpretability. This research opens new avenues for adaptive forecasting models, highlighting the potential of KAN as a powerful and interpretable tool in predictive analytics.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# Dropout MPC: 学習ダイナミクスを持つシステムのためのアンサンブルニューラルネットワークMPCアプローチ

Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics ( http://arxiv.org/abs/2406.02497v1 )

ライセンス: Link先を確認
Spyridon Syntakas, Kostas Vlachos, (参考訳) ニューラルネットワークは、真のシステム力学の近似モデルとして、データ駆動制御の文脈で、近年ますます頻繁に使われている。 モデル予測制御(MPC)はこのプラクティスを採用し、神経MPC戦略に導かれる。 これにより、学習されたモデルがシステムの真の動的モデルの正確な近似をカプセル化する方法で、トレーニングされたニューラルネットワークが収束し、一般化されたかどうかという疑問が提起される。 そこで本研究では,モンテカルロ・ドロップアウト手法を学習システムモデルに応用したサンプリングベースアンサンブルニューラルMPCアルゴリズムであるDropout MPCを提案する。 閉ループは、軌道最適化の各時間ステップで同時に使用される予測コントローラのアンサンブルに基づいている。 アンサンブルの各メンバーは、重み付けされた投票方式に基づいて制御入力に影響を与えるため、学習系力学の異なる実現法を用いることで、設計によりニューラル制御をより信頼性の高いものにする。 この方法のさらなる強みは、将来の不確実性を推定する方法の設計によって提供され、慎重な制御につながることである。 本手法は,実験室で収集したデータを利用した実移動マニピュレータを用いて,ロボットのナビゲーションに提案したアルゴリズムを用いてシミュレーションを行う。

Neural networks are lately more and more often being used in the context of data-driven control, as an approximate model of the true system dynamics. Model Predictive Control (MPC) adopts this practise leading to neural MPC strategies. This raises a question of whether the trained neural network has converged and generalized in a way that the learned model encapsulates an accurate approximation of the true dynamic model of the system, thus making it a reliable choice for model-based control, especially for disturbed and uncertain systems. To tackle that, we propose Dropout MPC, a novel sampling-based ensemble neural MPC algorithm that employs the Monte-Carlo dropout technique on the learned system model. The closed loop is based on an ensemble of predictive controllers, that are used simultaneously at each time-step for trajectory optimization. Each member of the ensemble influences the control input, based on a weighted voting scheme, thus by employing different realizations of the learned system dynamics, neural control becomes more reliable by design. An additional strength of the method is that it offers by design a way to estimate future uncertainty, leading to cautious control. While the method aims in general at uncertain systems with complex dynamics, where models derived from first principles are hard to infer, to showcase the application we utilize data gathered in the laboratory from a real mobile manipulator and employ the proposed algorithm for the navigation of the robot in simulation.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# 統一フレームワークによるミックス・オブ・エクスプロイトの圧縮のデミステレーション

Demystifying the Compression of Mixture-of-Experts Through a Unified Framework ( http://arxiv.org/abs/2406.02500v1 )

ライセンス: Link先を確認
Shwai He, Daize Dong, Liang Ding, Ang Li, (参考訳) 大規模言語モデルのスケーリングは、さまざまなドメインにわたるパフォーマンスに革命をもたらしたが、モデルサイズの継続的な成長は、現実のデプロイメントに重大な課題をもたらしている。 専門家の混合(MoE)アプローチは、専門家のサブセットのみを動的に選択・活性化することでこの問題に対処し、高性能を維持しながら計算コストを大幅に削減する。 しかし、MoEは潜在的な冗長性(例:パラメータ)と余分なコスト(例:通信オーバーヘッド)を導入している。 密度モデルにおける冗長性を緩和するために多くの圧縮技術が開発されたが、MoEの圧縮は未探索のままである。 まずこのギャップを,主流圧縮メソッドをシームレスに統合するだけでなく,MoE圧縮を体系的に理解する上でも有効である,最先端の統一フレームワークで埋める。 このフレームワークは、個々の専門家を圧縮するExpert Slimmingと構造化モジュールを除去するExpert Trimmingという2つの視点から圧縮にアプローチする。 このフレームワーク内では、既存の手法で探索されていない最適化空間を探索し、さらに大規模な冗長性を排除するために、積極的なExpert Trimming技術、すなわちLayer DropとBlock Dropを導入する。 これらの知見に基づき,MoEを効果的に圧縮する実践者を指導するための包括的レシピを提案する。 その結果,Mixtral-8x7Bでは92%以上の性能を維持しながら,6.05倍の高速化と20.0GBのメモリ使用率を実現した。

Scaling large language models has revolutionized the performance across diverse domains, yet the continual growth in model size poses significant challenges for real-world deployment. The Mixture of Experts (MoE) approach addresses this by dynamically selecting and activating only a subset of experts, significantly reducing computational costs while maintaining high performance. However, MoE introduces potential redundancy (e.g., parameters) and extra costs (e.g., communication overhead). Despite numerous compression techniques developed for mitigating the redundancy in dense models, the compression of MoE remains under-explored. We first bridge this gap with a cutting-edge unified framework that not only seamlessly integrates mainstream compression methods but also helps systematically understand MoE compression. This framework approaches compression from two perspectives: Expert Slimming which compresses individual experts and Expert Trimming which removes structured modules. Within this framework, we explore the optimization space unexplored by existing methods,and further introduce aggressive Expert Trimming techniques, i.e., Layer Drop and Block Drop, to eliminate redundancy at larger scales. Based on these insights,we present a comprehensive recipe to guide practitioners in compressing MoE effectively. Extensive experimental results demonstrate the effectiveness of the compression methods under our framework and the proposed recipe, achieving a 6.05x speedup and only 20.0GB memory usage while maintaining over 92% of performance on Mixtral-8x7B.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# 任意の測地におけるランダム量子回路の計算力

The computational power of random quantum circuits in arbitrary geometries ( http://arxiv.org/abs/2406.02501v1 )

ライセンス: Link先を確認
Matthew DeCross, Reza Haghshenas, Minzhao Liu, Yuri Alexeev, Charles H. Baldwin, John P. Bartolotta, Matthew Bohn, Eli Chertkov, Jonhas Colina, Davide DelVento, Joan M. Dreiling, Cameron Foltz, John P. Gaebler, Thomas M. Gatterman, Christopher N. Gilbreth, Johnnie Gray, Dan Gresh, Nathan Hewitt, Ross B. Hutson, Jacob Johansen, Dominic Lucchetti, Danylo Lykov, Ivaylo S. Madjarov, Karl Mayer, Michael Mills, Pradeep Niroula, Enrico Rinaldi, Peter E. Siegfried, Bruce G. Tiemann, James Walker, Ruslan Shaydulin, Marco Pistoia, Steven. A. Moses, David Hayes, Brian Neyenhuis, Russell P. Stutz, Michael Foss-Feig, (参考訳) 古典コンピュータと量子コンピュータの計算能力のギャップに関する実証的な証拠は、二次元量子回路の出力分布をサンプリングする実験によって提供されてきた。 このギャップを埋めようとする試みの多くはテンソルネットワーク技術に基づく古典シミュレーションを利用しており、それらの制限は古典的なシミュラビリティをフラストレーションするために必要な量子ハードウェアの改善に光を当てている。 特に、$\sim 50$ qubit を超える量子コンピュータは、ゲートの忠実度と接続性に制限があるため、主に古典的なシミュレーションに弱い。 ここでは、QuantinuumのH2量子コンピュータへの最近のハードウェアアップグレードについて説明する。これにより、任意の接続で最大56$ qubits、99.843(5)\%$ 2-qubit gate fidelityで動作することができる。 H2のフレキシブルな接続を利用して、高連結なジオメトリーにおけるランダム回路サンプリングのデータを示し、前代未聞の忠実度と、最先端の古典的アルゴリズムの能力を超越したスケールを示す。 H2を古典的にシミュレートすることのかなりの困難さは、量子ビット数によってのみ制限され、より大きなマシンを構築するための継続的な進歩がQCCDアーキテクチャの約束と拡張性を示している。

Empirical evidence for a gap between the computational powers of classical and quantum computers has been provided by experiments that sample the output distributions of two-dimensional quantum circuits. Many attempts to close this gap have utilized classical simulations based on tensor network techniques, and their limitations shed light on the improvements to quantum hardware required to frustrate classical simulability. In particular, quantum computers having in excess of $\sim 50$ qubits are primarily vulnerable to classical simulation due to restrictions on their gate fidelity and their connectivity, the latter determining how many gates are required (and therefore how much infidelity is suffered) in generating highly-entangled states. Here, we describe recent hardware upgrades to Quantinuum's H2 quantum computer enabling it to operate on up to $56$ qubits with arbitrary connectivity and $99.843(5)\%$ two-qubit gate fidelity. Utilizing the flexible connectivity of H2, we present data from random circuit sampling in highly connected geometries, doing so at unprecedented fidelities and a scale that appears to be beyond the capabilities of state-of-the-art classical algorithms. The considerable difficulty of classically simulating H2 is likely limited only by qubit number, demonstrating the promise and scalability of the QCCD architecture as continued progress is made towards building larger machines.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-04
# Sentinel-1 Time Series を用いたウクライナの大規模戦時破壊をマッピングするオープンソースツール

An Open-Source Tool for Mapping War Destruction at Scale in Ukraine using Sentinel-1 Time Series ( http://arxiv.org/abs/2406.02506v1 )

ライセンス: Link先を確認
Olivier Dietrich, Torben Peters, Vivien Sainte Fare Garnot, Valerie Sticher, Thao Ton-That Whelan, Konrad Schindler, Jan Dirk Wegner, (参考訳) 人道的な組織にとって、より詳細な戦争影響評価へのアクセスは、武装紛争に最も影響された人口を効果的に支援することが不可欠である。 しかし、特に広大な領土をカバーし、長期にわたって続く紛争においては、地上の状況を包括的に把握することは困難である。 本研究では、戦争による建物被害を推定するためのスケーラブルで伝達可能な手法を提案する。 まず,SAR(Synthetic Aperture Radar, 合成開口レーダ)衛星画像時系列から, 既存の手動損傷評価を地平線として活用し, 大規模推論のためのクラウドベースの地理空間解析ツールを用いて, 画素単位の破壊確率を推定する機械学習モデルを訓練する。 さらに, オープン・ビル・フットプリントを用いて, 建物ごとの最終損傷推定値を得るため, これらの評価を後処理する。 ユーザが特定の要件やユースケースに基づいて信頼区間を調整できる、アクセス可能なオープンソースのツールを紹介します。 我々のアプローチは、人道的組織や他のアクターが戦争の影響を迅速に受けられるようにしている。 ウクライナのダメージエクスプローラーは、事前に計算された見積もりを動的に見ることができ、Rapid damage Mapping Toolは、我々のメソッドを実行しカスタムマップを作成することができます。

Access to detailed war impact assessments is crucial for humanitarian organizations to effectively assist populations most affected by armed conflicts. However, maintaining a comprehensive understanding of the situation on the ground is challenging, especially in conflicts that cover vast territories and extend over long periods. This study presents a scalable and transferable method for estimating war-induced damage to buildings. We first train a machine learning model to output pixel-wise probability of destruction from Synthetic Aperture Radar (SAR) satellite image time series, leveraging existing, manual damage assessments as ground truth and cloud-based geospatial analysis tools for large-scale inference. We further post-process these assessments using open building footprints to obtain a final damage estimate per building. We introduce an accessible, open-source tool that allows users to adjust the confidence interval based on their specific requirements and use cases. Our approach enables humanitarian organizations and other actors to rapidly screen large geographic regions for war impacts. We provide two publicly accessible dashboards: a Ukraine Damage Explorer to dynamically view our pre-computed estimates, and a Rapid Damage Mapping Tool to easily run our method and produce custom maps.
翻訳日:2024-06-05 15:00:24 公開日:2024-06-04
# 拡散モデルを自分自身の悪いバージョンで導く

Guiding a Diffusion Model with a Bad Version of Itself ( http://arxiv.org/abs/2406.02507v1 )

ライセンス: Link先を確認
Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine, (参考訳) 画像生成拡散モデルに対する関心の一次軸は、画像の品質、結果の変動量、結果が与えられた条件、例えば、クラスラベルまたはテキストプロンプトとどの程度うまく一致しているかである。 一般的な分類器フリーガイダンスアプローチでは、条件付きモデルを誘導するために無条件モデルを使用し、変更の少ないコストでアライメントと高品質な画像を同時に高速化する。 これらの効果は本質的に絡み合っており、制御が困難である。 非条件モデルではなく、より小さく、訓練の少ないモデル自体を用いて生成を誘導することで、画像品質の変動量を補うことなく、画像品質に対する不整合制御が得られるという驚くべき観察をすることができる。 これによりImageNetの生成が大幅に改善され、64x64で1.01、公開ネットワークで512x512で1.25のFIDが設定された。 さらに、この手法は非条件拡散モデルにも適用でき、その品質を大幅に改善する。

The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# CamCo:カメラで撮影可能な3Dコンテンツ

CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation ( http://arxiv.org/abs/2406.02509v1 )

ライセンス: Link先を確認
Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat, (参考訳) 近年,映像拡散モデルが高品質な映像コンテンツ作成のための表現的生成ツールとして登場している。 しかしながら、これらのモデルでは、映像生成のためのカメラポーズを正確に制御することができず、映画言語やユーザコントロールの表現が制限される。 この問題に対処するため,CamCoを導入する。 Pl\ "ucker coordinates" を用いて正確なパラメータ化カメラポーズ入力を行う。 生成したビデオの3D一貫性を高めるため,各注目ブロックにエピポーラアテンションモジュールを統合し,特徴写像に対するエピポーラ制約を強制する。 さらに、カメラのポーズで実世界のビデオにCamCoを微調整し、物体の動きをより良く合成する構造移動アルゴリズムを用いて推定する。 実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上し,可塑性物体の動きを効果的に生成することがわかった。 プロジェクトページ: https://ir1d.github.io/CamCo/

Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we integrate an epipolar attention module in each attention block that enforces epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on real-world videos with camera poses estimated through structure-from-motion algorithms to better synthesize object motion. Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion. Project page: https://ir1d.github.io/CamCo/
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# 任意下流予測タスクのためのフェアネス最適化合成EHR生成

Fairness-Optimized Synthetic EHR Generation for Arbitrary Downstream Predictive Tasks ( http://arxiv.org/abs/2406.02510v1 )

ライセンス: Link先を確認
Mirza Farhan Bin Tarek, Raphael Poulain, Rahmatollah Beheshti, (参考訳) 医療アプリケーションのためのAIツールの責任ある設計を保証するためのさまざまな側面の中で、公平性に関する懸念に対処することが、重要な焦点となっている。 具体的には、電子健康記録(EHR)データの普及と、幅広い臨床的意思決定支援タスクを通知する大きな可能性を考慮し、このカテゴリの健康AIツールの公平性を向上させることが重要である。 このような広い問題(つまり、EHRベースのAIモデルにおける公平性を緩和する)は、様々な手法を用いて取り組まれてきたが、タスクやモデルに依存しない手法は顕著に稀である。 本研究では,実データと合成されたERHデータを生成するパイプラインを新たに提示し,実データと組み合わせることで,下流タスクにおける公平性(エンドユーザが定義する)の懸念を軽減することを目的とした。 下流タスクと2つの異なるEHRデータセットにまたがるパイプラインの有効性を実証する。 提案したパイプラインは、ダウンストリームモデルの設計を変更するような、健康なAIアプリケーションにおける公平性に対処するための、既存のツールボックスに広く適用可能な補完ツールを追加することができる。 プロジェクトのコードベースはhttps://github.com/healthylaife/FairSynthで公開されています。

Among various aspects of ensuring the responsible design of AI tools for healthcare applications, addressing fairness concerns has been a key focus area. Specifically, given the wide spread of electronic health record (EHR) data and their huge potential to inform a wide range of clinical decision support tasks, improving fairness in this category of health AI tools is of key importance. While such a broad problem (that is, mitigating fairness in EHR-based AI models) has been tackled using various methods, task- and model-agnostic methods are noticeably rare. In this study, we aimed to target this gap by presenting a new pipeline that generates synthetic EHR data, which is not only consistent with (faithful to) the real EHR data but also can reduce the fairness concerns (defined by the end-user) in the downstream tasks, when combined with the real data. We demonstrate the effectiveness of our proposed pipeline across various downstream tasks and two different EHR datasets. Our proposed pipeline can add a widely applicable and complementary tool to the existing toolbox of methods to address fairness in health AI applications such as those modifying the design of a downstream model. The codebase for our project is available at https://github.com/healthylaife/FairSynth
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# V-Express: ポートレート映像生成のプログレッシブトレーニングのための条件付きドロップアウト

V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation ( http://arxiv.org/abs/2406.02511v1 )

ライセンス: Link先を確認
Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang, (参考訳) ポートレートビデオ生成の分野では、シングルイメージを使用してポートレートビデオを生成することがますます普及している。 一般的なアプローチは、生成モデルを活用して、制御された生成のためのアダプタを強化することである。 しかし、制御信号(例えば、テキスト、音声、参照画像、ポーズ、深さマップなど)は強度によって異なる。 これらの中、弱い条件は、強い条件からの干渉によって効果的になるのに苦しむことが多く、これらの条件のバランスをとるのに困難を呈する。 ポートレートビデオ生成の研究において、音声信号は特に弱く、しばしば顔のポーズや参照画像のような強い信号に隠れていると同定した。 しかし、弱い信号による直接訓練は、しばしば収束の困難を引き起こす。 そこで本研究では,プログレッシブトレーニングと条件付きドロップアウト操作を通じて,異なる制御信号のバランスをとる簡単な方法であるV-Expressを提案する。 本手法は, 顔のポーズ, 参照画像, 音声を同時に考慮した生成機能を実現するために, 弱い条件による効果的な制御を徐々に実現している。 実験結果から,本手法は音声によって制御された肖像画を効果的に生成できることが示された。 さらに、異なる強度の条件を同時に効果的に利用するためのポテンシャル解が提供される。

In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# 関節神経コンテクストバンドの不確かさ

Uncertainty of Joint Neural Contextual Bandit ( http://arxiv.org/abs/2406.02515v1 )

ライセンス: Link先を確認
Hongbo Guo, Zheqing Zhu, (参考訳) 文脈的バンディット学習は、現代の大規模レコメンデーションシステムでますます好まれている。 コンテキスト情報と利用可能なユーザやアイテムの特徴をより効果的に活用するために、ニューラルネットワークの統合がコンテキスト的バンディット学習を強化するために導入され、学術と産業の両方から大きな関心を集めている。 しかし、大規模レコメンデーションシステムでは、各アイテムやユーザが別々のバンディットアームに対応できるような、解離した神経コンテキストのバンディットソリューションを実装する際に大きな課題が生じる。 推奨すべき項目の数が多ければ多いほど,現実の運用デプロイメントには大きなハードルが伴います。 本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。 出力は予測された報酬$\mu$、不確実な$\sigma$、そしてエクスプロイトと探索のバランスをとるハイパーパラメータ$\alpha$、eg , $\mu + \alpha \sigma$からなる。 パラメータ $\alpha$ のチューニングは通常、その確率的性質のため、ヒューリスティックで実際は複雑である。 この課題に対処するために、我々は、統合神経コンテキストバンドモデルの不確実性$\sigma$に関する理論的解析と実験結果の両方を提供する。 我々の分析によれば、$\alpha$は最後の隠れた層である$F$と逆2乗根のサイズと、トレーニングデータの量である$N$、すなわち$\sigma \propto \sqrt{\frac{F}{N}}$との近似2乗根関係を示す。 実際の産業データを用いて実施された実験は、理論解析と一致し、モデル行動の理解を助け、オフライントレーニングとオンラインデプロイメントの両方におけるハイパーパラメータチューニングを支援する。

Contextual bandit learning is increasingly favored in modern large-scale recommendation systems. To better utlize the contextual information and available user or item features, the integration of neural networks have been introduced to enhance contextual bandit learning and has triggered significant interest from both academia and industry. However, a major challenge arises when implementing a disjoint neural contextual bandit solution in large-scale recommendation systems, where each item or user may correspond to a separate bandit arm. The huge number of items to recommend poses a significant hurdle for real world production deployment. This paper focuses on a joint neural contextual bandit solution which serves all recommending items in one single model. The output consists of a predicted reward $\mu$, an uncertainty $\sigma$ and a hyper-parameter $\alpha$ which balances exploitation and exploration, e.g., $\mu + \alpha \sigma$. The tuning of the parameter $\alpha$ is typically heuristic and complex in practice due to its stochastic nature. To address this challenge, we provide both theoretical analysis and experimental findings regarding the uncertainty $\sigma$ of the joint neural contextual bandit model. Our analysis reveals that $\alpha$ demonstrates an approximate square root relationship with the size of the last hidden layer $F$ and inverse square root relationship with the amount of training data $N$, i.e., $\sigma \propto \sqrt{\frac{F}{N}}$. The experiments, conducted with real industrial data, align with the theoretical analysis, help understanding model behaviors and assist the hyper-parameter tuning during both offline training and online deployment.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# ニューラルネットワーク翻訳のための決定論的可逆データ拡張

Deterministic Reversible Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2406.02517v1 )

ライセンス: Link先を確認
Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo, (参考訳) データ拡張は、機械翻訳におけるコーパスの多様化に有効な方法であるが、従来手法では、不可逆操作とランダムサブワードサンプリング手順により、元のデータと拡張データのセマンティック不整合を導入することがある。 本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法である決定論的可逆データ拡張(DRDA)を提案する。 DRDAは、決定論的セグメンテーションと可逆操作を採用して、多粒度サブワード表現を生成し、それらをマルチビュー技術と組み合わせる。 余分なコーパスやモデルの変更は必要とせず、DRDAはいくつかの翻訳タスクにおいて、明確なマージン(Transformerよりも4.3BLEUのゲイン)で強いベースラインを上回り、ノイズ、低リソース、クロスデータセットデータセットにおいて優れた堅牢性を示す。

Data augmentation is an effective way to diversify corpora in machine translation, but previous methods may introduce semantic inconsistency between original and augmented data because of irreversible operations and random subword sampling procedures. To generate both symbolically diverse and semantically consistent augmentation data, we propose Deterministic Reversible Data Augmentation (DRDA), a simple but effective data augmentation method for neural machine translation. DRDA adopts deterministic segmentations and reversible operations to generate multi-granularity subword representations and pulls them closer together with multi-view techniques. With no extra corpora or model changes required, DRDA outperforms strong baselines on several translation tasks with a clear margin (up to 4.3 BLEU gain over Transformer) and exhibits good robustness in noisy, low-resource, and cross-domain datasets.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# DDGS-CT:実数量レンダリングのための方向差ガウススプラッティング

DDGS-CT: Direction-Disentangled Gaussian Splatting for Realistic Volume Rendering ( http://arxiv.org/abs/2406.02518v1 )

ライセンス: Link先を確認
Zhongpai Gao, Benjamin Planche, Meng Zheng, Xiao Chen, Terrence Chen, Ziyan Wu, (参考訳) デジタル再構成されたX線写真(DRR)は3次元CTボリュームから生成された2次元X線画像で、術前設定では広く用いられているが、計算ボトルネックによる術中応用には限られている。 解析的DRRレンダラーは効率が良いが、コンプトン散乱のような異方性X線画像形成現象を見落としている。 本稿では, 3次元ガウススプラッティング(3DGS)を用いたDRR生成を効率よく, 微分可能とし, 現実的な物理に触発されたX線シミュレーションを取り入れた新しい手法を提案する。 我々の方向異方性3DGS(DDGS)法は、放射能寄与を等方性と方向依存成分に分離し、複雑な異方性相互作用を複雑な実行時シミュレーションなしで近似する。 さらに、トモグラフィデータ特性を考慮した3DGS初期化を適応させ、精度と効率を向上する。 本手法は,画像の精度において最先端技術より優れる。 さらに, DDGSは, DRR法と比較して, ポーズ登録や登録精度, 実行時性能など, 術中および逆問題への期待を示す。

Digitally reconstructed radiographs (DRRs) are simulated 2D X-ray images generated from 3D CT volumes, widely used in preoperative settings but limited in intraoperative applications due to computational bottlenecks, especially for accurate but heavy physics-based Monte Carlo methods. While analytical DRR renderers offer greater efficiency, they overlook anisotropic X-ray image formation phenomena, such as Compton scattering. We present a novel approach that marries realistic physics-inspired X-ray simulation with efficient, differentiable DRR generation using 3D Gaussian splatting (3DGS). Our direction-disentangled 3DGS (DDGS) method separates the radiosity contribution into isotropic and direction-dependent components, approximating complex anisotropic interactions without intricate runtime simulations. Additionally, we adapt the 3DGS initialization to account for tomography data properties, enhancing accuracy and efficiency. Our method outperforms state-of-the-art techniques in image accuracy. Furthermore, our DDGS shows promise for intraoperative applications and inverse problems such as pose registration, delivering superior registration accuracy and runtime performance compared to analytical DRR methods.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# RoboCasa:ジェネラリストロボットの日々のタスクの大規模シミュレーション

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots ( http://arxiv.org/abs/2406.02523v1 )

ライセンス: Link先を確認
Soroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, Yuke Zhu, (参考訳) 人工知能(AI)の最近の進歩は、主にスケーリングによって推進されている。 ロボティクスでは、大規模なロボットデータセットへのアクセスが不足しているため、スケーリングが妨げられている。 我々は,ロボット学習のための環境,タスク,データセットをスケールする手段として,現実的な物理シミュレーションの利用を提唱する。 本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。 RoboCasaは、キッチン環境に焦点を当てた現実的で多様なシーンを特徴としている。 私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。 私たちは、テキストから3Dモデルからのオブジェクト資産や、テキストから画像モデルへの環境テクスチャといった、生成的なAIツールでシミュレーションの現実性と多様性を豊かにしています。 我々は,大規模言語モデルの指導によって生成される複合タスクを含む,体系的評価のための100のタスクを設計する。 学習を容易にするため、我々は高品質な人間のデモンストレーションを提供し、人間の負担を最小限に抑えてデータセットを大幅に拡大する自動軌道生成手法を統合する。 本実験は, 大規模模倣学習のための合成ロボットデータを用いた場合のスケーリング傾向を明らかにし, 実世界のタスクにおけるシミュレーションデータの利用に大きな可能性を示す。 ビデオとオープンソースコードはhttps://robocasa.ai/で公開されている。

Recent advancements in Artificial Intelligence (AI) have largely been propelled by scaling. In Robotics, scaling is hindered by the lack of access to massive robot datasets. We advocate using realistic physical simulation as a means to scale environments, tasks, and datasets for robot learning methods. We present RoboCasa, a large-scale simulation framework for training generalist robots in everyday environments. RoboCasa features realistic and diverse scenes focusing on kitchen environments. We provide thousands of 3D assets across over 150 object categories and dozens of interactable furniture and appliances. We enrich the realism and diversity of our simulation with generative AI tools, such as object assets from text-to-3D models and environment textures from text-to-image models. We design a set of 100 tasks for systematic evaluation, including composite tasks generated by the guidance of large language models. To facilitate learning, we provide high-quality human demonstrations and integrate automated trajectory generation methods to substantially enlarge our datasets with minimal human burden. Our experiments show a clear scaling trend in using synthetically generated robot data for large-scale imitation learning and show great promise in harnessing simulation data in real-world tasks. Videos and open-source code are available at https://robocasa.ai/
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# CheckEmbed: LLMソリューションのオープンエンドタスクに対する有効検証

CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks ( http://arxiv.org/abs/2406.02524v1 )

ライセンス: Link先を確認
Maciej Besta, Lorenzo Paleari, Ales Kubicek, Piotr Nyczyk, Robert Gerstenberger, Patrick Iff, Tomasz Lehmann, Hubert Niewiadomski, Torsten Hoefler, (参考訳) 大規模言語モデル(LLM)は、様々な領域に革命をもたらしているが、その答えを検証することは、特に統合、要約、知識の抽出といった、複雑なオープンなタスクにおいて重要な課題である。 本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、単純だが強力なアイデアによって駆動される: LLMソリューションを互いに、あるいは根本から比較するために、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較します。 これにより、単一の埋め込みに対する複雑なテキスト応答が減少し、単純で高速で有意義な検証が容易になる。 CheckEmbed手法を実装した包括的検証パイプラインを開発した。 CheckEmbedパイプラインには、ヒートマップや要約の埋め込みなど、LLM回答の真偽を評価するメトリクスも付属している。 LLMの回答が満足できるかどうかを判断する実用的なエンジンの展開にこれらのメトリクスを使用する方法を示す。 実世界の文書分析タスクにパイプラインを適用し、BERTScoreやSelfCheckGPTのような既存のトークン、文、事実レベルのスキームと比較して、精度、コスト効率、実行時のパフォーマンスが大幅に向上したことを示す。

Large Language Models (LLMs) are revolutionizing various domains, yet verifying their answers remains a significant challenge, especially for intricate open-ended tasks such as consolidation, summarization, and extraction of knowledge. In this work, we propose CheckEmbed: an accurate, scalable, and simple LLM verification approach. CheckEmbed is driven by a straightforward yet powerful idea: in order to compare LLM solutions to one another or to the ground-truth, compare their corresponding answer-level embeddings obtained with a model such as GPT Text Embedding Large. This reduces a complex textual answer to a single embedding, facilitating straightforward, fast, and meaningful verification. We develop a comprehensive verification pipeline implementing the CheckEmbed methodology. The CheckEmbed pipeline also comes with metrics for assessing the truthfulness of the LLM answers, such as embedding heatmaps and their summaries. We show how to use these metrics for deploying practical engines that decide whether an LLM answer is satisfactory or not. We apply the pipeline to real-world document analysis tasks, including term extraction and document summarization, showcasing significant improvements in accuracy, cost-effectiveness, and runtime performance compared to existing token-, sentence-, and fact-level schemes such as BERTScore or SelfCheckGPT.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# スケーラブルなmatMulフリー言語モデリング

Scalable MatMul-free Language Modeling ( http://arxiv.org/abs/2406.02528v1 )

ライセンス: Link先を確認
Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou, Jason K. Eshraghian, (参考訳) 行列乗法 (MatMul) は一般に大規模言語モデル (LLM) の計算コストを支配している。 このコストは、LLMがより大きな埋め込み次元とコンテキスト長にスケールするにつれて増大する。 本研究では,10億パラメータスケールで高い性能を維持しながら,MateMul 演算を LLM から完全に除去できることを示す。 実験の結果,提案したMatMulフリーモデルは,少なくとも2.7Bパラメータのスケールでの推論において,はるかに多くのメモリを必要とする最先端のトランスフォーマーと同等の性能が得られることがわかった。 スケーリング法則を調査し,モデルサイズが大きくなるにつれて,我々のMatMulフリーモデルと完全精度トランスフォーマーのパフォーマンスギャップが狭まることを確かめる。 また、トレーニング中に最適化されていないベースラインに対して最大61%のメモリ使用量を削減できるGPU効率のよい実装も提供します。 推論中に最適化されたカーネルを利用することで、最適化されていないモデルと比較してメモリ消費を10倍以上削減することができる。 アーキテクチャの効率を適切に定量化するために、FPGA上にカスタムハードウェアソリューションを構築します。 13Wで10億パラメータのスケールモデルを人間の可読スループットを超えて処理し、LLMを脳に似た効率に近づけました。 この研究は、LLMがいつまで有効に機能するかを示すだけでなく、次世代軽量LLMの処理に最適化されるべき操作のタイプについても指摘する。 コード実装は \url{https://github.com/ridgerchu/matmulfreellm} で利用可能です。

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at \url{https://github.com/ridgerchu/matmulfreellm}.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# ReLUは意図しない神経表現を学習するのに十分である

ReLUs Are Sufficient for Learning Implicit Neural Representations ( http://arxiv.org/abs/2406.02529v1 )

ライセンス: Link先を確認
Joseph Shenouda, Yamin Zhou, Robert D. Nowak, (参考訳) Rectified Linear Unit(ReLU)をアクティベーション関数とするニューラルネットワークの理論的理解の高まりにより、暗黙的ニューラルネットワーク表現(INR)の学習にReLUアクティベーション関数を使用することが再考される。 2次B-スプラインウェーブレットにインスパイアされ、ディープニューラルネットワーク(DNN)の各層にReLUニューロンに一連の簡単な制約を加え、スペクトルバイアスを緩和する。 これにより、様々なINRタスクに使用できる。 実証的に、一般的な信念とは対照的に、ReLUニューロンのみからなるDNNに基づいて最先端のINRを学習できることを実証する。 次に、ReLUニューラルネットワークが学習する関数の種類を特徴付ける最近の理論的研究を活用して、学習した関数の正則性を定量化する方法を提供する。 これはINRアーキテクチャのハイパーパラメータを選択するための原則化されたアプローチを提供する。 我々は,信号表現,超解像,コンピュータ断層撮影の実験を通じて,本手法の汎用性と有効性を示す。 すべての実験のコードはhttps://github.com/joeshenouda/relu-inrs.comで見ることができる。

Motivated by the growing theoretical understanding of neural networks that employ the Rectified Linear Unit (ReLU) as their activation function, we revisit the use of ReLU activation functions for learning implicit neural representations (INRs). Inspired by second order B-spline wavelets, we incorporate a set of simple constraints to the ReLU neurons in each layer of a deep neural network (DNN) to remedy the spectral bias. This in turn enables its use for various INR tasks. Empirically, we demonstrate that, contrary to popular belief, one can learn state-of-the-art INRs based on a DNN composed of only ReLU neurons. Next, by leveraging recent theoretical works which characterize the kinds of functions ReLU neural networks learn, we provide a way to quantify the regularity of the learned function. This offers a principled approach to selecting the hyperparameters in INR architectures. We substantiate our claims through experiments in signal representation, super resolution, and computed tomography, demonstrating the versatility and effectiveness of our method. The code for all experiments can be found at https://github.com/joeshenouda/relu-inrs.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# SpecExec: コンシューマデバイス上での対話型LLM推論のための大規模並列投機デコーディング

SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices ( http://arxiv.org/abs/2406.02532v1 )

ライセンス: Link先を確認
Ruslan Svirschevski, Avner May, Zhuoming Chen, Beidi Chen, Zhihao Jia, Max Ryabinin, (参考訳) 大きな言語モデルが広く採用されるにつれて、それらを効率的に実行することが重要になります。 LLM推論における最近の研究は、極端なスピードアップを達成するために投機的復号法を用いている。 しかし、これらの作業のほとんどは、ハイエンドのデータセンターハードウェア向けにアルゴリズムを暗黙的に設計している。 この作業で、私たちは逆の質問をする: コンシューママシン上で、どのくらいの速度でLSMを実行できますか? コンシューマGPUは、利用可能な最大のモデル(50B以上のパラメータ)にもはや適合せず、RAMやSSDにオフロードしなければならない。 オフロードされたパラメータで実行する場合、推論エンジンは1つのトークンと同時に数百から数千のトークンのバッチを処理することができるため、投機的復号化には自然に適合する。 提案するSpecExec(Speculative Execution)は,LLMファミリのターゲットモデルイテレーション毎に最大20個のトークンを生成可能な,単純な並列復号法である。 現代のLLMにおけるトークン確率分布の高スパイキネスと、モデル出力確率間の高次アライメントを利用する。 SpecExecは、最も可能性の高いトークンをドラフトモデルから継承して、ターゲットモデル用の"キャッシュ"ツリーを構築し、単一のパスで検証する。 SpecExecを用いて,RAMオフロードが4~6トークン/秒,量子化が4ビット,あるいは16ビット重みが2~3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。

As large language models gain widespread adoption, running them efficiently becomes crucial. Recent works on LLM inference use speculative decoding to achieve extreme speedups. However, most of these works implicitly design their algorithms for high-end datacenter hardware. In this work, we ask the opposite question: how fast can we run LLMs on consumer machines? Consumer GPUs can no longer fit the largest available models (50B+ parameters) and must offload them to RAM or SSD. When running with offloaded parameters, the inference engine can process batches of hundreds or thousands of tokens at the same time as just one token, making it a natural fit for speculative decoding. We propose SpecExec (Speculative Execution), a simple parallel decoding method that can generate up to 20 tokens per target model iteration for popular LLM families. It utilizes the high spikiness of the token probabilities distribution in modern LLMs and a high degree of alignment between model output probabilities. SpecExec takes the most probable tokens continuation from the draft model to build a "cache" tree for the target model, which then gets validated in a single pass. Using SpecExec, we demonstrate inference of 50B+ parameter LLMs on consumer GPUs with RAM offloading at 4-6 tokens per second with 4-bit quantization or 2-3 tokens per second with 16-bit weights.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# SatSplatYOLO:衛星特徴認識のための3次元ガウス型仮想物体検出アンサンブル

SatSplatYOLO: 3D Gaussian Splatting-based Virtual Object Detection Ensembles for Satellite Feature Recognition ( http://arxiv.org/abs/2406.02533v1 )

ライセンス: Link先を確認
Van Minh Nguyen, Emma Sandidge, Trupti Mahendrakar, Ryan T. White, (参考訳) 軌道上サービス(OOS)、宇宙船の検査、アクティブデブリ除去(ADR)。 このようなミッションでは、非協力的、おそらく未知の宇宙物体の近傍での正確なランデブーと近接操作が必要となる。 有人ミッションと地上制御によるラグタイムの安全性は完全な自律性を必要とする。 本稿では,軌道上の未知の非協調衛星の構成成分の地図化と高信頼度検出のためのアプローチを提案する。 衛星の3次元表現を学習し、ターゲットの仮想ビューをレンダリングし、仮想ビュー上でYOLOv5オブジェクト検出器をアンサンブルすることにより、信頼性、精度、精度の高い衛星部品検出を実現する。 自律的なガイダンス、ナビゲーション、制御タスクに必要なダウンストリームマシンインテリジェンスタスクを可能にするために、オンボードで実行およびスタンド可能な完全なパイプライン。

On-orbit servicing (OOS), inspection of spacecraft, and active debris removal (ADR). Such missions require precise rendezvous and proximity operations in the vicinity of non-cooperative, possibly unknown, resident space objects. Safety concerns with manned missions and lag times with ground-based control necessitate complete autonomy. In this article, we present an approach for mapping geometries and high-confidence detection of components of unknown, non-cooperative satellites on orbit. We implement accelerated 3D Gaussian splatting to learn a 3D representation of the satellite, render virtual views of the target, and ensemble the YOLOv5 object detector over the virtual views, resulting in reliable, accurate, and precise satellite component detections. The full pipeline capable of running on-board and stand to enable downstream machine intelligence tasks necessary for autonomous guidance, navigation, and control tasks.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# 治療効果分析による予測画像バイオマーカーの発見の促進

Enhancing predictive imaging biomarker discovery through treatment effect analysis ( http://arxiv.org/abs/2406.02534v1 )

ライセンス: Link先を確認
Shuhan Xiao, Lukas Klein, Jens Petersen, Philipp Vollmuth, Paul F. Jaeger, Klaus H. Maier-Hein, (参考訳) 個々の治療効果を予測する予測バイオマーカーの同定は、パーソナライズされた医療に不可欠であり、さまざまな分野にわたる意思決定を通知する。 これらのバイオマーカーは前処理データから抽出され、多くの場合ランダム化比較試験で抽出され、治療課題に依存しない予後バイオマーカーと区別されなければならない。 本研究は,前処理画像を利用して新たな因果関係を明らかにすることを目的とした,予測画像バイオマーカーの発見に焦点を当てた。 以前のアプローチは、労働集約的な手工芸や手作業による特徴に依存しており、バイアスをもたらす可能性がある。 そこで本研究では,前処理画像から直接バイオマーカーを抽出し,関連画像の特徴を学習する新しい課題を提案する。 本稿では,モデルが予測画像バイオマーカーを識別し,それを認識できないものと区別する能力を評価するための評価プロトコルを提案する。 統計検査と画像特徴属性の包括的分析を採用している。 本稿では,この課題に対する条件平均処理効果(CATE)を推定するために設計された深層学習モデルの適合性について検討する。 概念実証分析は,合成結果と実世界の画像データセットから予測画像バイオマーカーを発見し,検証する上で有望な結果を示す。

Identifying predictive biomarkers, which forecast individual treatment effectiveness, is crucial for personalized medicine and informs decision-making across diverse disciplines. These biomarkers are extracted from pre-treatment data, often within randomized controlled trials, and have to be distinguished from prognostic biomarkers, which are independent of treatment assignment. Our study focuses on the discovery of predictive imaging biomarkers, aiming to leverage pre-treatment images to unveil new causal relationships. Previous approaches relied on labor-intensive handcrafted or manually derived features, which may introduce biases. In response, we present a new task of discovering predictive imaging biomarkers directly from the pre-treatment images to learn relevant image features. We propose an evaluation protocol for this task to assess a model's ability to identify predictive imaging biomarkers and differentiate them from prognostic ones. It employs statistical testing and a comprehensive analysis of image feature attribution. We explore the suitability of deep learning models originally designed for estimating the conditional average treatment effect (CATE) for this task, which previously have been primarily assessed for the precision of CATE estimation, overlooking the evaluation of imaging biomarker discovery. Our proof-of-concept analysis demonstrates promising results in discovering and validating predictive imaging biomarkers from synthetic outcomes and real-world image datasets.
翻訳日:2024-06-05 15:00:23 公開日:2024-06-04
# 3次元事前学習による2次元表現学習の強化

Enhancing 2D Representation Learning with a 3D Prior ( http://arxiv.org/abs/2406.02535v1 )

ライセンス: Link先を確認
Mehmet Aygün, Prithviraj Dhar, Zhicheng Yan, Oisin Mac Aodha, Rakesh Ranjan, (参考訳) 視覚データの堅牢で効果的な表現を学習することは、コンピュータビジョンの基本的な課題である。 従来、これはラベル付きデータによるトレーニングモデルによって達成される。 自己教師付き学習は、未ラベルのビジュアルデータのみから表現を学習することでラベル付きデータの要求を回避しようとする。 しかし、両眼視力や動きを通してリッチな3D情報を得る人間とは異なり、現在の自己監督手法の大半は、単眼の2D画像収集から学ぶことを任務としている。 これは、形状中心の視覚処理が、テクスチャバイアスの自動化手法よりも堅牢であることを示すものとして注目に値する。 そこで本研究では,学習中にモデルに直接強靭な3次元構造を強制することにより,既存の自己監督手法を強化する新しい手法を提案する。 実験を通じて、さまざまなデータセットを通して、従来の自己教師付きベースラインと比較して、我々の3D認識表現がより堅牢であることを示す。

Learning robust and effective representations of visual data is a fundamental task in computer vision. Traditionally, this is achieved by training models with labeled data which can be expensive to obtain. Self-supervised learning attempts to circumvent the requirement for labeled data by learning representations from raw unlabeled visual data alone. However, unlike humans who obtain rich 3D information from their binocular vision and through motion, the majority of current self-supervised methods are tasked with learning from monocular 2D image collections. This is noteworthy as it has been demonstrated that shape-centric visual processing is more robust compared to texture-biased automated methods. Inspired by this, we propose a new approach for strengthening existing self-supervised methods by explicitly enforcing a strong 3D structural prior directly into the model during training. Through experiments, across a range of datasets, we demonstrate that our 3D aware representations are more robust compared to conventional self-supervised baselines.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# 単一次元のスケーリングによる大規模言語モデルの位置バイアス軽減

Mitigate Position Bias in Large Language Models via Scaling a Single Dimension ( http://arxiv.org/abs/2406.02536v1 )

ライセンス: Link先を確認
Yijiong Yu, Huiqiang Jiang, Xufang Luo, Qianhui Wu, Chin-Yew Lin, Dongsheng Li, Yuqing Yang, Yongfeng Huang, Lili Qiu, (参考訳) 大規模言語モデル(LLM)は、優れた一般化能力と堅牢な生成能力のために、様々な現実のシナリオにますます適用されている。 しかし、これは特に長文のシナリオで発音される現象であり、プロンプトの異なる位置におけるキー情報の配置が精度に著しく影響を及ぼす可能性がある。 本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。 さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。 これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。 マルチドキュメントQA,KV検索,LongBenchおよびタイムラインリオーダータスクの実験では,RoPEモデル,コンテキストウィンドウ拡張モデル,Alibiモデルなどのモデルを用いて,我々のアプローチの有効性と一般化性を実証した。 隠れ状態の1次元だけを修正すれば,最大15.2%の性能向上が可能である。 私たちのコードはhttps://aka.ms/PositionalHidden.comで利用可能です。

Large Language Models (LLMs) are increasingly applied in various real-world scenarios due to their excellent generalization capabilities and robust generative abilities. However, they exhibit position bias, also known as "lost in the middle", a phenomenon that is especially pronounced in long-context scenarios, which indicates the placement of the key information in different positions of a prompt can significantly affect accuracy. This paper first explores the micro-level manifestations of position bias, concluding that attention weights are a micro-level expression of position bias. It further identifies that, in addition to position embeddings, causal attention mask also contributes to position bias by creating position-specific hidden states. Based on these insights, we propose a method to mitigate position bias by scaling this positional hidden states. Experiments on the NaturalQuestions Multi-document QA, KV retrieval, LongBench and timeline reorder tasks, using various models including RoPE models, context windowextended models, and Alibi models, demonstrate the effectiveness and generalizability of our approach. Our method can improve performance by up to 15.2% by modifying just one dimension of hidden states. Our code is available at https://aka.ms/PositionalHidden.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# TopViewRS:トップビュー空間共振器としての視覚言語モデル

TopViewRS: Vision-Language Models as Top-View Spatial Reasoners ( http://arxiv.org/abs/2406.02537v1 )

ライセンス: Link先を確認
Chengzu Li, Caiqi Zhang, Han Zhou, Nigel Collier, Anna Korhonen, Ivan Vulić, (参考訳) トップビューの視点は、人間が様々な種類の地図を読み取り、推論する典型的な方法を表しており、大きなビジョン・ランゲージ・モデル(VLM)によって支えられているような「非人間」エージェントと同様に、人間の位置やナビゲーションに不可欠である。 それでも、現代のVLMの空間的推論能力は未証明であり、未調査のままである。 そこで本研究では,トップビューから空間的関係を理解・理解する能力について考察する。 トップビューの焦点はまた、空間的推論の粒度の異なる制御された評価を可能にし、異なる能力(例えば、特定の物体を認識するか、相対的な位置を理解するか)を明確に歪めている。 11,384の質問からなるTopViewRS(Top-View Reasoning in Space)データセットを視覚入力として,現実的あるいは意味的なトップビューマップを用いて導入する。 次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。 10個のオープンソースおよびクローズドソースVLMの評価では、平均的な人的性能と比較して50%以上のギャップが見られ、場合によってはランダムなベースラインよりも低くなる。 さらなる実験により、チェーン・オブ・ソート推論はモデル能力を平均5.82%向上させることが示されているが、VLMの全体的な性能は制限されている。 本研究は,実世界のマルチモーダルタスクにおけるVLMの人間レベルの能力向上に向けた基礎を築き,トップビュー空間推論におけるモデル機能強化の必要性を浮き彫りにした。

Top-view perspective denotes a typical way in which humans read and reason over different types of maps, and it is vital for localization and navigation of humans as well as of `non-human' agents, such as the ones backed by large Vision-Language Models (VLMs). Nonetheless, spatial reasoning capabilities of modern VLMs remain unattested and underexplored. In this work, we thus study their capability to understand and reason over spatial relations from the top view. The focus on top view also enables controlled evaluations at different granularity of spatial reasoning; we clearly disentangle different abilities (e.g., recognizing particular objects versus understanding their relative positions). We introduce the TopViewRS (Top-View Reasoning in Space) dataset, consisting of 11,384 multiple-choice questions with either realistic or semantic top-view map as visual input. We then use it to study and evaluate VLMs across 4 perception and reasoning tasks with different levels of complexity. Evaluation of 10 representative open- and closed-source VLMs reveals the gap of more than 50% compared to average human performance, and it is even lower than the random baseline in some cases. Although additional experiments show that Chain-of-Thought reasoning can boost model capabilities by 5.82% on average, the overall performance of VLMs remains limited. Our findings underscore the critical need for enhanced model capability in top-view spatial reasoning and set a foundation for further research towards human-level proficiency of VLMs in real-world multimodal tasks.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# Parrot: 多言語ビジュアルインストラクションチューニング

Parrot: Multilingual Visual Instruction Tuning ( http://arxiv.org/abs/2406.02539v1 )

ライセンス: Link先を確認
Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye, (参考訳) GPT-4Vのようなマルチモーダル大言語モデル(MLLM)の急速な開発は、人工知能への大きな一歩を踏み出した。 既存の手法は主に、教師付き微調整(SFT)による視覚エンコーダのLLMとの整合に焦点を合わせ、マルチモーダルな能力でLLMを動作させ、訓練プロセスが進むにつれて、MLLM固有の複数の言語に反応する能力が徐々に悪化する。 我々は、主に英語中心の画像テキストペアからなる不均衡なSFTデータセットが、非英語言語の性能を著しく低下させることを実証的に見出した。 これは、SFTプロセス中にビジョンエンコーダとLLMを多言語トークンで整列できないためである。 本稿では,テキストガイドを用いた言語レベルでの視覚的トークンアライメントを促進する新しい手法であるParrotを紹介する。 Parrotは多様な言語入力に視覚トークンを条件付け、Mixture-of-Experts (MoE) を使用して多言語トークンのアライメントを促進する。 具体的には、非英語の視覚的トークンアライメントを強化するために、初期視覚特徴とテキスト埋め込みを用いて、クロスアテンションを計算し、その結果をMoEルータに入力し、最も関係のある専門家を選択する。 選択された専門家は、初期視覚トークンを言語固有の視覚トークンに変換する。 さらに、フィールド内の多言語機能を評価するためのベンチマークの欠如を考慮すると、MMMBという名前の6言語、15カテゴリ、12,000の質問を含むMultilingual Multimodal Benchmarkを収集、利用可能にしています。 本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。 Parrotのソースコードとトレーニングデータセットの両方が公開されている。

The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# ViDiT-Q:画像・映像生成のための拡散変換器の効率的かつ高精度な量子化

ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation ( http://arxiv.org/abs/2406.02540v1 )

ライセンス: Link先を確認
Tianchen Zhao, Tongcheng Fang, Enshu Liu, Wan Rui, Widyadewi Soedarmadji, Shiyao Li, Zinan Lin, Guohao Dai, Shengen Yan, Huazhong Yang, Xuefei Ning, Yu Wang, (参考訳) 拡散変換器(DiT)は、テキスト命令に基づいて現実的な画像やビデオを生成するなど、視覚生成タスクにおいて顕著な性能を示した。 しかし、より大きなモデルサイズとビデオ生成のためのマルチフレーム処理により、計算コストとメモリコストが増大し、エッジデバイスに実用的なデプロイを行う上での課題が浮かび上がった。 ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。 拡散変圧器の量子化では,U-Net用に設計された既存の拡散量子化手法が品質維持の課題に直面していることがわかった。 拡散変換器の量子化に関する主要な課題を分析した後、これらの問題に対処するために改良された量子化スキーム"ViDiT-Q": Video and Image Diffusion Transformer Quantization"を設計する。 さらに、低ビット幅の量子化を妨げる高感度層と時間ステップを同定する。 そこで我々は,新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により,ViDiT-Qを改善する。 様々なテキスト・ツー・イメージ・ビデオ・モデルにおけるViDiT-Qの有効性を検証する。 ベースライン量子化法はW8A8で失敗し、W4A8で読めないコンテンツを生成するが、ViDiT-Qは損失のないW8A8量子化を実現する。 ViDiTQ-MPは、視覚的品質の劣化を無視してW4A8を実現し、2.5倍のメモリ最適化と1.5倍のレイテンシ高速化を実現している。

Diffusion transformers (DiTs) have exhibited remarkable performance in visual generation tasks, such as generating realistic images or videos based on textual instructions. However, larger model sizes and multi-frame processing for video generation lead to increased computational and memory costs, posing challenges for practical deployment on edge devices. Post-Training Quantization (PTQ) is an effective method for reducing memory costs and computational complexity. When quantizing diffusion transformers, we find that applying existing diffusion quantization methods designed for U-Net faces challenges in preserving quality. After analyzing the major challenges for quantizing diffusion transformers, we design an improved quantization scheme: "ViDiT-Q": Video and Image Diffusion Transformer Quantization) to address these issues. Furthermore, we identify highly sensitive layers and timesteps hinder quantization for lower bit-widths. To tackle this, we improve ViDiT-Q with a novel metric-decoupled mixed-precision quantization method (ViDiT-Q-MP). We validate the effectiveness of ViDiT-Q across a variety of text-to-image and video models. While baseline quantization methods fail at W8A8 and produce unreadable content at W4A8, ViDiT-Q achieves lossless W8A8 quantization. ViDiTQ-MP achieves W4A8 with negligible visual quality degradation, resulting in a 2.5x memory optimization and a 1.5x latency speedup.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# 3次元ガウススプラッティングによる映像再構成による映像編集における時間的一貫性の強化

Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting ( http://arxiv.org/abs/2406.02541v1 )

ライセンス: Link先を確認
Inkyu Shin, Qihang Yu, Xiaohui Shen, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen, (参考訳) ゼロショットビデオ拡散モデルの最近の進歩は、テキスト駆動ビデオ編集の可能性を示唆している。 これを解決するために,ゼロショットビデオエディタの時間的一貫性を高めるために,3Dガウス・スプレイティング(3DGS)ベースのビデオ精細機であるVideo-3DGSを紹介する。 本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 第1段階では、ビデオ3DGSはMC-COLMAPと呼ばれる改良版のCOLMAPを採用し、Masked and Clippedアプローチを用いてオリジナルビデオを処理する。 各ビデオクリップに対して、MC-COLMAPは、動的前景オブジェクトと複雑な背景のための点雲を生成する。 これらの点雲は、前景と背景像を表すために、2組の3Dガウス(Frg-3DGSとBkg-3DGS)を初期化する。 前景と背景の両方のビューは、完全なビューを再構築する2D学習可能なパラメータマップにマージされる。 第2段階では,ビデオ拡散モデルに時間的制約を課すために,第1段階で開発された再構成能力を活用する。 両段階におけるビデオ3DGSの有効性を示すために,ビデオ再構成とビデオ編集という2つの関連課題にまたがる広範な実験を行った。 3kイテレーションでトレーニングされたビデオ3DGSは、ビデオ再構成の品質(+3 PSNR、+7 PSNRの増加)とトレーニング効率(x1.9、x4.5倍の高速化)を、それぞれNRFベースとDAVISデータセット上の3DGSベースの最先端手法で改善する。 さらに、58個の動的モノクロビデオ間の時間的一貫性を確保することにより、ビデオ編集を強化する。

Recent advancements in zero-shot video diffusion models have shown promise for text-driven video editing, but challenges remain in achieving high temporal consistency. To address this, we introduce Video-3DGS, a 3D Gaussian Splatting (3DGS)-based video refiner designed to enhance temporal consistency in zero-shot video editors. Our approach utilizes a two-stage 3D Gaussian optimizing process tailored for editing dynamic monocular videos. In the first stage, Video-3DGS employs an improved version of COLMAP, referred to as MC-COLMAP, which processes original videos using a Masked and Clipped approach. For each video clip, MC-COLMAP generates the point clouds for dynamic foreground objects and complex backgrounds. These point clouds are utilized to initialize two sets of 3D Gaussians (Frg-3DGS and Bkg-3DGS) aiming to represent foreground and background views. Both foreground and background views are then merged with a 2D learnable parameter map to reconstruct full views. In the second stage, we leverage the reconstruction ability developed in the first stage to impose the temporal constraints on the video diffusion model. To demonstrate the efficacy of Video-3DGS on both stages, we conduct extensive experiments across two related tasks: Video Reconstruction and Video Editing. Video-3DGS trained with 3k iterations significantly improves video reconstruction quality (+3 PSNR, +7 PSNR increase) and training efficiency (x1.9, x4.5 times faster) over NeRF-based and 3DGS-based state-of-art methods on DAVIS dataset, respectively. Moreover, it enhances video editing by ensuring temporal consistency across 58 dynamic monocular videos.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# Loki: 効率的なスパースアテンションのための低ランクキー

Loki: Low-Rank Keys for Efficient Sparse Attention ( http://arxiv.org/abs/2406.02542v1 )

ライセンス: Link先を確認
Prajwal Singhania, Siddharth Singh, Shwai He, Soheil Feizi, Abhinav Bhatele, (参考訳) 大規模言語モデルに対する推論は、特に長いシーケンス長を使用する場合、計算コストとメモリコストの面でコストがかかる可能性がある。 特に、そのようなモデルで使用される自己注意機構は、これらのコストに大きく寄与し、近年では、推論に対するわずかな注意近似を提案している。 本研究では,注目ブロック内で計算される鍵ベクトルの次元性に着目し,自己注意計算を近似することを提案する。 我々の分析によると、キーベクトルは、いくつかのデータセットやモデルに一貫して、非常に低次元の空間にある。 そこで本研究では,低次元空間で計算された注目スコアに基づいて,KVキャッシュ内のトークンをランク付けし,選択する新しいスパークアテンション手法であるLokiを提案する。 評価の結果,ロキはデータ移動量(ロード/ストア)と計算コストの削減による注意計算を高速化しつつ,他の一般的な近似手法よりもモデルの有効性を維持することができることがわかった。

Inference on large language models can be expensive in terms of the compute and memory costs involved, especially when long sequence lengths are used. In particular, the self-attention mechanism used in such models contributes significantly to these costs, which has resulted in several recent works that propose sparse attention approximations for inference. In this work, we propose to approximate the self-attention computation by focusing on the dimensionality of key vectors computed in the attention block. Our analysis reveals that the key vectors lie in a significantly lower-dimensional space, consistently across several datasets and models. Exploiting this observation, we propose Loki, a novel sparse attention method that ranks and selects tokens in the KV-cache based on attention scores computed in low-dimensional space. Our evaluations show that Loki is able to maintain the efficacy of the models better than other popular approximation methods, while speeding up the attention computation due to reduced data movement (load/store) and compute costs.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# LLMを信じるか信じないか

To Believe or Not to Believe Your LLM ( http://arxiv.org/abs/2406.02543v1 )

ライセンス: Link先を確認
Yasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári, (参考訳) 本稿では,大規模言語モデル(LLM)における不確実性定量化について検討する。 前者は基礎的真理(事実や言語など)に関する知識の欠如から、後者は既約無作為性(複数の可能な答えなど)から来ている。 特に、疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論メトリクスを導出し、その場合、モデルの出力は信頼できない。 この条件は、単に前の応答に基づいた特別な反復的プロンプトによって得られたモデルの出力のみに基づいて計算することができる。 このような定量化は、例えば、単一応答と複数応答の両方において幻覚(てんかんの不確かさが高い場合)を検出することができる。 これは、マルチ・アンサー・ケースにおける幻覚を検出できない多くの標準的な不確実性定量化戦略(応答の対数のようなしきい値の閾値付けなど)とは対照的である。 定式化の利点を実証する一連の実験を行う。 さらに,本研究は, LLMによって与えられた出力に割り当てられる確率が, 独立性のある反復的プロンプトによって増幅される可能性について, 若干の光を当てた。

We explore uncertainty quantification in large language models (LLMs), with the goal to identify when uncertainty in responses given a query is large. We simultaneously consider both epistemic and aleatoric uncertainties, where the former comes from the lack of knowledge about the ground truth (such as about facts or the language), and the latter comes from irreducible randomness (such as multiple possible answers). In particular, we derive an information-theoretic metric that allows to reliably detect when only epistemic uncertainty is large, in which case the output of the model is unreliable. This condition can be computed based solely on the output of the model obtained simply by some special iterative prompting based on the previous responses. Such quantification, for instance, allows to detect hallucinations (cases when epistemic uncertainty is high) in both single- and multi-answer responses. This is in contrast to many standard uncertainty quantification strategies (such as thresholding the log-likelihood of a response) where hallucinations in the multi-answer case cannot be detected. We conduct a series of experiments which demonstrate the advantage of our formulation. Further, our investigations shed some light on how the probabilities assigned to a given output by an LLM can be amplified by iterative prompting, which might be of independent interest.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# 時間シフト信号による方向結合のロバストかつ高スケーラブル推定

Robust and highly scalable estimation of directional couplings from time-shifted signals ( http://arxiv.org/abs/2406.02545v1 )

ライセンス: Link先を確認
Luca Ambrogioni, Louis Rouillard, Demian Wassermann, (参考訳) 間接的な測定からネットワークのノード間の有向結合を推定することは、神経科学、システム生物学、経済学などの科学分野における中心的な方法論的課題である。 残念なことに、この問題は一般に、測定に未知の遅延が存在する可能性があるため、不適切である。 本稿では,遅延に対する不確実性を疎外し,保守的な結合推定値を得るために,変分ベイズフレームワークを用いてこの問題の解決法を提案する。 古典的変分法でよく知られた過信を克服するために、測定パラメータの上の(おそらく平坦あるいはマルチモーダルな)後方を前方KL損失を用いて推定するハイブリッドVIスキームを用いる。 本実験では, ネットワークが結合の信頼性および保守的な推定を行い, 回帰DCMなどの類似の手法を著しく上回っていることを示す。

The estimation of directed couplings between the nodes of a network from indirect measurements is a central methodological challenge in scientific fields such as neuroscience, systems biology and economics. Unfortunately, the problem is generally ill-posed due to the possible presence of unknown delays in the measurements. In this paper, we offer a solution of this problem by using a variational Bayes framework, where the uncertainty over the delays is marginalized in order to obtain conservative coupling estimates. To overcome the well-known overconfidence of classical variational methods, we use a hybrid-VI scheme where the (possibly flat or multimodal) posterior over the measurement parameters is estimated using a forward KL loss while the (nearly convex) conditional posterior over the couplings is estimated using the highly scalable gradient-based VI. In our ground-truth experiments, we show that the network provides reliable and conservative estimates of the couplings, greatly outperforming similar methods such as regression DCM.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# マルチモーダル学習における拡張テキストコンテキストのための視覚トークンの活用

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning ( http://arxiv.org/abs/2406.02547v1 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou, (参考訳) コンテキスト内の長さが長いトレーニングモデルは、GPUメモリと計算コストがかなり大きいため、マルチモーダルモデルにとって重要な課題である。 この探索的研究は、最先端のモデルを提示しないが、マルチモーダル大言語モデル(MLLM)において、テキスト中のテキスト長を効率的に向上するために設計された革新的な手法を導入する。 視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。 この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。 例えば、本手法では、56億のパラメータMOEモデルに対して、ほとんど同じFLOPを持つ256から2048のトークンに対して、事前学習したテキスト長を拡大する。 実験結果から、VisInContextでトレーニングされたモデルは、コンテクスト内数ショット評価のための共通のダウンストリームベンチマークにおいて優れたパフォーマンスを提供することが示された。 さらに、VisInContextは、テキスト中のテキスト長を増大させる既存のメソッドを補完し、文書理解機能を強化し、文書QAタスクやシーケンシャルな文書検索に大きな可能性を示す。

Training models with longer in-context lengths is a significant challenge for multimodal model due to substantial GPU memory and computational costs. This exploratory study does not present state-of-the-art models; rather, it introduces an innovative method designed to increase in-context text length in multi-modality large language models (MLLMs) efficiently. We present Visualized In-Context Text Processing (VisInContext), which processes long in-context text using visual tokens. This technique significantly reduces GPU memory usage and floating point operations (FLOPs) for both training and inferenceing stage. For instance, our method expands the pre-training in-context text length from 256 to 2048 tokens with nearly same FLOPs for a 56 billion parameter MOE model. Experimental results demonstrate that model trained with VisInContext delivers superior performance on common downstream benchmarks for in-context few-shot evaluation. Additionally, VisInContext is complementary to existing methods for increasing in-context text length and enhances document understanding capabilities, showing great potential in document QA tasks and sequential document retrieval.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# Open-YOLO 3D: 高速かつ高精度なOpen-Vocabulary 3Dインスタンスセグメンテーションを目指して

Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2406.02548v1 )

ライセンス: Link先を確認
Mohamed El Amine Boudjoghra, Angela Dai, Jean Lahoud, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan, (参考訳) オープンボキャブラリ3Dインスタンスセグメンテーションに関する最近の研究は、予測速度が遅いことと高い計算要求を犠牲にして、強い将来性を示している。 この高い計算コストは、典型的には3Dクリップ機能に大きく依存しているためであり、3DへのマルチビューアグリゲーションにはSAM(Segment Anything)やCLIPといった計算コストの高い2Dファンデーションモデルが必要である。 その結果、高速かつ正確な予測を必要とする多くの現実世界のアプリケーションにおいて、これは適用性を損なうことになる。 そこで本研究では,複数視点RGB画像からの2次元オブジェクト検出のみを効果的に活用し,高速かつ正確な3Dインスタンスセグメンテーション手法であるOpen-YOLO 3Dを提案する。 この課題に対処するために,シーン内のオブジェクトに対して,クラスに依存しない3Dマスクを生成し,テキストプロンプトに関連付ける。 クラスに依存しない3Dポイント・クラウド・インスタンスのプロジェクションが既にインスタンス情報を保持していることが観察された。 テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。 ScanNet200とReplicaの2つのベンチマークでOpen-YOLO 3Dを検証する。 (i) 対象の提案にラベルが必要で、かつ、 (ii)3D提案ネットワークから生成されたクラス非依存の3D提案。 われわれのOpen-YOLO 3Dは、両方のデータセットで最先端のパフォーマンスを達成しつつ、文学における最も優れた既存手法と比較して最大$\sim$16$\times$スピードアップを得る。 ScanNet200 val。 設定すると、Open-YOLO 3Dは平均平均精度(mAP)が24.7\%となり、1シーンあたり22秒で動作します。 コードとモデルはgithub.com/aminebdj/OpenYOLO3Dで入手できる。

Recent works on open-vocabulary 3D instance segmentation show strong promise, but at the cost of slow inference speed and high computation requirements. This high computation cost is typically due to their heavy reliance on 3D clip features, which require computationally expensive 2D foundation models like Segment Anything (SAM) and CLIP for multi-view aggregation into 3D. As a consequence, this hampers their applicability in many real-world applications that require both fast and accurate predictions. To this end, we propose a fast yet accurate open-vocabulary 3D instance segmentation approach, named Open-YOLO 3D, that effectively leverages only 2D object detection from multi-view RGB images for open-vocabulary 3D instance segmentation. We address this task by generating class-agnostic 3D masks for objects in the scene and associating them with text prompts. We observe that the projection of class-agnostic 3D point cloud instances already holds instance information; thus, using SAM might only result in redundancy that unnecessarily increases the inference time. We empirically find that a better performance of matching text prompts to 3D masks can be achieved in a faster fashion with a 2D object detector. We validate our Open-YOLO 3D on two benchmarks, ScanNet200 and Replica, under two scenarios: (i) with ground truth masks, where labels are required for given object proposals, and (ii) with class-agnostic 3D proposals generated from a 3D proposal network. Our Open-YOLO 3D achieves state-of-the-art performance on both datasets while obtaining up to $\sim$16$\times$ speedup compared to the best existing method in literature. On ScanNet200 val. set, our Open-YOLO 3D achieves mean average precision (mAP) of 24.7\% while operating at 22 seconds per scene. Code and model are available at github.com/aminebdj/OpenYOLO3D.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# Dreamguider: 自由拡散型コンディショナルジェネレーションの改良

Dreamguider: Improved Training free Diffusion-based Conditional Generation ( http://arxiv.org/abs/2406.02549v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Vishal M Patel, (参考訳) 拡散モデル(拡散モデル)は, 学習自由条件生成の強力なツールとして現れてきたが, 推論時間誘導技術における重要なハードルは, 誘導方向を推定するための拡散ネットワークによる計算重大バックプロパゲーションの必要性である。 さらに、これらの手法はケースバイケースで手作りのパラメータチューニングを必要とすることが多い。 近年、線形逆問題に対する最小限の計算手法を導入している研究もあるが、線形および非線形誘導問題に対する汎用的な軽量ガイダンスソリューションはいまだに欠落している。 この目的のために,Dreamguiderを提案する。Dreamguiderは,拡散ネットワークを介して計算量の多いバックプロパゲーションを伴わずに,推論時のガイダンスを可能にする手法である。 鍵となる考え方は、時間的変化による勾配の流れを調節することである。 さらに,多種多様なタスクに有効である経験的指導尺度を提案し,手作りパラメータチューニングの必要性を排除した。 さらに、推論時ガイダンスにおける性能を大幅に向上させる効果的な軽量化戦略を導入する。 提案するモジュールの有効性を示すために,複数のデータセットやモデルにまたがる複数のタスクに対してDreamguiderを用いて実験を行った。 さらなる研究を容易にするため、レビュープロセスの後にコードを公開します。

Diffusion models have emerged as a formidable tool for training-free conditional generation.However, a key hurdle in inference-time guidance techniques is the need for compute-heavy backpropagation through the diffusion network for estimating the guidance direction. Moreover, these techniques often require handcrafted parameter tuning on a case-by-case basis. Although some recent works have introduced minimal compute methods for linear inverse problems, a generic lightweight guidance solution to both linear and non-linear guidance problems is still missing. To this end, we propose Dreamguider, a method that enables inference-time guidance without compute-heavy backpropagation through the diffusion network. The key idea is to regulate the gradient flow through a time-varying factor. Moreover, we propose an empirical guidance scale that works for a wide variety of tasks, hence removing the need for handcrafted parameter tuning. We further introduce an effective lightweight augmentation strategy that significantly boosts the performance during inference-time guidance. We present experiments using Dreamguider on multiple tasks across multiple datasets and models to show the effectiveness of the proposed modules. To facilitate further research, we will make the code public after the review process.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# グラクの学習:モジュラー算術課題における文脈内学習とスキル構成の創発

Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks ( http://arxiv.org/abs/2406.02550v1 )

ライセンス: Link先を確認
Tianyu He, Darshil Doshi, Aritra Das, Andrey Gromov, (参考訳) 大規模な言語モデルは、トレーニングセットに存在しないタスクを解決できる。 この能力は、文脈内学習とスキル構成によるものと考えられている。 本研究では,モジュール型算術タスクの集合における文脈内学習とスキル構成の出現について検討する。 具体的には、線型モジュラ函数の有限集合 $z = a \, x + b \, y \;\mathrm{mod}\; p$ をベクトル $(a, b) \in \mathbb{Z}_p^2$ でラベル付けする。 これらのタスクのいくつかは事前トレーニングに使用し、残りはアウト・オブ・ディストリビューションテストに使用しています。 我々は,GPT方式のトランスフォーマーが,事前学習タスクの数が増加するにつれて,分布内から分布外への遷移を示すことを実証的に示す。 分布外一般化が可能な最小のモデルは2つの変圧器ブロックを必要とするのに対し、より深いモデルでは分布外一般化フェーズは \emph{transient} であり、早期停止を必要とする。 最後に、事前学習されたモデルの解釈可能性研究を行い、両相の高度に構造化された表現を明らかにし、学習アルゴリズムについて議論する。

Large language models can solve tasks that were not present in the training set. This capability is believed to be due to in-context learning and skill composition. In this work, we study the emergence of in-context learning and skill composition in a collection of modular arithmetic tasks. Specifically, we consider a finite collection of linear modular functions $z = a \, x + b \, y \;\mathrm{mod}\; p$ labeled by the vector $(a, b) \in \mathbb{Z}_p^2$. We use some of these tasks for pre-training and the rest for out-of-distribution testing. We empirically show that a GPT-style transformer exhibits a transition from in-distribution to out-of-distribution generalization as the number of pre-training tasks increases. We find that the smallest model capable of out-of-distribution generalization requires two transformer blocks, while for deeper models, the out-of-distribution generalization phase is \emph{transient}, necessitating early stopping. Finally, we perform an interpretability study of the pre-trained models, revealing the highly structured representations in both phases; and discuss the learnt algorithm.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# 局所制御と混合次元:光学格子における高温超伝導の探索

Local control and mixed dimensions: Exploring high-temperature superconductivity in optical lattices ( http://arxiv.org/abs/2406.02551v1 )

ライセンス: Link先を確認
Henning Schlömer, Hannah Lange, Titus Franz, Thomas Chalopin, Petar Bojović, Si Wang, Immanuel Bloch, Timon A. Hilker, Fabian Grusdt, Annabelle Bohrdt, (参考訳) 光学格子に強相関フェルミオンモデルを実装した高温超伝導体のシミュレーションは、アナログ量子シミュレーションの分野における主要な目的の1つである。 ここでは, 局所制御と光二重層機能により, ニケレートと銅酸化物高温超伝導体の両方を研究する汎用ツールボックスが生成されることを示す。 一方, 加圧二層ニッケルの本態的な対の物理を捉えるために, 混合次元二層モデル(mixD)を実装した手法を提案する。 これにより、現在の格子量子シミュレーションマシンにおける長距離超伝導秩序を持つ状態の長期化が可能になる。 特に,コヒーレントなペアリング相関が部分的に粒子ホール変換および回転ベースでどのようにアクセス可能であるかを示す。 一方、局所ゲートの制御は、魅力的な相互作用を持つシステムのシミュレーションを通して、2次元(単層)のフェルミ・ハバードモデルにおいて$d$-waveのペアリング順序を観測することができることを示す。 最後に、運動量分解ドパント密度を測定するためのスキームを導入し、固体実験と相補的な観測可能な物質へのアクセスを提供する。

The simulation of high-temperature superconducting materials by implementing strongly correlated fermionic models in optical lattices is one of the major objectives in the field of analog quantum simulation. Here we show that local control and optical bilayer capabilities create a versatile toolbox to study both nickelate and cuprate high-temperature superconductors. On the one hand, we present a scheme to implement a mixed-dimensional (mixD) bilayer model that has been proposed to capture the essential pairing physics of pressurized bilayer nickelates. This allows for the long-sought realization of a state with long-range superconducting order in current lattice quantum simulation machines. In particular, we show how coherent pairing correlations can be accessed in a partially particle-hole transformed and rotated basis. On the other hand, we demonstrate that control of local gates enables the observation of $d$-wave pairing order in the two-dimensional (single-layer) repulsive Fermi-Hubbard model through the simulation of a system with attractive interactions. Lastly, we introduce a scheme to measure momentum-resolved dopant densities, providing access to observables complementary to solid-state experiments -- which is of particular interest for future studies of the enigmatic pseudogap phase appearing in cuprates.
翻訳日:2024-06-05 14:50:37 公開日:2024-06-04
# VHS:高分解能イテレーティブステレオとビジュアルハルとのマッチング

VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors ( http://arxiv.org/abs/2406.02552v1 )

ライセンス: Link先を確認
Markus Plack, Hannah Dröge, Leif Van Holland, Matthias B. Hullin, (参考訳) 本稿では,先行画像を用いた高解像度画像からの深度推定のためのステレオマッチング手法と相関計算のためのメモリ効率向上手法を提案する。 提案手法では,シーンの補助的な視点から抽出したオブジェクトマスクを用いて,不一致推定を導出し,マッチングの検索スペースを効果的に削減する。 このアプローチは、下流の復元作業において、正確な深さが重要な役割を果たすボリュームキャプチャシステムにおいて、ステレオリグに特化している。 近年のシステムを対象にした高分解能でのトレーニングと回帰を可能にするため,本手法はスパース相関計算を,再帰的ネットワークアーキテクチャの先導に適するハイブリッドスパース・デンス・スキームに拡張する。 現状の手法と比較して,本手法の性能・効率のトレードオフを評価し,視覚的船体誘導の有効性を実証した。 さらに,高解像度データのトレーニングを容易にするため,最適化中のメモリ要求のさらなる削減のためのトレーニングスキームを提案する。

We present a stereo-matching method for depth estimation from high-resolution images using visual hulls as priors, and a memory-efficient technique for the correlation computation. Our method uses object masks extracted from supplementary views of the scene to guide the disparity estimation, effectively reducing the search space for matches. This approach is specifically tailored to stereo rigs in volumetric capture systems, where an accurate depth plays a key role in the downstream reconstruction task. To enable training and regression at high resolutions targeted by recent systems, our approach extends a sparse correlation computation into a hybrid sparse-dense scheme suitable for application in leading recurrent network architectures. We evaluate the performance-efficiency trade-off of our method compared to state-of-the-art methods, and demonstrate the efficacy of the visual hull guidance. In addition, we propose a training scheme for a further reduction of memory requirements during optimization, facilitating training on high-resolution data.
翻訳日:2024-06-05 14:50:36 公開日:2024-06-04
# Reward Reweighing, Reselection, Retraining による特徴的視覚説明の改善

Improving Prototypical Visual Explanations with Reward Reweighing, Reselection, and Retraining ( http://arxiv.org/abs/2307.03887v4 )

ライセンス: Link先を確認
Aaron J. Li, Robin Netzorg, Zhihan Cheng, Zhuoqin Zhang, Bin Yu, (参考訳) 近年、モデルの出力をデータの特定の特徴に明確に関連付ける、画像分類のための深い解釈可能な手法の開発が進められている。 このような手法の1つにPrototypeal Part Network (ProtoPNet)があり、入力の有意義な部分に基づいて画像の分類を試みる。 このアーキテクチャは視覚的に解釈可能な分類を生成することができるが、意味論的に意味を持たない画像の部分に基づいて分類することを学ぶことが多い。 この問題に対処するために,事前学習したProtoPNetをオフラインかつ効率的な方法で3つの追加修正更新を行うReward Reweighing, Reselecting, Retraining (R3)後処理フレームワークを提案する。 最初の2つのステップは、収集された人間のフィードバックに基づいて報酬モデルを学び、プロトタイプを人間の好みに合わせることである。 最後のステップは再トレーニングであり、更新されたプロトタイプでベース機能とオリジナルのモデルの分類層を実現する。 我々のR3フレームワークは、ProtoPNetとそのバリエーションの解釈可能性と予測精度の両方を一貫して改善しています。

In recent years, work has gone into developing deep interpretable methods for image classification that clearly attributes a model's output to specific features of the data. One such of these methods is the Prototypical Part Network (ProtoPNet), which attempts to classify images based on meaningful parts of the input. While this architecture is able to produce visually interpretable classifications, it often learns to classify based on parts of the image that are not semantically meaningful. To address this problem, we propose the Reward Reweighing, Reselecting, and Retraining (R3) post-processing framework, which performs three additional corrective updates to a pretrained ProtoPNet in an offline and efficient manner. The first two steps involve learning a reward model based on collected human feedback and then aligning the prototypes with human preferences. The final step is retraining, which realigns the base features and the classifier layer of the original model with the updated prototypes. We find that our R3 framework consistently improves both the interpretability and the predictive accuracy of ProtoPNet and its variants.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 因果説明のための2段階摂動試験による必要十分性および十分性に寄与する特徴

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation ( http://arxiv.org/abs/2402.08845v4 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Zhengting Huang, Yuxuan Zhu, Julien Horwood, Zhifeng Hao, Zijian Li, Jose Miguel Hernandez-Lobato, (参考訳) 本稿では,摂動テストによる特徴量評価を行うFAM(Feature Attribution Methods)に着目し,機械学習モデルの説明可能性の問題について検討する。 実用性にも拘わらず、FAMは摂動後の予測変化が類似している場合、異なる特徴の貢献を区別するのに苦労する。 本研究では,FAMの識別能力を高めるために,FANS(Feature Attribution with Necessity and Sufficiency)を導入し,この領域内の摂動サンプルが,予測の変化の原因となる必要十分かつ十分である確率が高く,このPNSを特徴の重要性として利用する。 具体的には、FANSは、近隣を推定するためのヒューリスティックな戦略と、2段階(現実的および介入的)の対実的推論を含む摂動テストを通じて、このPNSを計算している。 対物サンプルを生成するために, 観測試料に対する再サンプリングに基づくアプローチを用いて, 必要な条件分布を近似する。 FANSは6つのベンチマークで既存の属性法よりも優れていることを示す。 ソースコードは \url{https://github.com/DMIRLAB-Group/FANS} で参照してください。

We investigate the problem of explainability for machine learning models, focusing on Feature Attribution Methods (FAMs) that evaluate feature importance through perturbation tests. Despite their utility, FAMs struggle to distinguish the contributions of different features, when their prediction changes are similar after perturbation. To enhance FAMs' discriminative power, we introduce Feature Attribution with Necessity and Sufficiency (FANS), which find a neighborhood of the input such that perturbing samples within this neighborhood have a high Probability of being Necessity and Sufficiency (PNS) cause for the change in predictions, and use this PNS as the importance of the feature. Specifically, FANS compute this PNS via a heuristic strategy for estimating the neighborhood and a perturbation test involving two stages (factual and interventional) for counterfactual reasoning. To generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution. We demonstrate that FANS outperforms existing attribution methods on six benchmarks. Please refer to the source code via \url{https://github.com/DMIRLAB-Group/FANS}.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 言語誘導型イメージリフレクション分離

Language-guided Image Reflection Separation ( http://arxiv.org/abs/2402.11874v4 )

ライセンス: Link先を確認
Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi, (参考訳) 本稿では, 言語記述を導入し, 層間コンテンツ提供による不適切な反射分離問題に対処することを目的とした, 言語誘導反射分離の問題について検討する。 本稿では,言語記述と画像層との対応性を構築するために,コントラスト学習戦略を用いたクロスアテンション機構を活用した統合フレームワークを提案する。 ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。 提案手法の有効性は,既存の反射分離法に比べて定量的および定性的な比較において有意な性能上の優位性によって検証された。

This paper studies the problem of language-guided reflection separation, which aims at addressing the ill-posed reflection separation problem by introducing language descriptions to provide layer content. We propose a unified framework to solve this problem, which leverages the cross-attention mechanism with contrastive learning strategies to construct the correspondence between language descriptions and image layers. A gated network design and a randomized training strategy are employed to tackle the recognizable layer ambiguity. The effectiveness of the proposed method is validated by the significant performance advantage over existing reflection separation methods on both quantitative and qualitative comparisons.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# NewsBench: 中国語ジャーナリズムにおける大規模言語モデルの編集能力を評価するためのシステム評価フレームワーク

NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism ( http://arxiv.org/abs/2403.00862v4 )

ライセンス: Link先を確認
Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo, (参考訳) 我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。 構築したベンチマークデータセットは,4面の筆記能力と6面の安全適合性に着目し,複数の選択質問のタイプで1,267個のテストサンプルを手作業で設計し,24のニュースドメインで5つの編集タスクに対して短い回答質問を行う。 そこで本研究では,GPT-4をベースとした自動評価プロトコルを提案し,筆記能力と安全性の両面を高い相関関係で検証した。 体系的な評価枠組みに基づき、中国語を処理できる10の人気のあるLLMを包括的に分析する。 実験の結果, GPT-4とERNIE Botがトップパフォーマーとして注目されたが, クリエイティブな文章作成作業において, ジャーナリストの安全性が相対的に欠如していることが明らかになった。 また,本研究は,LLMとジャーナリストの基準と安全配慮の整合化に向けた一歩として,機械によるジャーナリズムコンテンツにおける倫理的ガイダンスの強化の必要性を強調した。

We present NewsBench, a novel evaluation framework to systematically assess the capabilities of Large Language Models (LLMs) for editorial capabilities in Chinese journalism. Our constructed benchmark dataset is focused on four facets of writing proficiency and six facets of safety adherence, and it comprises manually and carefully designed 1,267 test samples in the types of multiple choice questions and short answer questions for five editorial tasks in 24 news domains. To measure performances, we propose different GPT-4 based automatic evaluation protocols to assess LLM generations for short answer questions in terms of writing proficiency and safety adherence, and both are validated by the high correlations with human evaluations. Based on the systematic evaluation framework, we conduct a comprehensive analysis of ten popular LLMs which can handle Chinese. The experimental results highlight GPT-4 and ERNIE Bot as top performers, yet reveal a relative deficiency in journalistic safety adherence in creative writing tasks. Our findings also underscore the need for enhanced ethical guidance in machine-generated journalistic content, marking a step forward in aligning LLMs with journalistic standards and safety considerations.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# M$^3$AV:マルチモーダル・マルチジェネラル・多目的オーディオ・ビジュアル・アカデミック・レクチャー・データセット

M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset ( http://arxiv.org/abs/2403.14168v3 )

ライセンス: Link先を確認
Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang, (参考訳) オープンソースのアカデミックビデオの公開は、オンラインで知識を共有するための緊急かつ一般的なアプローチである。 このようなビデオは、音声、話者の顔と身体の動き、スライドのテキストや写真、そしておそらく論文までを含む豊富なマルチモーダル情報を持っている。 複数の学術ビデオデータセットが作成・リリースされているが、高品質な人間のアノテーションが欠如しているために、マルチモーダルなコンテンツ認識と理解タスクの両方をサポートするものはほとんどない。 本稿では,コンピュータ科学,数学,医学,生物学に関する5つの資料から約367時間の映像を収録した,多目的多目的視覚学術講義データセット(M$^3$AV)を提案する。 スライドテキストの高品質な人文アノテーションと音声単語、特に高価値な名前エンティティにより、データセットは複数の音声視覚認識および理解タスクに使用することができる。 文脈音声認識、音声合成、スライドおよびスクリプト生成タスクで行った評価は、M$^3$AVの多様性が挑戦的なデータセットであることを示している。

Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibly even the papers. Although multiple academic video datasets have been constructed and released, few of them support both multimodal content recognition and understanding tasks, which is partially due to the lack of high-quality human annotations. In this paper, we propose a novel multimodal, multigenre, and multipurpose audio-visual academic lecture dataset (M$^3$AV), which has almost 367 hours of videos from five sources covering computer science, mathematics, and medical and biology topics. With high-quality human annotations of the slide text and spoken words, in particular high-valued name entities, the dataset can be used for multiple audio-visual recognition and understanding tasks. Evaluations performed on contextual speech recognition, speech synthesis, and slide and script generation tasks demonstrate that the diversity of M$^3$AV makes it a challenging dataset.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 圧縮された信頼の復号:圧縮下における効率的なLLMの信頼性の検討

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression ( http://arxiv.org/abs/2403.15447v3 )

ライセンス: Link先を確認
Junyuan Hong, Jinhao Duan, Chenhui Zhang, Zhangheng Li, Chulin Xie, Kelsey Lieberman, James Diffenderfer, Brian Bartoldson, Ajay Jaiswal, Kaidi Xu, Bhavya Kailkhura, Dan Hendrycks, Dawn Song, Zhangyang Wang, Bo Li, (参考訳) 高機能大言語モデル (LLM) の圧縮は,資源効率のよい推論手法として好まれている。 SoTA(State-of-the-art)圧縮法は、良質なタスク性能の保存において顕著な進歩を誇っているが、安全性と信頼性の点で圧縮の潜在的なリスクは無視されている。 本研究は,8次元(8次元)にわたる5つのSTA圧縮技術を用いて,3つのLLMを徹底的に評価する。 我々の実験は、圧縮と信頼性の間の複雑な相互作用を強調し、興味深いパターンを明らかにします。 量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。 例えば、4ビットの量子化モデルでは、元のモデルの信頼性は維持されるが、モデルプルーニングは50%の間隔でも信頼性を著しく低下させる。 さらに、適度なビット範囲内での量子化の導入は、倫理や公正といった特定の信頼性の次元を予想外に改善する可能性がある。 逆に、非常に低ビットレベル(3ビット)への極端な量子化は、信頼性を著しく低下させる傾向がある。 このリスクの増加は、良心的なパフォーマンスを単独で見るだけでは発見できない。 これらの知見は, LLMの実用性, 効率, 信頼性を同時に達成するための実践的勧告を導いた。 コードとモデルはhttps://decoding-comp-trust.github.io.comで公開されている。

Compressing high-capability Large Language Models (LLMs) has emerged as a favored strategy for resource-efficient inferences. While state-of-the-art (SoTA) compression methods boast impressive advancements in preserving benign task performance, the potential risks of compression in terms of safety and trustworthiness have been largely neglected. This study conducts the first, thorough evaluation of three (3) leading LLMs using five (5) SoTA compression techniques across eight (8) trustworthiness dimensions. Our experiments highlight the intricate interplay between compression and trustworthiness, revealing some interesting patterns. We find that quantization is currently a more effective approach than pruning in achieving efficiency and trustworthiness simultaneously. For instance, a 4-bit quantized model retains the trustworthiness of its original counterpart, but model pruning significantly degrades trustworthiness, even at 50% sparsity. Moreover, employing quantization within a moderate bit range could unexpectedly improve certain trustworthiness dimensions such as ethics and fairness. Conversely, extreme quantization to very low bit levels (3 bits) tends to reduce trustworthiness significantly. This increased risk cannot be uncovered by looking at benign performance alone, in turn, mandating comprehensive trustworthiness evaluation in practice. These findings culminate in practical recommendations for simultaneously achieving high utility, efficiency, and trustworthiness in LLMs. Code and models are available at https://decoding-comp-trust.github.io.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 情報処理の起源と進化

The Origin and Evolution of Information Handling ( http://arxiv.org/abs/2404.04374v3 )

ライセンス: Link先を確認
Amahury Jafet López-Díaz, Hiroki Sayama, Carlos Gershenson, (参考訳) 生命の起源を説明する上での大きな課題は、「分子動力学から自然に自然に情報制御系がどのように出現するか」を説明することである。 これまでのところ、情報制御がいかに開始したのか、そして生命における原始的な制御機構がどのように進化し、ますます洗練されていくのかは、誰も明らかにしていない。 化学計算が生命関連化学の存在を必要としないことを示す最近の実験結果に基づいて,情報処理(計算)から情報記憶(記憶),情報伝達(通信)に至るまで,化学オートマトンによる情報処理の起源と初期の進化を解明し,同時にその統語的・意味的・実践的なフレーバーをカバーした。 初期の複雑な構造の存在を仮定する他の理論とは対照的に、我々の表現は相互作用がより強力な分子機械を生み出すような自複製子から始まる。 化学計算における原始遷移を正確に記述することにより、上記のギャップを説明でき、他の計算モデルに変換できるので、複数の空間的・時間的スケールで生物現象を探索することができる。 自由エネルギーの原理と相容れないことから、生命の起源から高いレベルの認知まで、まるで純粋に構成主義的な物語であるかのように説明できる計算エノクティビズム理論の枠組みを開発した。 原稿の最後には、我々の理論(in vitroとsilicoの両方)を実験的に検証するなど、アイデアを拡張するいくつかの方法を提案する。

A major challenge when describing the origin of life is to explain "how instructional information control systems emerge naturally and spontaneously from mere molecular dynamics". So far, no one has clarified how information control emerged ab initio and how primitive control mechanisms in life might have evolved, becoming increasingly refined. Based on recent experimental results showing that chemical computation does not require the presence of life-related chemistry, we elucidate the origin and early evolution of information handling by chemical automata, from information processing (computation) to information storage (memory) and information transmission (communication) and later digital messengers, covering at the same time its syntactic, semantic and pragmatic flavors. In contrast to other theories that assume the existence of initial complex structures, our representation starts from trivial self-replicators whose interaction leads to the arising of more powerful molecular machines. By describing precisely the primordial transitions in chemistry-based computation, our framework is capable of explaining the above-mentioned gaps and can be translated to other models of computation, which allow us to explore biological phenomena at multiple spatial and temporal scales. Being compatible with the free energy principle, we have developed a computational enactivist theoretical framework that could be able to describe from the origin of life to higher-level cognition, as if it were a purely constructivist narrative. At the end of our manuscript, we propose some ways to extend our ideas, including experimental validation of our theory (both in vitro and in silico).
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 精密視線マップ構築のための局所的修復による分岐訓練コストの対応

Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction ( http://arxiv.org/abs/2405.01016v3 )

ライセンス: Link先を確認
Minsu Kim, Giseop Kim, Sunwook Choi, (参考訳) 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。 しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。 結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。 この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。 インプレクシションがリスクの高い自動運転につながるため、多様化するトレーニングコストの問題は解決されなければならない。 本稿では,新しいTrumpet Neural Network(TNN)機構でこの問題に対処する。 このフレームワークはLR BEV空間を利用し、メモリ効率のよいパイプラインを作成するために、アップサンプルのセマンティックBEVマップを出力する。 そこで本稿では,BEV表現の局所的復元について紹介する。 具体的には、アップサンプリングされたBEV表現は、深刻なエイリアス、ブロッキー信号、そして厚いセマンティックラベルを持っている。 提案したローカル復元は,信号の復元とラベルの幅の縮小(あるいは縮小)を行う。 我々の広範な実験により、TNN機構は、プラグアンドプレイのメモリ効率の高いパイプラインを提供し、BEVマップ構築のための実サイズ(または正確な)セマンティックラベルを効果的に推定できることが示されている。

Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 集団行動における学習アルゴリズムの役割

The Role of Learning Algorithms in Collective Action ( http://arxiv.org/abs/2405.06582v3 )

ライセンス: Link先を確認
Omri Ben-Dov, Jake Fawkes, Samira Samadi, Amartya Sanyal, (参考訳) 機械学習における集合的行動(英: Collective action)とは、協調したグループが機械学習アルゴリズムよりも持つことができる制御の研究である。 これまでの研究は、ベイズ(準最適分類器)に対する集団の影響を評価することに重点を置いてきたが、この視点は学習アルゴリズムの選択を考慮しないという点で限られている。 分類器はベイズ分類器のように振る舞うことは滅多になく、学習アルゴリズムの選択とその固有のバイアスの影響を受けないため、本研究では、学習アルゴリズムの選択が実践的な環境で集団の成功にどのように貢献するかを研究する。 具体的には、最悪のグループエラーを改善するために人気がある分散ロバスト最適化(DRO)と、"simpler"関数の帰納バイアスのため、ユビキタス確率勾配降下(SGD)に焦点を当てる。 理論的基礎によって支持された実験結果から,学習アルゴリズムの特性に有効サイズと成功度が強く依存していることが示唆された。 このことは、機械学習における集団行動の影響を研究する際に、学習アルゴリズムを考慮に入れる必要性を強調している。

Collective action in machine learning is the study of the control that a coordinated group can have over machine learning algorithms. While previous research has concentrated on assessing the impact of collectives against Bayes (sub-)optimal classifiers, this perspective is limited in that it does not account for the choice of learning algorithm. Since classifiers seldom behave like Bayes classifiers and are influenced by the choice of learning algorithms along with their inherent biases, in this work we initiate the study of how the choice of the learning algorithm plays a role in the success of a collective in practical settings. Specifically, we focus on distributionally robust optimization (DRO), popular for improving a worst group error, and on the ubiquitous stochastic gradient descent (SGD), due to its inductive bias for "simpler" functions. Our empirical results, supported by a theoretical foundation, show that the effective size and success of the collective are highly dependent on properties of the learning algorithm. This highlights the necessity of taking the learning algorithm into account when studying the impact of collective action in machine learning.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-04
# 一般化確率論における絡み合いスワッピングと繰り返しCHSHゲーム

Entanglement-swapping in generalised probabilistic theories, and iterated CHSH games ( http://arxiv.org/abs/2405.13819v3 )

ライセンス: Link先を確認
Lionel J. Dmello, Laurens T. Ligthart, David Gross, (参考訳) 量子論よりも「より強い絡み合い」を持つ理論があるが、それらがツィレルソンの有界より上のCHSH値を示すという意味では、そのような理論の既知のすべての例は、厳密に小さな測定セットを持っている。 したがって、二分項状態と測定の両方を必要とするタスクでは、QMよりもパフォーマンスが良くない。 両分割状態と測定の両方を含む最も単純な情報処理タスクの1つは、絡み合いの交換である。 本稿では,一般化確率論(GPT)における絡み合いのスワッピングについて検討する。 特に, GPT のパワーを計測して非古典的相関を保ち, 絡み合いのラウンド数$n$の後に得られる最大のCHSH値を用いて, 繰り返しCHSHゲームを導入する。 我々の主な成果は、任意のラウンド数でCHSH値が4ドルに達するGPTの構築である。 このことは、最近文献で提起されたそのようなゲームに対する量子論の最適性に関する問題に対処する。 この問題に対処する上で直面する課題は、絡み合いスワッピングが適切に定義された操作であるGPTを構築するための一般的な枠組みが存在しないことである。 そこで本研究では,両部GPTを多部GPTに変換するアルゴリズム構成を導入する。

While there exist theories that have states "more strongly entangled" than quantum theory, in the sense that they show CHSH values above Tsirelson's bound, all known examples of such theories have a strictly smaller set of measurements. Therefore, in tasks which require both bipartite states and measurements, they do not perform better than QM. One of the simplest information processing tasks involving both bipartite states and measurements is that of entanglement swapping. In this paper, we study entanglement swapping in generalised probabilistic theories (GPTs). In particular, we introduce the iterated CHSH game, which measures the power of a GPT to preserve non-classical correlations, in terms of the largest CHSH value obtainable after $n$ rounds of entanglement swapping. Our main result is the construction of a GPT that achieves a CHSH value of $4$ after an arbitrary number of rounds. This addresses a question about the optimality of quantum theory for such games recently raised in the literature. One challenge faced when treating this problem is that there seems to be no general framework for constructing GPTs in which entanglement swapping is a well-defined operation. Therefore, we introduce an algorithmic construction that turns a bipartite GPT into a multipartite GPT that supports entanglement swapping, if consistently possible.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 最適学習率とバッチサイズスケーリングにおけるサージ現象

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling ( http://arxiv.org/abs/2405.14578v3 )

ライセンス: Link先を確認
Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang, (参考訳) 現在のディープラーニングタスクでは、Adam、Adagrad、RMSProp、Adafactor、LionといったAdamスタイルオプティマイザがSGDスタイルオプティマイザの代替として広く使用されている。 これらのオプティマイザは通常、勾配の符号を使ってモデルパラメータを更新し、より安定した収束曲線をもたらす。 学習速度とバッチサイズはオプティマイザにとって最も重要なハイパーパラメータであり、効果的な収束を実現するためには注意深いチューニングが必要である。 従来の研究では、最適学習率が線形に増加するか、SGDスタイルオプティマイザのバッチサイズに類似したルールに従うことが示されている。 しかし、この結論はAdamスタイルのオプティマイザには当てはまらない。 本稿では,Adamスタイルオプティマイザの最適学習率とバッチサイズとの関係を理論的解析と広範囲な実験により解明する。 まず, バッチサイズと最適学習率の間のスケーリング法則を勾配の符号で表し, 最適学習率が最初に上昇し, バッチサイズが大きくなるにつれて低下することを示す。 さらに、トレーニングが進むにつれて、サージのピーク値は、より大きなバッチサイズへと徐々に移動します。 第2に,各種CVおよびNLPタスクの実験を行い,スケーリング法則の正当性を検証した。

In current deep learning tasks, Adam style optimizers such as Adam, Adagrad, RMSProp, Adafactor, and Lion have been widely used as alternatives to SGD style optimizers. These optimizers typically update model parameters using the sign of gradients, resulting in more stable convergence curves. The learning rate and the batch size are the most critical hyperparameters for optimizers, which require careful tuning to enable effective convergence. Previous research has shown that the optimal learning rate increases linearly or follows similar rules with batch size for SGD style optimizers. However, this conclusion is not applicable to Adam style optimizers. In this paper, we elucidate the connection between optimal learning rates and batch sizes for Adam style optimizers through both theoretical analysis and extensive experiments. First, we raise the scaling law between batch sizes and optimal learning rates in the sign of gradient case, in which we prove that the optimal learning rate first rises and then falls as the batch size increases. Moreover, the peak value of the surge will gradually move toward the larger batch size as training progresses. Second, we conducted experiments on various CV and NLP tasks and verified the correctness of the scaling law.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# HLOB - 制限順序書における情報持続性と構造

HLOB -- Information Persistence and Structure in Limit Order Books ( http://arxiv.org/abs/2405.18938v3 )

ライセンス: Link先を確認
Antonio Briola, Silvia Bartolucci, Tomaso Aste, (参考訳) 本稿では,制約順序書の中間価格変化予測のための新しい大規模ディープラーニングモデルを紹介し,それをHLOBと呼ぶ。 この建築 (i)情報フィルタリングネットワーク(Triangulated Maximally Filtered Graph)によって符号化された情報を利用して、ボリュームレベルの深い非自明な依存性構造を明らかにする。 (II) ホモロジカル畳み込みニューラルネットワークの画期的なクラスからインスピレーションを得て, 基礎となるシステムの複雑さに対処する決定論的設計選択を保証する。 我々は、NASDAQ取引所で取引された15株を含む3つの実世界の制限順序ブックデータセット上の9つの最先端ディープラーニング代替案に対して、我々のモデルを検証し、HLOBが最先端アーキテクチャを上回るシナリオを体系的に特徴づける。 当社のアプローチは,高頻度金融市場におけるミクロ構造モデリングと深層学習に基づく予測とのギャップを狭めるとともに,情報空間の空間分布と,予測地平線の増大に伴う劣化に新たな光を当てるものである。

We introduce a novel large-scale deep learning model for Limit Order Book mid-price changes forecasting, and we name it `HLOB'. This architecture (i) exploits the information encoded by an Information Filtering Network, namely the Triangulated Maximally Filtered Graph, to unveil deeper and non-trivial dependency structures among volume levels; and (ii) guarantees deterministic design choices to handle the complexity of the underlying system by drawing inspiration from the groundbreaking class of Homological Convolutional Neural Networks. We test our model against 9 state-of-the-art deep learning alternatives on 3 real-world Limit Order Book datasets, each including 15 stocks traded on the NASDAQ exchange, and we systematically characterize the scenarios where HLOB outperforms state-of-the-art architectures. Our approach sheds new light on the spatial distribution of information in Limit Order Books and on its degradation over increasing prediction horizons, narrowing the gap between microstructural modeling and deep learning-based forecasting in high-frequency financial markets.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 自らを信頼するモデルを信頼する - 不確かさを意識したロールアウト適応を用いたモデルベースアクタ批判

Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption ( http://arxiv.org/abs/2405.19014v2 )

ライセンス: Link先を確認
Bernd Frauenknecht, Artur Eisele, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe, (参考訳) ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。 この組み合わせは、重要な疑問を提起する: 「モデルをいつ信頼するか?」、すなわち、どのロールアウト期間が、有用なデータを提供するモデルに結果をもたらすか? Janner et al (2019)は、トレーニング全体を通して徐々にロールアウトの長さを増やしてこの問題に対処している。 理論上は誘惑的であるが、一様モデルの精度は、外挿時に最新の段階で崩壊する誤りである。 その代わり、我々は「モデルを信頼するだろうか」という質問をする。 局所的精度を考慮するために固有モデル不確実性を用いることで、不確かさを意識したロールアウト適応(MACURA)アルゴリズムを得る。 本研究では, MuJoCo ベンチマークにおける最先端の深層MBRL 法と比較して, データの効率と性能を著しく向上する機構を提案する。

Dyna-style model-based reinforcement learning (MBRL) combines model-free agents with predictive transition models through model-based rollouts. This combination raises a critical question: 'When to trust your model?'; i.e., which rollout length results in the model providing useful data? Janner et al. (2019) address this question by gradually increasing rollout lengths throughout the training. While theoretically tempting, uniform model accuracy is a fallacy that collapses at the latest when extrapolating. Instead, we propose asking the question 'Where to trust your model?'. Using inherent model uncertainty to consider local accuracy, we obtain the Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption (MACURA) algorithm. We propose an easy-to-tune rollout mechanism and demonstrate substantial improvements in data efficiency and performance compared to state-of-the-art deep MBRL methods on the MuJoCo benchmark.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント

PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting ( http://arxiv.org/abs/2405.19957v2 )

ライセンス: Link先を確認
Qiaowei Miao, Yawei Luo, Yi Yang, (参考訳) テキスト条件拡散モデル (DM) が画像, ビデオ, 3次元生成のブレークスルーを達成するにつれ, 研究コミュニティの焦点は, 動的3次元オブジェクトを生成するための時間次元を導入し, テキストから4次元合成の課題へとシフトしてきた。 そこで本研究では,テキスト・ツー・3D合成技術として広く用いられているスコア蒸留サンプリング(SDS)を,Janus-facedとテクスチャ・非現実的な問題と高い計算コストによるテキスト・ツー・4D性能の重大な障害として同定する。 本稿では,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして利用し,静的な3Dオブジェクトを生成して動きを注入する新しい手法であるGaussian Splatting (\textbf{PLA4D})を提案する。 具体的には、レンダリングのためのカメラポーズの校正にFocal Alignmentを導入し、GS-Mesh Contrastive Learningを使用して、ピクセルレベルのレンダリング画像コントラストから幾何学的先行を抽出する。 さらに、変形ネットワークを用いて、ガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発した。 これらの技術により、4Dガウススプラッティングは、幾何学、テクスチャ、動きをピクセルレベルで生成されたビデオと整列させることができる。 従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。 PLA4Dはオープンソースモデルで完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザフレンドリで有望な方向性を提供する。 私たちのプロジェクトページは、https://github.com/MiaoQiaowei/PLA4D.github.ioです。

As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community's focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting (\textbf{PLA4D}), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: https://github.com/MiaoQiaowei/PLA4D.github.io.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# セマンティックチャネル等化のための潜在空間のソフトパーティショニング

Soft Partitioning of Latent Space for Semantic Channel Equalization ( http://arxiv.org/abs/2405.20085v2 )

ライセンス: Link先を確認
Tomás Hüttebräucker, Mohamed Sana, Emilio Calvanese Strinati, (参考訳) セマンティックチャネル等化は、マルチユーザセマンティックコミュニケーションにおける言語ミスマッチの解決法として登場した。 このアプローチは、共同で訓練されていないエンコーダとデコーダの潜在空間をアライメントすることを目的としており、セマンティックな意味に基づくセマンティック(ラテント)空間の原子への分割に依存している。 本研究では,タスク構造が意味空間と行動空間を1対1でマッピングするシナリオにおける意味空間分割の役割について検討する。 このようなシナリオでは、ハード推論に基づくパーティショニングは、等化性能を低下させる情報の損失をもたらす。 本稿では, ソフトデコーダの出力を利用して, セマンティック空間の構造をより包括的に理解する分割の原子を導出するソフトな基準を提案する。 実験的な検証により,ソフトパーティショニングにより空間のより記述的で規則的なパーティショニングが得られ,結果として等化アルゴリズムの性能が向上することを示した。

Semantic channel equalization has emerged as a solution to address language mismatch in multi-user semantic communications. This approach aims to align the latent spaces of an encoder and a decoder which were not jointly trained and it relies on a partition of the semantic (latent) space into atoms based on the the semantic meaning. In this work we explore the role of the semantic space partition in scenarios where the task structure involves a one-to-many mapping between the semantic space and the action space. In such scenarios, partitioning based on hard inference results results in loss of information which degrades the equalization performance. We propose a soft criterion to derive the atoms of the partition which leverages the soft decoder's output and offers a more comprehensive understanding of the semantic space's structure. Through empirical validation, we demonstrate that soft partitioning yields a more descriptive and regular partition of the space, consequently enhancing the performance of the equalization algorithm.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 科学書記支援のための集中フィードバック自動生成

Automated Focused Feedback Generation for Scientific Writing Assistance ( http://arxiv.org/abs/2405.20477v2 )

ライセンス: Link先を確認
Eric Chamoun, Michael Schlichktrull, Andreas Vlachos, (参考訳) 科学的な文章を書くことは、特に経験豊富な仲間からのフィードバックに頼っている初心者研究者にとって難しい課題だ。 最近の研究は主に、原稿の内容よりも表面の形状やスタイルの改善に重点を置いている。 本稿では,科学的執筆支援のための自動集中型フィードバック生成という,新しい課題を提案する。 SWIF$^{2}$T: A Scientific WrIting Focused Feedback Toolを提案する。 特定の、実行可能な、一貫性のあるコメントを生成し、科学論文の弱点を特定したり、修正案を提案するように設計されている。 我々のアプローチは、プランナー、調査員、レビュアー、コントローラの4つのコンポーネントで構成され、それらを実装するために複数のLarge Language Models (LLM)を活用する。 科学的論文の弱点を引用し,300件の査読データセットを収集し,人的評価を行う。 その結果,SWIF$^{2}$Tのフィードバックは,他のアプローチと比較して,特異性,読みやすさ,総合的な有用性を示した。 分析では、自動生成されたレビューが人間のレビューより優れていると判断された事例も同定し、科学的な文章にAIによるフィードバックを統合する機会を示唆した。

Scientific writing is a challenging task, particularly for novice researchers who often rely on feedback from experienced peers. Recent work has primarily focused on improving surface form and style rather than manuscript content. In this paper, we propose a novel task: automated focused feedback generation for scientific writing assistance. We present SWIF$^{2}$T: a Scientific WrIting Focused Feedback Tool. It is designed to generate specific, actionable and coherent comments, which identify weaknesses in a scientific paper and/or propose revisions to it. Our approach consists of four components - planner, investigator, reviewer and controller - leveraging multiple Large Language Models (LLMs) to implement them. We compile a dataset of 300 peer reviews citing weaknesses in scientific papers and conduct human evaluation. The results demonstrate the superiority in specificity, reading comprehension, and overall helpfulness of SWIF$^{2}$T's feedback compared to other approaches. In our analysis, we also identified cases where automatically generated reviews were judged better than human ones, suggesting opportunities for integration of AI-generated feedback in scientific writing.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 決定木アルゴリズムの超高速選択

Superfast Selection for Decision Tree Algorithms ( http://arxiv.org/abs/2405.20622v2 )

ライセンス: Link先を確認
Huaduo Wang, Gopal Gupta, (参考訳) 本稿では,決定ツリーの「最適分割」と表データ上の特徴選択アルゴリズムを選択するための,Superfast Selectionと呼ばれる新奇で体系的な手法を提案する。 この方法は、O(MN) から O(M) へ、M は入力例の数を表し、N はユニークな値の数を表す。 さらに、特徴値の不均一性に対する1ホットや整数エンコーディングのようなプリエンコーディングの必要性も排除される。 超高速選択の効率性を示すために,超高速選択を組み込んで超高速決定木(UDT)と呼ばれるものを作成することにより,CARTアルゴリズムの強化を図る。 この拡張により、UTTは時間複雑性O(KM$^2$)でトレーニングプロセスを完了できる(Kは特徴数である)。 さらに、トレーニングのみ チューニングにより、UDTは最適なハイパーパラメータを見つけるのに必要な反復的なトレーニングプロセスを避けることができる。 実験の結果、UTTは1秒以内にKDD99-10%データセット(41個の特徴を持つ494Kの例)で1回のトレーニングを完了し、ラップトップで0.25秒以内に214.8のハイパーパラメータセットでチューニングできることが示されている。

We present a novel and systematic method, called Superfast Selection, for selecting the "optimal split" for decision tree and feature selection algorithms over tabular data. The method speeds up split selection on a single feature by lowering the time complexity, from O(MN) (using the standard selection methods) to O(M), where M represents the number of input examples and N the number of unique values. Additionally, the need for pre-encoding, such as one-hot or integer encoding, for feature value heterogeneity is eliminated. To demonstrate the efficiency of Superfast Selection, we empower the CART algorithm by integrating Superfast Selection into it, creating what we call Ultrafast Decision Tree (UDT). This enhancement enables UDT to complete the training process with a time complexity O(KM$^2$) (K is the number of features). Additionally, the Training Only Once Tuning enables UDT to avoid the repetitive training process required to find the optimal hyper-parameter. Experiments show that the UDT can finish a single training on KDD99-10% dataset (494K examples with 41 features) within 1 second and tuning with 214.8 sets of hyper-parameters within 0.25 second on a laptop.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 検索型大規模言語モデルにおける検索不整合の解消と緩和

Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.20680v3 )

ライセンス: Link先を確認
Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang, (参考訳) Retrieval-Augmented Large Language Models (RALMs) は事実性の観点からその優位性を示すが、元の検索自由言語モデル (LMs) よりも一貫して優れているわけではない。 提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。 この現象を理解するために,ALMの変性挙動を調査し,理論的に4つのカテゴリに分解する。 分析の結果,知識源の自然差と予測不可能な読解モデル劣化が矛盾に大きく寄与していることが判明した。 本分析から,異なる知識ソースから適応的に検索し,予測不能な読取誤差を効果的に低減できる訓練可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介した。 Open Domain Question Answering 実験の結果,EoR は不整合挙動を著しく低減し,単一検索器を用いた RALM 上での性能を大幅に向上することが示された。

Although Retrieval-Augmented Large Language Models (RALMs) demonstrate their superiority in terms of factuality, they do not consistently outperform the original retrieval-free Language Models (LMs). Our experiments reveal that this example-level performance inconsistency exists not only between retrieval-augmented and retrieval-free LM but also among different retrievers. To understand this phenomenon, we investigate the degeneration behavior of RALMs and theoretically decompose it into four categories. Further analysis based on our decomposition reveals that the innate difference in knowledge sources and the unpredictable degeneration of the reader model contribute most to the inconsistency. Drawing from our analysis, we introduce Ensemble of Retrievers (EoR), a trainable framework that can adaptively retrieve from different knowledge sources and effectively decrease unpredictable reader errors. Our experiments on Open Domain Question Answering show that EoR substantially improves performance over the RALM with a single retriever by considerably reducing inconsistent behaviors.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# 極端に監督されたインスタンスセグメンテーション

Extreme Point Supervised Instance Segmentation ( http://arxiv.org/abs/2405.20729v2 )

ライセンス: Link先を確認
Hyeonjun Lee, Sehyun Hwang, Suha Kwak, (参考訳) 本稿では,各オブジェクトの極端点,左極端点,最下極点,右極端点を用いて,インスタンスセグメンテーションを学習するための新しいアプローチを提案する。 これらの点は、厳密なセグメンテーションのための強力なヒントを提供しながら、現代的なバウンディングボックスアノテーションプロセスで容易に利用でき、ボックス管理されたメソッドで同じアノテーションコストでパフォーマンスを向上させることができる。 我々の研究は、極端点を真のインスタンスマスクの一部とみなし、これらを擬似ラベル生成器のトレーニングに使用した、潜在的な前景および背景点を特定するために伝播する。 次に、生成元が付与した擬似ラベルを用いて、最終モデルの教師付き学習を行う。 3つの公開ベンチマークにおいて,本手法は既存のボックス管理手法を著しく上回り,完全教師付き手法とのギャップをさらに狭めている。 特に,本モデルでは,対象物体を複数の部品に分けた場合に高品質なマスクを生成する。

This paper introduces a novel approach to learning instance segmentation using extreme points, i.e., the topmost, leftmost, bottommost, and rightmost points, of each object. These points are readily available in the modern bounding box annotation process while offering strong clues for precise segmentation, and thus allows to improve performance at the same annotation cost with box-supervised methods. Our work considers extreme points as a part of the true instance mask and propagates them to identify potential foreground and background points, which are all together used for training a pseudo label generator. Then pseudo labels given by the generator are in turn used for supervised learning of our final model. On three public benchmarks, our method significantly outperforms existing box-supervised methods, further narrowing the gap with its fully supervised counterpart. In particular, our model generates high-quality masks when a target object is separated into multiple parts, where previous box-supervised methods often fail.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04
# StrucTexTv3: テキストに富んだ画像知覚、理解、およびそれ以上の効率的な視覚言語モデル

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond ( http://arxiv.org/abs/2405.21013v3 )

ライセンス: Link先を確認
Pengyuan Lyu, Yulin Li, Hao Zhou, Weihong Ma, Xingyu Wan, Qunyi Xie, Liang Wu, Chengquan Zhang, Kun Yao, Errui Ding, Jingdong Wang, (参考訳) テキストリッチな画像は大きな価値があり、人間の生活の様々な側面に深く統合されている。 特に、テキストリッチな画像における視覚的手がかりと言語記号は、情報伝達において重要な役割を担っているが、様々な課題が伴っている。 したがって、テキストリッチな画像の効率的かつ効果的な理解は、視覚言語モデルの能力にとって重要なリトマステストである。 我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。 StrucTexTv3の重要な設計は以下の点である。 まず、有効なマルチスケール縮小視覚変換器と多粒度トークンサンプリング器(MG-Sampler)の組み合わせを視覚トークン生成器として採用し、高分解能入力とテキストリッチイメージの複雑な表現学習の課題をうまく解決する。 第二に、StrucTexTv3の認識と理解能力は、命令学習によって向上し、様々なテキスト指向タスクをシームレスに統一されたフレームワークに統合する。 第3に、TIM-30Mと略される高品質なテキストリッチな画像の総合的な収集を行い、インシデントシーン、オフィス文書、Webページ、スクリーンショットなどの多様なシナリオを網羅し、モデルの堅牢性を改善した。 提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。 LLMデコーダの約1.8Bパラメータを持つマルチモーダルモデルの中で、これはリーダーとして際立っている。 要約すると、StrucTexTv3モデルは効率的な構造設計、優れた性能、広範囲な適応性を備えており、テキストリッチな画像を含む多様なインテリジェントなアプリケーションタスクを堅牢にサポートし、幅広いアプリケーションに対して大きな可能性を秘めている。

Text-rich images have significant and extensive value, deeply integrated into various aspects of human life. Notably, both visual cues and linguistic symbols in text-rich images play crucial roles in information transmission but are accompanied by diverse challenges. Therefore, the efficient and effective understanding of text-rich images is a crucial litmus test for the capability of Vision-Language Models. We have crafted an efficient vision-language model, StrucTexTv3, tailored to tackle various intelligent tasks for text-rich images. The significant design of StrucTexTv3 is presented in the following aspects: Firstly, we adopt a combination of an effective multi-scale reduced visual transformer and a multi-granularity token sampler (MG-Sampler) as a visual token generator, successfully solving the challenges of high-resolution input and complex representation learning for text-rich images. Secondly, we enhance the perception and comprehension abilities of StrucTexTv3 through instruction learning, seamlessly integrating various text-oriented tasks into a unified framework. Thirdly, we have curated a comprehensive collection of high-quality text-rich images, abbreviated as TIM-30M, encompassing diverse scenarios like incidental scenes, office documents, web pages, and screenshots, thereby improving the robustness of our model. Our method achieved SOTA results in text-rich image perception tasks, and significantly improved performance in comprehension tasks. Among multimodal models with LLM decoder of approximately 1.8B parameters, it stands out as a leader, which also makes the deployment of edge devices feasible. In summary, the StrucTexTv3 model, featuring efficient structural design, outstanding performance, and broad adaptability, offers robust support for diverse intelligent application tasks involving text-rich images, thus exhibiting immense potential for widespread application.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-04