このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240524となっている論文です。

PDF登録状況(公開日: 20240524)

TitleAuthorsAbstract論文公表日・翻訳日
# マスク付きオートエンコーダを用いたfMRI再構成における伝達学習による認知的タスクノミーの解明

Uncovering cognitive taskonomy through transfer learning in masked autoencoder-based fMRI reconstruction ( http://arxiv.org/abs/2407.00033v1 )

ライセンス: Link先を確認
Youzhi Qu, Junfeng Xia, Xinyao Jian, Wendu Li, Kaining Peng, Zhichao Liang, Haiyan Wu, Quanying Liu, (参考訳) データ再構成は、多くの下流タスクの一般的な機能を学ぶために広く使われている事前学習タスクである。 再建作業は、神経信号の完全化と復調に応用されているが、神経信号の再構成はあまり研究されていない。 ここでは、マスク付きオートエンコーダ(MAE)モデルを用いて、機能的磁気共鳴画像(fMRI)データを再構成し、伝達学習フレームワークを用いて、認知タスク間の類似性を定量化するためのマトリクスである認知タスクノミーを得る。 実験の結果,MAEモデルは脳領域内の時間的ダイナミクスパターンと相互作用を効果的に捉え,強靭なfMRI信号再構成を可能にすることがわかった。 伝達学習フレームワークから派生した認知的タスクノミーは、認知的タスク間の関係を明らかにし、運動タスクにおけるサブタスクの相関と、感情、社会的、ギャンブルタスクの類似性を明らかにする。 本研究は,MAEモデルを用いたfMRI再構成により潜在表現が発見でき,得られた課題は,目的タスクの復号性能を向上させるために,ニューラルデコードタスクにおけるソースタスクを選択するためのガイダンスを提供することを示唆する。

Data reconstruction is a widely used pre-training task to learn the generalized features for many downstream tasks. Although reconstruction tasks have been applied to neural signal completion and denoising, neural signal reconstruction is less studied. Here, we employ the masked autoencoder (MAE) model to reconstruct functional magnetic resonance imaging (fMRI) data, and utilize a transfer learning framework to obtain the cognitive taskonomy, a matrix to quantify the similarity between cognitive tasks. Our experimental results demonstrate that the MAE model effectively captures the temporal dynamics patterns and interactions within the brain regions, enabling robust cross-subject fMRI signal reconstruction. The cognitive taskonomy derived from the transfer learning framework reveals the relationships among cognitive tasks, highlighting subtask correlations within motor tasks and similarities between emotion, social, and gambling tasks. Our study suggests that the fMRI reconstruction with MAE model can uncover the latent representation and the obtained taskonomy offers guidance for selecting source tasks in neural decoding tasks for improving the decoding performance on target tasks.
翻訳日:2024-07-22 22:38:24 公開日:2024-05-24
# MeMo:ノイズ注入によるシンプルでモジュラーなコントローラ

MeMo: Meaningful, Modular Controllers via Noise Injection ( http://arxiv.org/abs/2407.01567v1 )

ライセンス: Link先を確認
Megan Tjandrasuwita, Jie Xu, Armando Solar-Lezama, Wojciech Matusik, (参考訳) ロボットは、しばしば標準化されたアセンブリ(例えば腕、脚、指)から構築されるが、各ロボットは、すべての部品のアクチュエーターを一緒に制御するために、スクラッチから訓練される必要がある。 本稿では,1つのロボットとそのコントローラを入力として取り込んだ新しいアプローチを示し,各アセンブリに対して,新しいロボットが同じパーツから構築された場合,その制御をモジュールコントローラの再利用によって迅速に学習できるようにする。 私たちはMeMoと呼ばれるフレームワークでこれを実現し、Meは(Me)有界で(Mo)有界なコントローラーを学習します。 具体的には,モジュール間の作業の適切な分割を学習するための,新しいモジュラリティ目的を提案する。 本研究の目的は,ノイズ注入による標準的な行動クローニング損失と同時に最適化できることを実証する。 我々は,ロボット形態変化の簡易化を目標として,移動環境と把握環境の枠組みをベンチマークした。 また、モジュールがタスク転送に役立ちます。 構造とタスク転送の両方において、MeMoはグラフニューラルネットワークとTransformerベースラインに対するトレーニング効率の改善を実現している。

Robots are often built from standardized assemblies, (e.g. arms, legs, or fingers), but each robot must be trained from scratch to control all the actuators of all the parts together. In this paper we demonstrate a new approach that takes a single robot and its controller as input and produces a set of modular controllers for each of these assemblies such that when a new robot is built from the same parts, its control can be quickly learned by reusing the modular controllers. We achieve this with a framework called MeMo which learns (Me)aningful, (Mo)dular controllers. Specifically, we propose a novel modularity objective to learn an appropriate division of labor among the modules. We demonstrate that this objective can be optimized simultaneously with standard behavior cloning loss via noise injection. We benchmark our framework in locomotion and grasping environments on simple to complex robot morphology transfer. We also show that the modules help in task transfer. On both structure and task transfer, MeMo achieves improved training efficiency to graph neural network and Transformer baselines.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-24
# DehazeDCT: 変形可能な畳み込み変換器による非均一脱ハージングの実現に向けて

DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer ( http://arxiv.org/abs/2407.05169v1 )

ライセンス: Link先を確認
Wei Dong, Han Zhou, Ruiyi Wang, Xiaohong Liu, Guangtao Zhai, Jun Chen, (参考訳) 低レベルの視覚において重要なタスクである画像のデハジングは、ぼんやりとした画像から視界と細部を復元することを目的としている。 強力な表現学習能力を持つ多くの深層学習手法は、非均一なデハジングにおいて高度な性能を示すが、これらの手法は通常、高い計算要求のため、高解像度画像(例えば、4000 \times 6000$)の処理に苦労する。 これらの課題に対処するために,Deformable Convolutional Transformer-like Architecture (DehazeDCT) を用いた非均一なデハージング手法を提案する。 具体的には、変形可能な畳み込みv4に基づく変換器型ネットワークを設計し、長距離依存と適応空間集約機能を提供し、より高速な収束と前進速度を示す。 さらに,ライトウェイトなRetinexインスパイアされた変圧器を活用し,色補正と構造改善を実現する。 NTIRE 2024 Dense and Non-homogeneous Dehazing Challengeでは,全16項目中2位にランクインし,提案手法の優れた性能を示した。 コードは、https://github.com/movingforward100/Dehazing_R.comで入手できる。

Image dehazing, a pivotal task in low-level vision, aims to restore the visibility and detail from hazy images. Many deep learning methods with powerful representation learning capability demonstrate advanced performance on non-homogeneous dehazing, however, these methods usually struggle with processing high-resolution images (e.g., $4000 \times 6000$) due to their heavy computational demands. To address these challenges, we introduce an innovative non-homogeneous Dehazing method via Deformable Convolutional Transformer-like architecture (DehazeDCT). Specifically, we first design a transformer-like network based on deformable convolution v4, which offers long-range dependency and adaptive spatial aggregation capabilities and demonstrates faster convergence and forward speed. Furthermore, we leverage a lightweight Retinex-inspired transformer to achieve color correction and structure refinement. Extensive experiment results and highly competitive performance of our method in NTIRE 2024 Dense and Non-Homogeneous Dehazing Challenge, ranking second among all 16 submissions, demonstrate the superior capability of our proposed method. The code is available: https://github.com/movingforward100/Dehazing_R.
翻訳日:2024-07-22 14:29:03 公開日:2024-05-24
# AIは緑内障を治療するが、人間とAIのチームはAIに勝てない

Explainable AI Enhances Glaucoma Referrals, Yet the Human-AI Team Still Falls Short of the AI Alone ( http://arxiv.org/abs/2407.11974v1 )

ライセンス: Link先を確認
Catalina Gomez, Ruolin Wang, Katharina Breininger, Corinne Casey, Chris Bradley, Mitchell Pavlak, Alex Pham, Jithin Yohannan, Mathias Unberath, (参考訳) プライマリ・ケア・プロバイダは、最初のトリアージと専門医療への参照に不可欠である。 緑内障では、無症状で急速な進行は視力喪失を招き、専門医にタイムリーな紹介を必要とする。 しかし、プライマリ・アイケア・プロバイダーは緊急の症例を特定できず、治療を遅らせる可能性がある。 説明を提供する人工知能(AI)は、彼らの参照決定を強化する可能性がある。 各種のAI説明は、提供者が即時または緊急の専門紹介を必要とする患者を区別するのにどのように役立つかを検討する。 我々は、高リスク患者を特定するためのプロキシとして、日常的なアイケアデータから緑内障手術のニーズを予測するための説明可能なAIアルゴリズムを構築した。 我々は、本質的・ポストホックな説明可能性を導入し、人-AIチームのパフォーマンスを評価し、基準精度を測定し、合意率、タスク時間、ユーザエクスペリエンスの知覚を含むAIとのインタラクションを分析するためのオンライン調査を行った。 AIサポートは87人の参加者(59.9%/50.8%のAI使用/非使用)の間で参照精度を向上させたが、人間とAIのチームはAI単独と比較してパフォーマンスが劣った。 参加者は、本質的なモデルを使用する場合、AIアドバイスがより多く含まれており、より有用で有望であると感じた。 説明がないと、AIレコメンデーションからの逸脱が増加した。 AIサポートは、作業負荷、信頼性、信頼を高めるものではなく、課題を減らした。 手術結果の予測にはブラックボックスと内在モデルがそれぞれ77%, 内在モデルが71%であった。 プライマリアイケアにおける緑内障管理のための人間-AIコラボレーションの機会を特定し、AIが参照精度を高める一方で、説明においても、AI単独と比較してパフォーマンスのギャップも示していることを指摘する。 人間の関与は、医学的な意思決定において不可欠であり、コラボレーションを最適化し、ポジティブな経験を確実にし、AIの使用を安全にするための将来の研究の必要性を強調している。

Primary care providers are vital for initial triage and referrals to specialty care. In glaucoma, asymptomatic and fast progression can lead to vision loss, necessitating timely referrals to specialists. However, primary eye care providers may not identify urgent cases, potentially delaying care. Artificial Intelligence (AI) offering explanations could enhance their referral decisions. We investigate how various AI explanations help providers distinguish between patients needing immediate or non-urgent specialist referrals. We built explainable AI algorithms to predict glaucoma surgery needs from routine eyecare data as a proxy for identifying high-risk patients. We incorporated intrinsic and post-hoc explainability and conducted an online study with optometrists to assess human-AI team performance, measuring referral accuracy and analyzing interactions with AI, including agreement rates, task time, and user experience perceptions. AI support enhanced referral accuracy among 87 participants (59.9%/50.8% with/without AI), though Human-AI teams underperformed compared to AI alone. Participants believed they included AI advice more when using the intrinsic model, and perceived it more useful and promising. Without explanations, deviations from AI recommendations increased. AI support did not increase workload, confidence, and trust, but reduced challenges. On a separate test set, our black-box and intrinsic models achieved an accuracy of 77% and 71%, respectively, in predicting surgical outcomes. We identify opportunities of human-AI teaming for glaucoma management in primary eye care, noting that while AI enhances referral accuracy, it also shows a performance gap compared to AI alone, even with explanations. Human involvement remains essential in medical decision making, underscoring the need for future research to optimize collaboration, ensuring positive experiences and safe AI use.
翻訳日:2024-07-22 11:50:18 公開日:2024-05-24
# 再生プロセスにおけるマッチング, 予測, および非現実的ハーム

Matchings, Predictions and Counterfactual Harm in Refugee Resettlement Processes ( http://arxiv.org/abs/2407.13052v1 )

ライセンス: Link先を確認
Seungeon Lee, Nina Corvelo Benz, Suhas Thejaswi, Manuel Gomez-Rodriguez, (参考訳) 再定住機関は、データ駆動のアルゴリズムマッチングを採用して、難民と雇用率を有効利用の指標とする場所をマッチングしている。 難民のプールが与えられた場合、データ駆動のアルゴリズムマッチングは、それぞれの難民が特定の場所で雇用される確率を予測するために分類器を利用する。 そして、予測確率を用いて、可能なすべての配置決定の期待効用を推定する。 最後に、最大重み二分項マッチング問題を解くことにより、予測効用を最大化する配置決定を求める。 この研究では、既存のソリューションを使用することで、データ駆動型アルゴリズムマッチングが(事実上)有害な難民のプールが存在する可能性がある、と論じます。 そこで我々は,難民のプールにおけるデフォルトの政策による配置決定と,その雇用成果を考慮に入れた後処理アルゴリズムを開発し,その逆マッチング問題を解くことにより,与えられた分類者による予測を最小限に修正する。 これらの修正された予測の下では、プール上の予測ユーティリティを最大化する最適なマッチングポリシーは有害ではないことが保証される。 さらに,複数の難民プールにおけるデフォルト方針による配置決定と,その雇用成果を考慮に入れたトランスフォーマーモデルを導入し,未確認の難民プールにおける予測有効性を最大化する最適マッチングポリシーが,当初の予測よりも有害である可能性が低いように分類者による予測を変更することを学習する。 各種公開データから生成した人工避難所データを用いて, シミュレーションした再定住プロセスの実験から, 提案手法は, 既存のソリューションよりも有害である可能性が低いアルゴリズム配置決定に有効である可能性が示唆された。

Resettlement agencies have started to adopt data-driven algorithmic matching to match refugees to locations using employment rate as a measure of utility. Given a pool of refugees, data-driven algorithmic matching utilizes a classifier to predict the probability that each refugee would find employment at any given location. Then, it uses the predicted probabilities to estimate the expected utility of all possible placement decisions. Finally, it finds the placement decisions that maximize the predicted utility by solving a maximum weight bipartite matching problem. In this work, we argue that, using existing solutions, there may be pools of refugees for which data-driven algorithmic matching is (counterfactually) harmful -- it would have achieved lower utility than a given default policy used in the past, had it been used. Then, we develop a post-processing algorithm that, given placement decisions made by a default policy on a pool of refugees and their employment outcomes, solves an inverse~matching problem to minimally modify the predictions made by a given classifier. Under these modified predictions, the optimal matching policy that maximizes predicted utility on the pool is guaranteed to be not harmful. Further, we introduce a Transformer model that, given placement decisions made by a default policy on multiple pools of refugees and their employment outcomes, learns to modify the predictions made by a classifier so that the optimal matching policy that maximizes predicted utility under the modified predictions on an unseen pool of refugees is less likely to be harmful than under the original predictions. Experiments on simulated resettlement processes using synthetic refugee data created from a variety of publicly available data suggest that our methodology may be effective in making algorithmic placement decisions that are less likely to be harmful than existing solutions.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-24
# E2Vec:電子書籍システムにおける学生行動分析のための時間情報埋め込み機能

E2Vec: Feature Embedding with Temporal Information for Analyzing Student Actions in E-Book Systems ( http://arxiv.org/abs/2407.13053v1 )

ライセンス: Link先を確認
Yuma Miyazaki, Valdemar Švábenský, Yuta Taniguchi, Fumiya Okubo, Tsubasa Minematsu, Atsushi Shimada, (参考訳) デジタル教科書(eブック)システムは、EventStreamデータと呼ばれる一連のイベントとして教科書と学生の相互作用を記録する。 過去には、EventStreamから意味のある特徴を抽出し、それらをグレード予測や学生行動のモデリングといった下流タスクの入力として利用していた。 従来の研究では、EventStreamログから派生した統計ベースの特徴を主に用いたモデル、例えばオペレーションのタイプ数やアクセス頻度を評価していた。 これらの特徴は特定の洞察を与えるのに有用であるが、異なる学生間での学習行動の微妙な違いを捉える時間的情報がない。 本研究では,単語埋め込みに基づく特徴表現手法であるE2Vecを提案する。 提案手法は,各生徒の操作ログとその時間間隔を文字列列として考慮し,時間情報を含む学習活動特徴の学習ベクトルを生成する。 我々は,2年間のコンピュータサイエンスコースから,305名の生徒にそれぞれ埋め込みベクトルを生成するために,fastTextを適用した。 次に,リスク検出タスクにおけるE2Vecの有効性を検討した。

Digital textbook (e-book) systems record student interactions with textbooks as a sequence of events called EventStream data. In the past, researchers extracted meaningful features from EventStream, and utilized them as inputs for downstream tasks such as grade prediction and modeling of student behavior. Previous research evaluated models that mainly used statistical-based features derived from EventStream logs, such as the number of operation types or access frequencies. While these features are useful for providing certain insights, they lack temporal information that captures fine-grained differences in learning behaviors among different students. This study proposes E2Vec, a novel feature representation method based on word embeddings. The proposed method regards operation logs and their time intervals for each student as a string sequence of characters and generates a student vector of learning activity features that incorporates time information. We applied fastText to generate an embedding vector for each of 305 students in a dataset from two years of computer science courses. Then, we investigated the effectiveness of E2Vec in an at-risk detection task, demonstrating potential for generalizability and performance.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-24
# 改良A*アルゴリズムに基づく自動駐車計画制御

Automatic parking planning control method based on improved A* algorithm ( http://arxiv.org/abs/2406.15429v1 )

ライセンス: Link先を確認
Yuxuan Zhao, (参考訳) 自動運転車業界では、高精度地図から離れる傾向が徐々に現れているため、従来の計画アルゴリズムは徐々に問題を露呈している。 本稿では,A*アルゴリズムに基づく自動駐車計画アルゴリズムを提案し,自動駐車の制御モジュールとしてモデル予測制御(MPC)を用いる。このアルゴリズムは,ヒューリスティック機能,バイナリヒープ最適化,双方向探索を最適化し,狭い領域の通過性を計算し,障害物を動的にロードし,計画中の車両の容積を導入することにより,軌道品質を向上させる。 計画アルゴリズムの出力結果を得た後、ローカルマップにおける自動駐車タスクの特性に応じて損失関数を設計し、MPCアルゴリズムを用いて、計画された軌道に沿って車両を駆動する制御コマンドを出力する。 本稿では,実走行環境の知覚結果を地図化して,シミュレーション実験やアブレーション実験を行う。 実験結果から,本論文で提案した改良アルゴリズムは,局所地図下における自動駐車の要件を効果的に満たし,自動駐車計画と制御タスクを完了できることが示唆された。

As the trend of moving away from high-precision maps gradually emerges in the autonomous driving industry,traditional planning algorithms are gradually exposing some problems. To address the high real-time, high precision, and high trajectory quality requirements posed by the automatic parking task under real-time perceived local maps,this paper proposes an improved automatic parking planning algorithm based on the A* algorithm, and uses Model Predictive Control (MPC) as the control module for automatic parking.The algorithm enhances the planning real-time performance by optimizing heuristic functions, binary heap optimization, and bidirectional search; it calculates the passability of narrow areas by dynamically loading obstacles and introduces the vehicle's own volume during planning; it improves trajectory quality by using neighborhood expansion and Bezier curve optimization methods to meet the high trajectory quality requirements of the parking task. After obtaining the output results of the planning algorithm, a loss function is designed according to the characteristics of the automatic parking task under local maps, and the MPC algorithm is used to output control commands to drive the car along the planned trajectory. This paper uses the perception results of real driving environments converted into maps as planning inputs to conduct simulation tests and ablation experiments on the algorithm. Experimental results show that the improved algorithm proposed in this paper can effectively meet the special requirements of automatic parking under local maps and complete the automatic parking planning and control tasks.
翻訳日:2024-07-01 07:11:08 公開日:2024-05-24
# ビジョンベースBEVによる自動駐車計画

Automated Parking Planning with Vision-Based BEV Approach ( http://arxiv.org/abs/2406.15430v1 )

ライセンス: Link先を確認
Yuxuan Zhao, (参考訳) AVP(Automated Valet Parking)は、先進的な自動運転システムにおいて重要なコンポーネントであり、「ラストマイル」の課題に取り組むための「人間と車両の相互作用」プロセスにおけるエンドポイントタスクに焦点を当てている。 自動駐車アルゴリズムの認識モジュールは,ローカライズのための超音波レーダとグローバルシナリオの正確な地図マッチングから,高レベルの地図のないバードアイビュー(BEV)知覚ソリューションへと進化してきた。 本稿では,A*アルゴリズムに基づく自動駐車アルゴリズムの改良,車両運動モデル,ヒューリスティック関数最適化,双方向探索,ベジエ曲線の最適化,計画アルゴリズムの計算速度とリアルタイム性を向上する手法を提案する。 提案手法は工業用CARLA-ROS共同シミュレーション環境において実験的に検証された。 従来のアルゴリズムと比較して、より困難な衝突リスクテストケースで計算時間を短縮し、快適なメトリクスのパフォーマンスを向上させる。

Automated Valet Parking (AVP) is a crucial component of advanced autonomous driving systems, focusing on the endpoint task within the "human-vehicle interaction" process to tackle the challenges of the "last mile".The perception module of the automated parking algorithm has evolved from local perception using ultrasonic radar and global scenario precise map matching for localization to a high-level map-free Birds Eye View (BEV) perception solution.The BEV scene places higher demands on the real-time performance and safety of automated parking planning tasks. This paper proposes an improved automated parking algorithm based on the A* algorithm, integrating vehicle kinematic models, heuristic function optimization, bidirectional search, and Bezier curve optimization to enhance the computational speed and real-time capabilities of the planning algorithm.Numerical optimization methods are employed to generate the final parking trajectory, ensuring the safety of the parking path. The proposed approach is experimentally validated in the commonly used industrial CARLA-ROS joint simulation environment. Compared to traditional algorithms, this approach demonstrates reduced computation time with more challenging collision-risk test cases and improved performance in comfort metrics.
翻訳日:2024-07-01 07:01:19 公開日:2024-05-24
# 2段階CNN検出におけるFPs抑制のためのPSTアルゴリズム

A PST Algorithm for FPs Suppression in Two-stage CNN Detection Methods ( http://arxiv.org/abs/2406.18553v1 )

ライセンス: Link先を確認
Qiang Guo, (参考訳) 歩行者検出の過程で発生する偽陽性(False Positives, FPs)が大きな課題となっている。 さまざまな畳み込みニューラルネットワークに基づく検出戦略の出現により、歩行者検出の精度は大幅に向上するが、この問題はいまだに解決されていない。 本稿では,2段階のCNN検出手法の検出フレームワークを深く分析し,検出結果における偽陽性の発見は,そのトレーニング戦略がいくつかの偽提案の分類を誤っているため,従うサブネットワークの分類能力が低下し,誤検出を抑え難いためである。 そこで本研究では,歩行者と歩行者以外のサンプルを識別する2段階CNN検出法を効果的に学習し,最終的な検出結果において偽陽性を抑えるための,歩行者に敏感なトレーニングアルゴリズムを提案する。 提案するトレーニングアルゴリズムの中核は、2段階のCNN検出手法のトレーニング提案生成パイプラインを再設計することであり、トレーニングプロセスの誤解を招きかねない一定の数の誤検出を回避することができる。 提案アルゴリズムの助けを借りて,より小型で高精度なメトロ乗客検出装置であるMetroNextの検出精度をさらに向上し,メトロ乗客検出結果の誤検出をさらに低減させる。 様々な挑戦的なベンチマークデータセットに基づいて,提案アルゴリズムの有効性が,偽陽性を除去して歩行者検出精度を向上させることを実証した。 競合と比較して、MetroNext-PSTは精度、パラメータの総数、推測時間において全体的な予測性能が向上していることを示し、モバイルやエッジデバイス用に調整された歩行者を狩るための実用的な解決策となる可能性がある。

Pedestrian detection has been a hot spot in computer vision over the past decades due to the wide spectrum of promising applications, the major challenge of which is False Positives (FPs) that occur during pedestrian detection. The emergence various Convolutional Neural Network-based detection strategies substantially enhance the pedestrian detection accuracy but still not well solve this problem. This paper deeply analysis the detection framework of the two-stage CNN detection methods and find out false positives in detection results is due to its training strategy miss classify some false proposals, thus weakens the classification capability of following subnetwork and hardly to suppress false ones. To solve this problem, This paper proposes a pedestrian-sensitive training algorithm to effectively help two-stage CNN detection methods learn to distinguish the pedestrian and non-pedestrian samples and suppress the false positives in final detection results. The core of the proposed training algorithm is to redesign the training proposal generating pipeline of the two-stage CNN detection methods, which can avoid a certain number of false ones that mislead its training process. With the help of the proposed algorithm, the detection accuracy of the MetroNext, an smaller and accurate metro passenger detector, is further improved, which further decreases false ones in its metro passengers detection results. Based on various challenging benchmark datasets, experiment results have demonstrated that feasibility of the proposed algorithm to improve pedestrian detection accuracy by removing the false positives. Compared with the competitors, MetroNext-PST demonstrates better overall prediction performance in accuracy, total number of parameters, and inference time, thus it can become a practical solution for hunting pedestrian tailored for mobile and edge devices.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-24
# 植林:マルチサテライト時系列からの森林識別のためのデータセット

Planted: a dataset for planted forest identification from multi-satellite time series ( http://arxiv.org/abs/2406.18554v1 )

ライセンス: Link先を確認
Luis Miguel Pazos-Outón, Cristina Nader Vasconcelos, Anton Raichuk, Anurag Arnab, Dan Morris, Maxim Neumann, (参考訳) 森林生態系の保護と回復は生物多様性の保全と炭素隔離にとって重要である。 地球規模での森林モニタリングは,保全活動の優先順位付けと評価に不可欠である。 衛星ベースのリモートセンシングは、グローバルなカバレッジを提供するための唯一の有効なソリューションであるが、これまでは、大規模な森林モニタリングは単一のモダリティと単一時間ポイントに限られていた。 本稿では,森林プランテーションと植樹種の認識のための5つの公開衛星のデータからなるデータセットを提案する。 各衛星は、複数年の時系列で構成されている。 PlantDという名前のデータセットには、41か国に分布する64種の木ラベルクラス(46属40種)の2M以上のサンプルが含まれている。 このデータセットは、マルチモーダル、マルチスケール、マルチテンポラルデータソースを用いた森林モニタリングの研究を促進するためにリリースされている。 さらに,このデータセットに対して,初期ベースライン結果を示し,モダリティ融合とデータ拡張アプローチを評価する。

Protecting and restoring forest ecosystems is critical for biodiversity conservation and carbon sequestration. Forest monitoring on a global scale is essential for prioritizing and assessing conservation efforts. Satellite-based remote sensing is the only viable solution for providing global coverage, but to date, large-scale forest monitoring is limited to single modalities and single time points. In this paper, we present a dataset consisting of data from five public satellites for recognizing forest plantations and planted tree species across the globe. Each satellite modality consists of a multi-year time series. The dataset, named \PlantD, includes over 2M examples of 64 tree label classes (46 genera and 40 species), distributed among 41 countries. This dataset is released to foster research in forest monitoring using multimodal, multi-scale, multi-temporal data sources. Additionally, we present initial baseline results and evaluate modality fusion and data augmentation approaches for this dataset.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-24
# ソフトウェアテストにおける検出データのサイズ偏差多項モデリング

Size biased Multinomial Modelling of detection data in Software testing ( http://arxiv.org/abs/2406.04360v1 )

ライセンス: Link先を確認
Pallabi Ghosh, Ashis Kr. Chakraborty, Soumen Dey, (参考訳) ソフトウェア信頼性の評価は、特に重要なソフトウェアにとって、大きな課題となることが多い。 ソフトウェアの信頼性を推定するいくつかの手法が文献で既に利用可能である。 しかし、今のところ、ソフトウェア信頼性を見積もるために、バグのサイズという概念を使う人はほとんどいません。 この記事では、ソフトウェアの信頼性をより正確に判断するのに役立つバグサイズや最終的なバグサイズを利用します。 ここで開発されたサイズバイアスドモデルは、炭化水素探査のような類似の分野にも利用することができる。 このモデルはシミュレーションによって検証され、その後、重要な宇宙アプリケーションテストデータに使用される。 推定結果は実際の観測結果と大きく一致している。

Estimation of software reliability often poses a considerable challenge, particularly for critical softwares. Several methods of estimation of reliability of software are already available in the literature. But, so far almost nobody used the concept of size of a bug for estimating software reliability. In this article we make used of the bug size or the eventual bug size which helps us to determine reliability of software more precisely. The size-biased model developed here can also be used for similar fields like hydrocarbon exploration. The model has been validated through simulation and subsequently used for a critical space application software testing data. The estimated results match the actual observations to a large extent.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-24
# 標準セルレイアウト設計最適化のための大言語モデル(LLM)

Large Language Model (LLM) for Standard Cell Layout Design Optimization ( http://arxiv.org/abs/2406.06549v1 )

ライセンス: Link先を確認
Chia-Tung Ho, Haoxing Ren, (参考訳) 標準セルは現代のデジタル回路設計において不可欠な要素である。 プロセス技術が2nmに進むにつれ、ルーティングトラックの減少、設計規則の数と複雑さの増加、厳密なパターン規則の厳格化などにより、より不安定な問題が発生している。 最先端の標準セル設計自動化フレームワークは、先進ノードにおける標準セルレイアウトを自動設計することができるが、複雑なシーケンシャルセル設計のために高い競争力を持つPPA(Performance-Power-Area)とルタブルセルレイアウトを生成するのに苦戦している。 したがって、経験豊富な人間デザイナーの専門知識を取り入れて、細胞レイアウトのPPAを漸進的に最適化する、新規で効率的な手法が不可欠である。 高品質なデバイスクラスタリングは、ネットリストトポロジ、拡散共有/ブレーク、レイアウトのルータビリティを考慮して、複雑さを減らし、高い競争力を持つPPAを見つけるのに役立つ。 本稿では,Large Language Model (LLM) の自然言語と推論能力を活用し,高品質なクラスタ制約を漸進的に生成し,セルレイアウトのPPAを最適化し,ReActプロンプトによるルタビリティのデバッグを行う。 2nmのシーケンシャルスタンダードセルのベンチマークにおいて、提案手法は、最大19.4%の細胞面積を達成できるだけでなく、従来よりも23.5%のLVS/DRCクリーンセルレイアウトを生成することを示した。 要約すると,提案手法はセル面積を平均4.65%削減するだけでなく,セルレイアウト設計における不安定性を修正することができる。

Standard cells are essential components of modern digital circuit designs. With process technologies advancing toward 2nm, more routability issues have arisen due to the decreasing number of routing tracks, increasing number and complexity of design rules, and strict patterning rules. The state-of-the-art standard cell design automation framework is able to automatically design standard cell layouts in advanced nodes, but it is still struggling to generate highly competitive Performance-Power-Area (PPA) and routable cell layouts for complex sequential cell designs. Consequently, a novel and efficient methodology incorporating the expertise of experienced human designers to incrementally optimize the PPA of cell layouts is highly necessary and essential. High-quality device clustering, with consideration of netlist topology, diffusion sharing/break and routability in the layouts, can reduce complexity and assist in finding highly competitive PPA, and routable layouts faster. In this paper, we leverage the natural language and reasoning ability of Large Language Model (LLM) to generate high-quality cluster constraints incrementally to optimize the cell layout PPA and debug the routability with ReAct prompting. On a benchmark of sequential standard cells in 2nm, we demonstrate that the proposed method not only achieves up to 19.4% smaller cell area, but also generates 23.5% more LVS/DRC clean cell layouts than previous work. In summary, the proposed method not only successfully reduces cell area by 4.65% on average, but also is able to fix routability in the cell layout designs.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-24
# デバイス上の大規模気象モデルに対するパーソナライズされた適応:気象基礎モデルに向けて

Personalized Adapter for Large Meteorology Model on Devices: Towards Weather Foundation Models ( http://arxiv.org/abs/2405.20348v1 )

ライセンス: Link先を確認
Shengchao Chen, Guodong Long, Jing Jiang, Chengqi Zhang, (参考訳) 本稿では,事前学習言語モデル(PLM)がオンデバイス気象変数モデリングの強力な基礎モデルであることを示す。 自然言語データベースの宇宙から膨大なシーケンシャルな知識を習得し,高効率を保ちながらデバイス上で異種気象データの高度にカスタマイズされたモデルを得るための総合的な手法であるLM-Weatherを提案する。 具体的には、PLMに軽量なパーソナライズされたアダプタを導入し、気象パターンの認識を付与する。 クライアントとサーバ間の通信において、高い通信効率を維持し、プライバシを確保するとともに、デバイス間のグローバルな知識を効果的に融合させるために、低ランクベースの送信を行う。 実世界のデータセットでの実験では、LM-Weatherは様々なタスク(例えば、様々なスケールでの予測と計算)で最先端の結果を上回っている。 本研究では,(1)自然言語からの逐次的知識を活用して気象シーケンスを正確に処理できること,(2)各デバイスが大きな異質性の下で高度にカスタマイズされたモデルを得ることを可能にすること,(3)データ制限およびアウト・オブ・ディストリビューション(OOD)のシナリオ下で一般化すること,など,広範囲にわたる詳細な分析実験を行う。

This paper demonstrates that pre-trained language models (PLMs) are strong foundation models for on-device meteorological variables modeling. We present LM-Weather, a generic approach to taming PLMs, that have learned massive sequential knowledge from the universe of natural language databases, to acquire an immediate capability to obtain highly customized models for heterogeneous meteorological data on devices while keeping high efficiency. Concretely, we introduce a lightweight personalized adapter into PLMs and endows it with weather pattern awareness. During communication between clients and the server, low-rank-based transmission is performed to effectively fuse the global knowledge among devices while maintaining high communication efficiency and ensuring privacy. Experiments on real-wold dataset show that LM-Weather outperforms the state-of-the-art results by a large margin across various tasks (e.g., forecasting and imputation at different scales). We provide extensive and in-depth analyses experiments, which verify that LM-Weather can (1) indeed leverage sequential knowledge from natural language to accurately handle meteorological sequence, (2) allows each devices obtain highly customized models under significant heterogeneity, and (3) generalize under data-limited and out-of-distribution (OOD) scenarios.
翻訳日:2024-06-09 16:28:54 公開日:2024-05-24
# 大規模言語モデルセンチネル:LLMエージェントによる対向ロバスト性の向上

Large Language Model Sentinel: Advancing Adversarial Robustness by LLM Agent ( http://arxiv.org/abs/2405.20770v1 )

ライセンス: Link先を確認
Guang Lin, Qibin Zhao, (参考訳) 過去2年間で、大規模言語モデル(LLM)の使用は急速に進歩した。 これらのLSMは、かなりの利便性を提供するが、LSMは、よく設計されたテキストの摂動による敵の攻撃に弱いため、セキュリティ上の懸念も引き起こす。 本稿では,Large LAnguage Model Sentinel (LLAMOS) という新しい防御技術を紹介する。 本手法は2つの主成分から構成される。 イ 敵防衛のための新しいエージェントをシミュレートし、最小限の文字を変更して、攻撃に対して防御しながら、文の本来の意味を維持することができる代理人指示 ロ 目標LLMの効果的な防衛及び正確な出力を確保するため、清潔又は敵の事例を変更するための戦略を提供する防衛指針 注目すべきは、敵の例から学ばなくても、防御剤は堅牢な防御能力を示すことである。 さらに,防衛のためのエージェントと防衛のためのエージェントを2つ開発し,相互の対立に携わる,興味深い対人実験を実施している。 敵対的相互作用の間、どちらのエージェントも互いに完全に打ち負かした。 オープンソース LLM およびクローズドソース LLM の広範な実験により,本手法は敵攻撃に対して効果的に防御し,敵の堅牢性を向上することを示した。

Over the past two years, the use of large language models (LLMs) has advanced rapidly. While these LLMs offer considerable convenience, they also raise security concerns, as LLMs are vulnerable to adversarial attacks by some well-designed textual perturbations. In this paper, we introduce a novel defense technique named Large LAnguage MOdel Sentinel (LLAMOS), which is designed to enhance the adversarial robustness of LLMs by purifying the adversarial textual examples before feeding them into the target LLM. Our method comprises two main components: a) Agent instruction, which can simulate a new agent for adversarial defense, altering minimal characters to maintain the original meaning of the sentence while defending against attacks; b) Defense guidance, which provides strategies for modifying clean or adversarial examples to ensure effective defense and accurate outputs from the target LLMs. Remarkably, the defense agent demonstrates robust defensive capabilities even without learning from adversarial examples. Additionally, we conduct an intriguing adversarial experiment where we develop two agents, one for defense and one for defense, and engage them in mutual confrontation. During the adversarial interactions, neither agent completely beat the other. Extensive experiments on both open-source and closed-source LLMs demonstrate that our method effectively defends against adversarial attacks, thereby enhancing adversarial robustness.
翻訳日:2024-06-09 16:28:54 公開日:2024-05-24
# LocMoE+:効率的なLCM事前学習のためのトークン特徴認識機能強化ルータ

LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training ( http://arxiv.org/abs/2406.00023v1 )

ライセンス: Link先を確認
Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Yi Lin, Binfan Zheng, Li Zeng, Rongqian Zhao, Xin Chen, (参考訳) Mixture-of-Experts (MoE)アーキテクチャは、トレーニングと推論オーバーヘッドを大幅に削減できるため、最近、大規模言語モデル(LLM)のドメイン内で人気が高まっている。 しかし、MoEアーキテクチャは、各専門家に割り当てられたトークンの数や、モデルのセマンティックジェネレーション能力に悪影響を及ぼす専門家間の均質化傾向など、大きな差異のような課題に直面している。 本稿では,ローオーバーヘッド型 LocMoE の改良版 LocMoE+ を紹介し,(1) 専門家とトークン間の親和性の定量化と定義を取り入れた。 2) 親和性スコアに基づいてトークンを並べ替えるグローバルレベル適応ルーティング戦略の実装。 (3) トークンの特徴分布が発展するにつれて, 専門家の能力に対する低い限界の再推定が徐々に減少することが示されている。 実験結果から, モデル収束や有効性を損なうことなく, 各専門家プロセスのトークン数を60%以上削減できることがわかった。 コミュニケーション最適化と組み合わせることで、トレーニング効率が平均5.4%から46.6%向上する。 微調整後、LocMoE+はGDAD、C-Eval、TeleQnAデータセット間で9.7%から14.1%のパフォーマンス向上を示した。

Mixture-of-Experts (MoE) architectures have recently gained increasing popularity within the domain of large language models (LLMs) due to their ability to significantly reduce training and inference overhead. However, MoE architectures face challenges, such as significant disparities in the number of tokens assigned to each expert and a tendency toward homogenization among experts, which adversely affects the model's semantic generation capabilities. In this paper, we introduce LocMoE+, a refined version of the low-overhead LocMoE, incorporating the following enhancements: (1) Quantification and definition of the affinity between experts and tokens. (2) Implementation of a global-level adaptive routing strategy to rearrange tokens based on their affinity scores. (3) Reestimation of the lower bound for expert capacity, which has been shown to progressively decrease as the token feature distribution evolves. Experimental results demonstrate that, without compromising model convergence or efficacy, the number of tokens each expert processes can be reduced by over 60%. Combined with communication optimizations, this leads to an average improvement in training efficiency ranging from 5.4% to 46.6%. After fine-tuning, LocMoE+ exhibits a performance improvement of 9.7% to 14.1% across the GDAD, C-Eval, and TeleQnA datasets.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# 埋め込み型言語モデル

Embedding-Aligned Language Models ( http://arxiv.org/abs/2406.00024v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Yinlam Chow, Chih-Wei Hsu, Lior Shani, Ethan Liang, Craig Boutilier, (参考訳) 本稿では,潜在埋め込み空間内で定義された目的に従うために,大規模言語モデル(LLM)を訓練するための新しいアプローチを提案する。 本手法は強化学習(RL)を活用し,事前学習したLLMを環境として扱う。 埋め込み型誘導言語 (EAGLE) エージェントは, LLM の生成を遅延埋め込み空間の最適領域,w.r.t. の事前定義された基準に向けて反復的に操縦するように訓練されている。 The EAGLE agent using the MovieLens 25M dataset to surface content gaps that fulfillnt user demand。 また、EAGLEの効率を改善するために状態依存アクションセットの最適設計を利用する利点を示す。 我々の研究は、LLMを用いた制御および接地されたテキスト生成の道を開き、ドメイン固有の知識やデータ表現との整合性を確保する。

We propose a novel approach for training large language models (LLMs) to adhere to objectives defined within a latent embedding space. Our method leverages reinforcement learning (RL), treating a pre-trained LLM as an environment. Our embedding-aligned guided language (EAGLE) agent is trained to iteratively steer the LLM's generation towards optimal regions of the latent embedding space, w.r.t. some predefined criterion. We demonstrate the effectiveness of the EAGLE agent using the MovieLens 25M dataset to surface content gaps that satisfy latent user demand. We also demonstrate the benefit of using an optimal design of a state-dependent action set to improve EAGLE's efficiency. Our work paves the way for controlled and grounded text generation using LLMs, ensuring consistency with domain-specific knowledge and data representations.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# SCALM: 大規模言語モデルによる自動チャットサービスのためのセマンティックキャッシングを目指して

SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models ( http://arxiv.org/abs/2406.00025v1 )

ライセンス: Link先を確認
Jiaxing Li, Chi Xu, Feng Wang, Isaac M von Riedemann, Cong Zhang, Jiangchuan Liu, (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる幅広いアプリケーションに変換され、ますます人気が高まっている。 しかし,実際のクエリキャッシュシステムの有効性は十分に調査されていない。 本研究では,LLMベースのチャットサービスにおける既存のキャッシュソリューションにおける重要な課題を特定し,実世界の人間とLLMのインタラクションデータの解析を行った。 その結果,現在のキャッシュ手法ではセマンティックな接続をうまく利用できず,キャッシュ性能が低下し,トークンコストが増大していることが判明した。 これらの問題に対処するため,意味解析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。 また、対応するキャッシュストレージと消去戦略の実装についても詳述する。 評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。 GPTCacheの他の最先端ソリューションと比較して、SCALMは平均して63%のキャッシュヒット率と77%のトークンセーブ率の相対的な改善を示している。

Large Language Models (LLMs) have become increasingly popular, transforming a wide range of applications across various domains. However, the real-world effectiveness of their query cache systems has not been thoroughly investigated. In this work, we for the first time conducted an analysis on real-world human-to-LLM interaction data, identifying key challenges in existing caching solutions for LLM-based chat services. Our findings reveal that current caching methods fail to leverage semantic connections, leading to inefficient cache performance and extra token costs. To address these issues, we propose SCALM, a new cache architecture that emphasizes semantic analysis and identifies significant cache entries and patterns. We also detail the implementations of the corresponding cache storage and eviction strategies. Our evaluations show that SCALM increases cache hit ratios and reduces operational costs for LLMChat services. Compared with other state-of-the-art solutions in GPTCache, SCALM shows, on average, a relative increase of 63% in cache hit ratio and a relative improvement of 77% in tokens savings.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# 現代史における PromptORE の適応--20世紀のヒスパニック・モナーキー文書からの情報抽出

Adapting PromptORE for Modern History: Information Extraction from Hispanic Monarchy Documents of the XVIth Century ( http://arxiv.org/abs/2406.00027v1 )

ライセンス: Link先を確認
Hèctor Loopez Hidalgo, Michel Boeglin, David Kahn, Josiane Mothe, Diego Ortiz, David Panzoli, (参考訳) 実体間の意味的関係は、関係抽出の広く受け入れられる方法である。 PromptORE (Prompt-based Open Relation extract) は汎用文書上での大規模言語モデルとの関係抽出を改善するために設計された。 しかし、英語以外の言語では、歴史文書に適用しても効果が低い。 本研究では,PmptOREを応用して,特殊文書,すなわちスペイン審問による裁判のデジタル写本から関係を抽出する手法を提案する。 提案手法では,予測を行うデータに対して,事前学習対象を持つトランスフォーマーモデルを微調整する。 この過程を「バイアス」と呼ぶ。 私たちのBiased PromptOREは、スペイン語のテキストで起こる複雑なエンティティの配置と性差別に対処します。 我々はこれらの問題を解決するために、迅速なエンジニアリングを行う。 本研究では,Encoderライクなモデルを用いて本手法の評価を行った。 さらに,二項分類ベンチマークを用いて評価を行った。 その結果,標準の PromptORE を用いたベースラインモデルと比較して,Biased PromptORE モデルでは50%の精度向上が得られた。

Semantic relations among entities are a widely accepted method for relation extraction. PromptORE (Prompt-based Open Relation Extraction) was designed to improve relation extraction with Large Language Models on generalistic documents. However, it is less effective when applied to historical documents, in languages other than English. In this study, we introduce an adaptation of PromptORE to extract relations from specialized documents, namely digital transcripts of trials from the Spanish Inquisition. Our approach involves fine-tuning transformer models with their pretraining objective on the data they will perform inference. We refer to this process as "biasing". Our Biased PromptORE addresses complex entity placements and genderism that occur in Spanish texts. We solve these issues by prompt engineering. We evaluate our method using Encoder-like models, corroborating our findings with experts' assessments. Additionally, we evaluate the performance using a binomial classification benchmark. Our results show a substantial improvement in accuracy -up to a 50% improvement with our Biased PromptORE models in comparison to the baseline models using standard PromptORE.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# ペルシャ語のホモグラフ曖昧化:新しい単語曖昧化データセットを用いた文理解のための ParsBERT の活用

Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset ( http://arxiv.org/abs/2406.00028v1 )

ライセンス: Link先を確認
Seyed Moein Ayyoubzadeh, (参考訳) ホモグラフの曖昧さ(Homograph disambiguation)は、同一の綴りと異なる意味を持つ単語を区別するタスクであり、自然言語処理において大きな課題となる。 本研究では,ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。 本研究は,コサイン類似性手法による様々な埋め込みの徹底的な探索と,分類などの下流作業における有効性について考察する。 本研究は,音声の不明瞭化のための軽量機械学習と深層学習モデルを多種多様な訓練に応用する。 精度、リコール、F1スコアの観点からモデルの性能を精査し、それぞれの強みと限界について洞察を得る。 私たちの研究の結果は、3つの重要な貢献を裏付けています。 まず、新たにキュレートされたペルシアのデータセットを提示し、ホモグラフの曖昧さに関する将来の研究の確かな基盤を提供する。 第2に、埋め込みの比較分析は、その実用性を異なる文脈で強調し、それらの能力の理解を深めます。 第3に、モデルのスペクトルをトレーニングし評価することにより、ホモグラフの曖昧化タスクに適した戦略を選択するための実践者のための貴重なガイダンスを拡張する。 要約して,本研究では,様々な視点から埋め込みを精査し,ホモグラフの曖昧さをベンチマークする新しいデータセットを公表する。 これらの知見は、研究者や実践者が、ホモグラフに関連する課題の複雑な景観を効果的にナビゲートすることを可能にする。

Homograph disambiguation, the task of distinguishing words with identical spellings but different meanings, poses a substantial challenge in natural language processing. In this study, we introduce a novel dataset tailored for Persian homograph disambiguation. Our work encompasses a thorough exploration of various embeddings, evaluated through the cosine similarity method and their efficacy in downstream tasks like classification. Our investigation entails training a diverse array of lightweight machine learning and deep learning models for phonograph disambiguation. We scrutinize the models' performance in terms of Accuracy, Recall, and F1 Score, thereby gaining insights into their respective strengths and limitations. The outcomes of our research underscore three key contributions. First, we present a newly curated Persian dataset, providing a solid foundation for future research in homograph disambiguation. Second, our comparative analysis of embeddings highlights their utility in different contexts, enriching the understanding of their capabilities. Third, by training and evaluating a spectrum of models, we extend valuable guidance for practitioners in selecting suitable strategies for homograph disambiguation tasks. In summary, our study unveils a new dataset, scrutinizes embeddings through diverse perspectives, and benchmarks various models for homograph disambiguation. These findings empower researchers and practitioners to navigate the intricate landscape of homograph-related challenges effectively.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# Clustered Retrieved Augmented Generation (CRAG)

Clustered Retrieved Augmented Generation (CRAG) ( http://arxiv.org/abs/2406.00029v1 )

ライセンス: Link先を確認
Simon Akesson, Frances A. Santos, (参考訳) LLM(Large Language Models)への外部知識の提供は、リアルタイムに最新のコンテンツを組み込むこと、ドメイン固有の知識へのアクセスを提供すること、幻覚予防に寄与することなど、いくつかの理由から、これらのモデルを現実のアプリケーションで使用する上で重要なポイントである。 ベクトルデータベースに基づくRetrieval Augmented Generation (RAG)アプローチはこの目的に広く採用されている。 これにより、外部知識の任意の部分を検索し、入力コンテキストとしてLLMに供給することができる。 RAGアプローチの成功にもかかわらず、検索されたコンテキストはLLMがサポートするサイズよりも長いコンテキストウィンドウを必要とするため、いくつかのアプリケーションではまだ実現不可能である。 検索されたコンテキストがコンテキストウィンドウのサイズに適合しても、トークンの数は表現力があり、その結果、コストと処理時間に影響し、ほとんどのアプリケーションでは実用的ではない。 そこで本研究では,RAGを用いたソリューションと比較して,応答の質を劣化させることなく,トークンのプロンプト数を効果的に削減できる新しい手法であるCRAGを提案する。 実験の結果,CRAGはトークン数を少なくとも46\%削減でき,RAGと比較して90\%以上達成できることがわかった。 さらに、CRAGによるトークンの数は、分析されたレビューの数が多いと大きくは増加しないが、RAGとは異なり、4つのレビューに比べて75のレビューがある場合には、トークンの数が約9倍になる。

Providing external knowledge to Large Language Models (LLMs) is a key point for using these models in real-world applications for several reasons, such as incorporating up-to-date content in a real-time manner, providing access to domain-specific knowledge, and contributing to hallucination prevention. The vector database-based Retrieval Augmented Generation (RAG) approach has been widely adopted to this end. Thus, any part of external knowledge can be retrieved and provided to some LLM as the input context. Despite RAG approach's success, it still might be unfeasible for some applications, because the context retrieved can demand a longer context window than the size supported by LLM. Even when the context retrieved fits into the context window size, the number of tokens might be expressive and, consequently, impact costs and processing time, becoming impractical for most applications. To address these, we propose CRAG, a novel approach able to effectively reduce the number of prompting tokens without degrading the quality of the response generated compared to a solution using RAG. Through our experiments, we show that CRAG can reduce the number of tokens by at least 46\%, achieving more than 90\% in some cases, compared to RAG. Moreover, the number of tokens with CRAG does not increase considerably when the number of reviews analyzed is higher, unlike RAG, where the number of tokens is almost 9x higher when there are 75 reviews compared to 4 reviews.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# 大規模言語モデルプルーニング

Large Language Model Pruning ( http://arxiv.org/abs/2406.00030v1 )

ライセンス: Link先を確認
Hanjuan Huang, Hao-Jia Song, Hsing-Kuo Pao, (参考訳) ハードウェアとソフトウェアの両方が、このような非常に巨大なモデルの誕生をサポートするこの2年で、優れたパフォーマンスのために、より大きなモデルを楽しむことは間違いありません。 適用分野はテキストマイニングなどである。 特に、テキスト理解とテキスト生成におけるLLMの成功は、NLPと関連分野に長年、あるいは何十年も取り組んできた研究者から注目を集めている。 LLMは、モデルオーバーフィット、幻覚、デバイス制限といった問題に悩まされる可能性がある。 本研究では, LLMに着目したモデル刈り込み技術を提案する。 提案手法は深層学習モデルの説明可能性を強調する。 理論的な基礎を持つことで、膨大な数のモデルパラメータを持つ巨大なモデルが必ずしも必要なくなるような、信頼できる深層モデルを得る。 相互情報に基づく推定を用いて、冗長性のあるニューロンを除去する。 さらに, パラメータを十分に調整した推定器は, プルーニング手順を導出する精度の高い推定を行うのに役立つ。 同時に、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。 プルーニング基準の選択は、小さなモデルには敏感であるが、大規模モデルには影響しない。 これはこの作品を通して見いだされた小説である。 全体として,提案モデルと最先端モデルとの優位性を実証する。

We surely enjoy the larger the better models for their superior performance in the last couple of years when both the hardware and software support the birth of such extremely huge models. The applied fields include text mining and others. In particular, the success of LLMs on text understanding and text generation draws attention from researchers who have worked on NLP and related areas for years or even decades. On the side, LLMs may suffer from problems like model overfitting, hallucination, and device limitation to name a few. In this work, we suggest a model pruning technique specifically focused on LLMs. The proposed methodology emphasizes the explainability of deep learning models. By having the theoretical foundation, we obtain a trustworthy deep model so that huge models with a massive number of model parameters become not quite necessary. A mutual information-based estimation is adopted to find neurons with redundancy to eliminate. Moreover, an estimator with well-tuned parameters helps to find precise estimation to guide the pruning procedure. At the same time, we also explore the difference between pruning on large-scale models vs. pruning on small-scale models. The choice of pruning criteria is sensitive in small models but not for large-scale models. It is a novel finding through this work. Overall, we demonstrate the superiority of the proposed model to the state-of-the-art models.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# AMGPT: 付加生産における文脈クエリのための大規模言語モデル

AMGPT: a Large Language Model for Contextual Querying in Additive Manufacturing ( http://arxiv.org/abs/2406.00031v1 )

ライセンス: Link先を確認
Achuth Chandrasekhar, Jonathan Chan, Francis Ogoke, Olabode Ajenifujah, Amir Barati Farimani, (参考訳) GPT-4のような一般化された大規模言語モデル(LLM)は、材料科学研究者によるクエリに対する具体的な回答を提供しない。 これらのモデルは高レベルなアウトラインを生み出すが、新規合金の製造と材料特性に関する詳細な指示を返す能力は欠如している。 専門的なドメイン知識を持つ小さなモデルを強化することは、金属添加物製造(AM)の急速な研究のペースに追従するのに十分な速さで再訓練できない大きな言語モデルに対して利点をもたらす可能性がある。 金属AMクエリ用に設計された特殊なLLMテキストジェネレータである"AMGPT"を紹介する。 AMGPTの目標は、研究者やユーザーがAMの広範な文献のコーパスをナビゲートすることを支援することである。 スクラッチからトレーニングする代わりに、Hugging Faceからトレーニング済みのLlama2-7BモデルをRetrieval-Augmented Generation (RAG)セットアップで採用し、$\sim$50 AMの論文や教科書をPDF形式で動的に組み込む。 MathpixはこれらのPDF文書をTeXフォーマットに変換するために使われ、LlamaIndexが管理するRAGパイプラインへの統合を容易にする。 このプロジェクトのエキスパート評価では、RAGセットアップからの特定の埋め込みが応答時間を加速し、生成されたテキストのコヒーレンスを維持することを強調している。

Generalized large language models (LLMs) such as GPT-4 may not provide specific answers to queries formulated by materials science researchers. These models may produce a high-level outline but lack the capacity to return detailed instructions on manufacturing and material properties of novel alloys. Enhancing a smaller model with specialized domain knowledge may provide an advantage over large language models which cannot be retrained quickly enough to keep up with the rapid pace of research in metal additive manufacturing (AM). We introduce "AMGPT," a specialized LLM text generator designed for metal AM queries. The goal of AMGPT is to assist researchers and users in navigating the extensive corpus of literature in AM. Instead of training from scratch, we employ a pre-trained Llama2-7B model from Hugging Face in a Retrieval-Augmented Generation (RAG) setup, utilizing it to dynamically incorporate information from $\sim$50 AM papers and textbooks in PDF format. Mathpix is used to convert these PDF documents into TeX format, facilitating their integration into the RAG pipeline managed by LlamaIndex. Expert evaluations of this project highlight that specific embeddings from the RAG setup accelerate response times and maintain coherence in the generated text.
翻訳日:2024-06-09 16:09:32 公開日:2024-05-24
# 分散データセットにおけるデータ協調分析を用いたプライバシ保護レコメンデータシステム

Privacy-preserving recommender system using the data collaboration analysis for distributed datasets ( http://arxiv.org/abs/2406.01603v1 )

ライセンス: Link先を確認
Tomoya Yanagi, Shunnosuke Ikeda, Noriyoshi Sukegawa, Yuichi Takano, (参考訳) ユーザに対して高品質なレコメンデーションを提供するためには、さまざまなパーティが保持する複数のデータセットの共有と統合が望ましい。 しかし、そのような分散データセットを共有する場合には、データセットに含まれる個人情報と機密情報を保護する必要があります。 そこで我々は,分散データセットのデータコラボレーション分析を用いて,プライバシ保護レコメンデータシステムを構築する。 2つのパブリックレーティングデータセットを用いた数値実験により、評価予測のためのプライバシ保護手法が分散データセットの予測精度を向上させることを示した。 本研究では,レコメンデーションシステムにおけるプライバシ保護手法の新たな可能性を明らかにする。

In order to provide high-quality recommendations for users, it is desirable to share and integrate multiple datasets held by different parties. However, when sharing such distributed datasets, we need to protect personal and confidential information contained in the datasets. To this end, we establish a framework for privacy-preserving recommender systems using the data collaboration analysis of distributed datasets. Numerical experiments with two public rating datasets demonstrate that our privacy-preserving method for rating prediction can improve the prediction accuracy for distributed datasets. This study opens up new possibilities for privacy-preserving techniques in recommender systems.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-24
# テキスト分類から生成までのベイズ弱S-to-Strong

Bayesian WeakS-to-Strong from Text Classification to Generation ( http://arxiv.org/abs/2406.03199v1 )

ライセンス: Link先を確認
Ziyun Cui, Ziyang Zhang, Wen Wu, Guangzhi Sun, Chao Zhang, (参考訳) 大規模言語モデルの進歩は、モデルがますます複雑になり、人間が弱く監視できるようになるにつれて、アライメントテクニックがどのように適応するかという疑問を提起する。 Weak-to-Strongは、弱いモデルの監督がより強力なモデルの完全な能力を活用しようとするシナリオを模倣している。 この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。 信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。 さらに,テキスト分類タスクからテキスト生成タスクへのWeakS-to-Strongの適用を拡張し,より先進的な手法を監督のために検討する。 さらに、教師強制の基本的な学習枠組みを超えて、生徒モデルの嗜好学習を進めるために、直接選好最適化を適用した。 提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。

Advances in large language models raise the question of how alignment techniques will adapt as models become increasingly complex and humans will only be able to supervise them weakly. Weak-to-Strong mimics such a scenario where weak model supervision attempts to harness the full capabilities of a much stronger model. This work extends Weak-to-Strong to WeakS-to-Strong by exploring an ensemble of weak models which simulate the variability in human opinions. Confidence scores are estimated using a Bayesian approach to guide the WeakS-to-Strong generalization. Furthermore, we extend the application of WeakS-to-Strong from text classification tasks to text generation tasks where more advanced strategies are investigated for supervision. Moreover, direct preference optimization is applied to advance the student model's preference learning, beyond the basic learning framework of teacher forcing. Results demonstrate the effectiveness of the proposed approach for the reliability of a strong student model, showing potential for superalignment.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-24
# クリーンデータキュレーションによる安全に配慮した大規模言語モデルのロバスト化

Robustifying Safety-Aligned Large Language Models through Clean Data Curation ( http://arxiv.org/abs/2405.19358v1 )

ライセンス: Link先を確認
Xiaoqun Liu, Jiacheng Liang, Muchao Ye, Zhaohan Xi, (参考訳) 大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性があるため、2つのシナリオで脱獄攻撃が起こる可能性がある。 どちらのシナリオでも、敵はLLMの安全アライメントを妥協し、誤動作を悪化させる可能性がある。 本研究は、これらの敵対的影響を軽減することの必要性から、事前学習データセットにおける悪意のあるテキストの影響を中和するか、下流の微調整中のジェイルブレイクの難しさを増大させることにより、安全性の整合性を高めることを目的としている。 本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。 本手法は,クリーンテキストのキュレーションにのみ焦点をあてて,攻撃詳細に関する事前の知識がないという前提の下で機能する。 テキストの品質を同時に保ちつつ,LLMが認識する難易度を低減するために,テキストの修正を目的とした反復的プロセスを導入する。 クリーンテキストの事前学習や微調整により,有害なクエリに対する安全性アライメントに関するLCMのロバスト性の顕著な改善が観察された。 例えば、5\%の有害なインスタンスを含むクラウドソースデータセットを使用したLLMの事前トレーニングでは、同等量のキュレートされたテキストがLLMに有害な応答を与える可能性を大幅に軽減し、攻撃成功率を71\%削減する。 本研究は, 訓練による脱獄のリスクを軽減し, LLMの安全性を高めるための重要なステップである。

Large language models (LLMs) are vulnerable when trained on datasets containing harmful content, which leads to potential jailbreaking attacks in two scenarios: the integration of harmful texts within crowdsourced data used for pre-training and direct tampering with LLMs through fine-tuning. In both scenarios, adversaries can compromise the safety alignment of LLMs, exacerbating malfunctions. Motivated by the need to mitigate these adversarial influences, our research aims to enhance safety alignment by either neutralizing the impact of malicious texts in pre-training datasets or increasing the difficulty of jailbreaking during downstream fine-tuning. In this paper, we propose a data curation framework designed to counter adversarial impacts in both scenarios. Our method operates under the assumption that we have no prior knowledge of attack details, focusing solely on curating clean texts. We introduce an iterative process aimed at revising texts to reduce their perplexity as perceived by LLMs, while simultaneously preserving their text quality. By pre-training or fine-tuning LLMs with curated clean texts, we observe a notable improvement in LLM robustness regarding safety alignment against harmful queries. For instance, when pre-training LLMs using a crowdsourced dataset containing 5\% harmful instances, adding an equivalent amount of curated texts significantly mitigates the likelihood of providing harmful responses in LLMs and reduces the attack success rate by 71\%. Our study represents a significant step towards mitigating the risks associated with training-based jailbreaking and fortifying the secure utilization of LLMs.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-24
# 同時アライメントと再構成による多値心電図信号のモデレート表現学習

Modally Reduced Representation Learning of Multi-Lead ECG Signals through Simultaneous Alignment and Reconstruction ( http://arxiv.org/abs/2405.19359v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, Masood Mortazavi, (参考訳) 心電図(ECG)信号は、心臓の電気的活動をプロファイリングするものであり、多くの診断用途に用いられている。 しかし、心電図システムでは、心臓系の完全な視界を捉えるために複数のリードや信号チャネルが必要であるため、スマートウォッチやウェアラブルへの応用は制限される。 本稿では,ECG信号のチャネルに依存しない統一表現を生成することができるECG信号の表現学習手法を提案する。 再構成とアライメントの協調最適化により、異なるチャネルの埋め込みが、チャネル全体の情報の集約を含むとともに、特定の情報を保持することを保証する。 独立したテストデータセットを用いて、異なるECGチャネルから高相関なチャネル埋め込みを生成し、単一のチャネル埋め込みから12個のリード信号の適度な近似を導いた。 生成された埋め込みは、下流タスクのためのECG信号の有能な機能として機能します。

Electrocardiogram (ECG) signals, profiling the electrical activities of the heart, are used for a plethora of diagnostic applications. However, ECG systems require multiple leads or channels of signals to capture the complete view of the cardiac system, which limits their application in smartwatches and wearables. In this work, we propose a modally reduced representation learning method for ECG signals that is capable of generating channel-agnostic, unified representations for ECG signals. Through joint optimization of reconstruction and alignment, we ensure that the embeddings of the different channels contain an amalgamation of the overall information across channels while also retaining their specific information. On an independent test dataset, we generated highly correlated channel embeddings from different ECG channels, leading to a moderate approximation of the 12-lead signals from a single-channel embedding. Our generated embeddings can work as competent features for ECG signals for downstream tasks.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-24
# ART: テキストから画像への自動リピートによるユーザ保護

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users ( http://arxiv.org/abs/2405.19360v1 )

ライセンス: Link先を確認
Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang, (参考訳) 大規模で事前訓練された生成モデルは、創造的なコンテンツを生成する能力のために、世界を嵐にさらしている。 一方、これらの生成モデルの保護は、ユーザの権利と安全性を保護するために開発されており、そのほとんどは大規模言語モデル用に設計されている。 既存の手法は主に、悪質なプロンプトの下でモデルの安全性を評価するジェイルブレイクと敵攻撃に焦点を当てている。 最近の研究によると、手作業で安全なプロンプトを作れば、意図せずに安全でない世代が引き起こされる可能性がある。 そこで本研究では,テキスト・ツー・イメージモデルの安全性リスクを定量的に評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。 本手法は,視覚言語モデルと大言語モデルの両方を活用し,安全でない世代とそのプロンプト間の接続を確立することにより,モデルの脆弱性をより効率的に識別する。 包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。 実験はまた、ARTの有効性、適応性、および大きな多様性を検証した。 さらに,テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために,大規模な3つのレッド・チーム・データセットを導入する。 データセットとモデルはhttps://github.com/GuanlinLee/ARTで確認できる。

Large-scale pre-trained generative models are taking the world by storm, due to their abilities in generating creative content. Meanwhile, safeguards for these generative models are developed, to protect users' rights and safety, most of which are designed for large language models. Existing methods primarily focus on jailbreak and adversarial attacks, which mainly evaluate the model's safety under malicious prompts. Recent work found that manually crafted safe prompts can unintentionally trigger unsafe generations. To further systematically evaluate the safety risks of text-to-image models, we propose a novel Automatic Red-Teaming framework, ART. Our method leverages both vision language model and large language model to establish a connection between unsafe generations and their prompts, thereby more efficiently identifying the model's vulnerabilities. With our comprehensive experiments, we reveal the toxicity of the popular open-source text-to-image models. The experiments also validate the effectiveness, adaptability, and great diversity of ART. Additionally, we introduce three large-scale red-teaming datasets for studying the safety risks associated with text-to-image models. Datasets and models can be found in https://github.com/GuanlinLee/ART.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-24
# Medformer:医療時系列分類のためのマルチグラニュラリティパッチ変換器

Medformer: A Multi-Granularity Patching Transformer for Medical Time-Series Classification ( http://arxiv.org/abs/2405.19363v1 )

ライセンス: Link先を確認
Yihe Wang, Nan Huang, Taida Li, Yujun Yan, Xiang Zhang, (参考訳) 脳波(EEG)や心電図(ECG)などの医療時系列データは、脳や心臓疾患の診断などの医療において重要な役割を果たす。 既存の医療時系列分類法は主に手作りバイオマーカー抽出とCNNベースのモデルに依存しており、医療時系列に適合するトランスフォーマーの探索は限られている。 本稿では,医療時系列分類に適した多粒度パッチ変換器であるMedformerを紹介する。 医療時系列の特徴を活用するための3つの新しいメカニズムが組み込まれている: チャネル間相関を利用するクロスチャネルパッチ、異なるスケールで特徴を捉えるマルチグラニュラリティ埋め込み、および2段階(イントラグラニュラリティおよびインターグラニュラリティ)のマルチグラニュラリティ自己アテンション、および粒度内および粒度間の相関を学習するためのマルチグラニュラリティ自己アテンションである。 我々は、主題に依存しない5つの公開データセットに対して、課題に依存しないセットアップと課題に依存しないセットアップの両方で広範な実験を行う。 結果は、Medformerが10のベースラインよりも優れていることを示し、6つの評価指標で5つのデータセットで上位にランク付けされた。 これらの結果は, 心筋梗塞, アルツハイマー病, パーキンソン病の診断など, 医療応用における本手法の意義を浮き彫りにしている。 ソースコードは \url{https://github.com/DL4mHealth/Medformer} で公開しています。

Medical time series data, such as Electroencephalography (EEG) and Electrocardiography (ECG), play a crucial role in healthcare, such as diagnosing brain and heart diseases. Existing methods for medical time series classification primarily rely on handcrafted biomarkers extraction and CNN-based models, with limited exploration of transformers tailored for medical time series. In this paper, we introduce Medformer, a multi-granularity patching transformer tailored specifically for medical time series classification. Our method incorporates three novel mechanisms to leverage the unique characteristics of medical time series: cross-channel patching to leverage inter-channel correlations, multi-granularity embedding for capturing features at different scales, and two-stage (intra- and inter-granularity) multi-granularity self-attention for learning features and correlations within and among granularities. We conduct extensive experiments on five public datasets under both subject-dependent and challenging subject-independent setups. Results demonstrate Medformer's superiority over 10 baselines, achieving top averaged ranking across five datasets on all six evaluation metrics. These findings underscore the significant impact of our method on healthcare applications, such as diagnosing Myocardial Infarction, Alzheimer's, and Parkinson's disease. We release the source code at \url{https://github.com/DL4mHealth/Medformer}.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-24
# 堆積プロセス体制の解明--プロセスインサイト、代理モデリング、感度分析に教師なし学習を活用する

Discovering deposition process regimes: leveraging unsupervised learning for process insights, surrogate modeling, and sensitivity analysis ( http://arxiv.org/abs/2405.18444v1 )

ライセンス: Link先を確認
Geremy Loachamín Suntaxi, Paris Papavasileiou, Eleni D. Koronaki, Dimitrios G. Giovanis, Georgios Gakis, Ioannis G. Aviziotis, Martin Kathrein, Gabriele Pozzetti, Christoph Czettl, Stéphane P. A. Bordas, Andreas G. Boudouvis, (参考訳) 本研究は, 化学気相堆積(CVD)反応器における沈着過程の解明にデータ駆動方式を応用した包括的アプローチと, それぞれに支配的な物理機構の相互作用を導入する。 この作業を通じて、我々は3つの重要な目標に対処する。 第一に,本手法は, 入力変数の相対的影響を顕著に変化させるプロセス機構に対応する「成果」のクラスタを特定するために, 詳細なCFDモデルによって導かれるプロセス結果に依存している。 この現象はArrheniusプロット解析により実験的に検証され,本手法の有効性が確認された。 次に,PCE(Polynomial Chaos Expansion)に基づく効率的なサロゲートモデルの開発について述べる。 最後に、PCEの結果、ソボの指標を用いて感度分析が可能となり、特定されたレシフィケーション全体にわたるプロセス入力の影響を定量化する。 この分析から得られた知見は、遷移体制を超えた現象に関する仮説の定式化に寄与する。 特に、Arrheniusプロットで証明されているように、拡散制限状態においても温度の重要性は、高温でのガス相反応の活性化を示唆している。 提案手法は, プロセス設計と最適化における意思決定を支援するため, 実験的な観察と理論原理に整合した洞察を導出する。 コストと時間のかかる実験の必要性を回避することで、我々のアプローチはプロセス効率を向上させるための実践的な道筋を提供する。 さらに, この研究は, 原子炉設計パラダイムを革新するためのデータ駆動型計算手法の可能性を強調した。

This work introduces a comprehensive approach utilizing data-driven methods to elucidate the deposition process regimes in Chemical Vapor Deposition (CVD) reactors and the interplay of physical mechanism that dominate in each one of them. Through this work, we address three key objectives. Firstly, our methodology relies on process outcomes, derived by a detailed CFD model, to identify clusters of "outcomes" corresponding to distinct process regimes, wherein the relative influence of input variables undergoes notable shifts. This phenomenon is experimentally validated through Arrhenius plot analysis, affirming the efficacy of our approach. Secondly, we demonstrate the development of an efficient surrogate model, based on Polynomial Chaos Expansion (PCE), that maintains accuracy, facilitating streamlined computational analyses. Finally, as a result of PCE, sensitivity analysis is made possible by means of Sobol' indices, that quantify the impact of process inputs across identified regimes. The insights gained from our analysis contribute to the formulation of hypotheses regarding phenomena occurring beyond the transition regime. Notably, the significance of temperature even in the diffusion-limited regime, as evidenced by the Arrhenius plot, suggests activation of gas phase reactions at elevated temperatures. Importantly, our proposed methods yield insights that align with experimental observations and theoretical principles, aiding decision-making in process design and optimization. By circumventing the need for costly and time-consuming experiments, our approach offers a pragmatic pathway towards enhanced process efficiency. Moreover, this study underscores the potential of data-driven computational methods for innovating reactor design paradigms.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-24
# ガウス過程を用いた雑音データからのマニフォールド推定

Inferring Manifolds From Noisy Data Using Gaussian Processes ( http://arxiv.org/abs/2110.07478v3 )

ライセンス: Link先を確認
David B Dunson, Nan Wu, (参考訳) 複雑なデータセットを分析する際には、高次元観測の基礎となる低次元構造を推測することがしばしば重要である。 非線形構造の柔軟なクラスとして、リーマン多様体にフォーカスすることが一般的である。 既存の多くの多様体学習アルゴリズムは、観測空間における多様体の見積もりを与えることなく、元のデータを低次元座標で置き換える。 本稿では,これらの問題に対処する新しい手法を提案し,データ点間の推定多様体の補間を可能にする。 提案手法は、多様体上の雑音サンプルから構築された局所共分散行列の新たな理論的性質によって動機付けられる。 この結果から,大域多様体再構成問題を局所回帰問題に変換することができ,確率的多様体再構成へのガウス過程の適用が可能となった。 理論的にアルゴリズムを正当化するだけでなく、シミュレーションされた実データ例も提供します。

In analyzing complex datasets, it is often of interest to infer lower dimensional structure underlying the higher dimensional observations. As a flexible class of nonlinear structures, it is common to focus on Riemannian manifolds. Most existing manifold learning algorithms replace the original data with lower dimensional coordinates without providing an estimate of the manifold in the observation space or using the manifold to denoise the original data. This article proposes a new methodology for addressing these problems, allowing interpolation of the estimated manifold between fitted data points. The proposed approach is motivated by novel theoretical properties of local covariance matrices constructed from noisy samples on a manifold. Our results enable us to turn a global manifold reconstruction problem into a local regression problem, allowing application of Gaussian processes for probabilistic manifold reconstruction. In addition to theory justifying the algorithm, we provide simulated and real data examples to illustrate the performance.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-24
# 深層活動モデル:人間の移動パターン合成のための生成的アプローチ

Deep Activity Model: A Generative Approach for Human Mobility Pattern Synthesis ( http://arxiv.org/abs/2405.17468v1 )

ライセンス: Link先を確認
Xishun Liao, Brian Yueshuai He, Qinhua Jiang, Chenchen Kuai, Jiaqi Ma, (参考訳) 人間の移動性は交通、都市計画、公衆衛生など社会の様々な側面に大きな影響を及ぼす。 多様なモビリティデータの増加とディープラーニングの進歩は、モビリティモデリングに革命をもたらした。 しかし、既存のディープラーニングモデルは、主に軌跡を用いた時空間パターンの研究であり、活動間の意味的相互依存を捉えるのに不足することが多い。 さらに、これらはデータソースによって制約される。 これらの2つの要因はそれぞれ、現実主義と適応性を制限する。 一方、交通モデルにおける従来の活動ベースモデル(ABM)は、厳密な仮定に依存しており、キャリブレーションに費用と時間を要するため、特に必要な旅行データが少ない地域において、新しい地域への適応とスケールが困難である。 これらの制約に対処するため、ユビキタスおよびオープンソースデータを用いて、人間のモビリティモデリングと合成のための新しい生成的深層学習手法を開発した。 さらに、モデルはローカルデータで微調整することができ、異なる領域にわたるモビリティパターンの適応性と正確な表現を可能にする。 このモデルは、アメリカ合衆国全国のデータセットで評価され、そこでは、基底の真理分布に密接に従う活動連鎖の生成において、優れた性能を示す。 カリフォルニア州、ワシントン州、メキシコシティの州または市固有のデータセットを使用したさらなるテストは、その転送可能性を確認している。 この革新的なアプローチは、特に下流のアクティビティに基づくモビリティシミュレーションモデルの入力として人間の活動連鎖を発生させ、都市プランナーや政策立案者のために強化されたツールを提供することにおいて、モビリティモデリング研究を前進させる大きな可能性を秘めている。

Human mobility significantly impacts various aspects of society, including transportation, urban planning, and public health. The increasing availability of diverse mobility data and advancements in deep learning have revolutionized mobility modeling. Existing deep learning models, however, mainly study spatio-temporal patterns using trajectories and often fall short in capturing the underlying semantic interdependency among activities. Moreover, they are also constrained by the data source. These two factors thereby limit their realism and adaptability, respectively. Meanwhile, traditional activity-based models (ABMs) in transportation modeling rely on rigid assumptions and are costly and time-consuming to calibrate, making them difficult to adapt and scale to new regions, especially those regions with limited amount of required conventional travel data. To address these limitations, we develop a novel generative deep learning approach for human mobility modeling and synthesis, using ubiquitous and open-source data. Additionally, the model can be fine-tuned with local data, enabling adaptable and accurate representations of mobility patterns across different regions. The model is evaluated on a nationwide dataset of the United States, where it demonstrates superior performance in generating activity chains that closely follow ground truth distributions. Further tests using state- or city-specific datasets from California, Washington, and Mexico City confirm its transferability. This innovative approach offers substantial potential to advance mobility modeling research, especially in generating human activity chains as input for downstream activity-based mobility simulation models and providing enhanced tools for urban planners and policymakers.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# 保水性研究のためのデータセット

A Dataset for Research on Water Sustainability ( http://arxiv.org/abs/2405.17469v1 )

ライセンス: Link先を確認
Pranjol Sen Gupta, Md Rajib Hossen, Pengfei Li, Shaolei Ren, Mohammad A. Islam, (参考訳) 淡水不足はグローバルな問題であり、すべての産業セクターで集団的な努力が必要である。 それでも、運用用水深データへのアクセスの欠如は、時間的および空間的な変動に隠れた最適化の機会を探索することを妨げる。 水持続可能性の研究にこの障壁を突破するために, 冷却システムと発電に埋め込まれた間接水で直接水利用を行うためのデータセットを構築した。 当社のデータセットは、2019年から2023年までの米国の主要都市と州の時給水効率で構成されています。 また、気象が水効率に与える影響を捉える冷却システムモデルも提供しています。 本稿では,データセットの予備解析を行い,その利点を享受できる3つの潜在的なアプリケーションについて論じる。 私たちのデータセットは、Open Science Framework (OSF)で公開されています。

Freshwater scarcity is a global problem that requires collective efforts across all industry sectors. Nevertheless, a lack of access to operational water footprint data bars many applications from exploring optimization opportunities hidden within the temporal and spatial variations. To break this barrier into research in water sustainability, we build a dataset for operation direct water usage in the cooling systems and indirect water embedded in electricity generation. Our dataset consists of the hourly water efficiency of major U.S. cities and states from 2019 to 2023. We also offer cooling system models that capture the impact of weather on water efficiency. We present a preliminary analysis of our dataset and discuss three potential applications that can benefit from it. Our dataset is publicly available at Open Science Framework (OSF)
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# Athena: 2次行列微分情報を用いた大規模言語モデルのための効率的なブロックワイズ後学習量子化

Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information ( http://arxiv.org/abs/2405.17470v1 )

ライセンス: Link先を確認
Yanshu Wang, Wenyang He, Tong Yang, (参考訳) 大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析など、かなり高度な自然言語処理タスクを持つ。 しかし、その大きなサイズは、数十億のパラメータで構成されており、特にモバイルデバイスやエッジコンピューティングプラットフォームのようなリソース制約のある環境では、ストレージ、計算、デプロイメントの課題を引き起こしている。 効率的な圧縮と量子化技術は、これらの問題に対処するために重要であり、メモリフットプリントと計算要求を、性能を著しく損なうことなく削減する。 圧縮空間にパラメータを均一にマッピングする従来の方法はパラメータの不均一な分布を考慮せず、かなりの精度の損失をもたらす。 本研究では,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。 アテナは2次行列微分情報を利用して、損失景観の曲率情報を用いて量子化過程を導出する。 列や行でパラメータをグループ化し、量子化プロセスを反復的に最適化することで、アテナはモデルパラメータとヘッセン行列を更新し、高い精度を維持しながらかなりの圧縮を達成する。 これにより、Athenaは様々な設定でLLMをデプロイするための実用的なソリューションとなる。

Large Language Models (LLMs) have significantly advanced natural language processing tasks such as machine translation, text generation, and sentiment analysis. However, their large size, often consisting of billions of parameters, poses challenges for storage, computation, and deployment, particularly in resource-constrained environments like mobile devices and edge computing platforms. Effective compression and quantization techniques are crucial for addressing these issues, reducing memory footprint and computational requirements without significantly compromising performance. Traditional methods that uniformly map parameters to compressed spaces fail to account for the uneven distribution of parameters, leading to substantial accuracy loss. In this work, we propose Athena, a novel algorithm for efficient block-wise post-training quantization of LLMs. Athena leverages Second-Order Matrix Derivative Information to guide the quantization process using the curvature information of the loss landscape. By grouping parameters by columns or rows and iteratively optimizing the quantization process, Athena updates the model parameters and Hessian matrix to achieve significant compression while maintaining high accuracy. This makes Athena a practical solution for deploying LLMs in various settings.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# インタラクションとコミュニケーション効率を考慮したモーメントベースフェデレーション強化学習

Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency ( http://arxiv.org/abs/2405.17471v1 )

ライセンス: Link先を確認
Sheng Yue, Xingyuan Hua, Lili Chen, Ju Ren, (参考訳) Federated Reinforcement Learning (FRL)は近年注目を集めている。 しかし、データ分布の本質的に時空間的非定常性のため、現在のアプローチは通常、高い相互作用と通信コストに悩まされる。 本稿では, モーメント, 重要度サンプリング, およびサーバ側調整を利用して, 確率的ポリシー勾配のシフトを制御し, データ利用効率を向上させる新しいFRLアルゴリズム, \alg{}を提案する。 モーメントパラメータと相互作用周波数の適切な選択により、 \alg{} は $\tilde{\mathcal{O}}(H N^{-1}\epsilon^{-3/2})$ と $\tilde{\mathcal{O}}(\epsilon^{-1})$ 相互作用と通信の複雑さ(N$はエージェント数を表す)を達成することができる。 大規模な実験は、複雑で高次元のベンチマークスイート上で、既存のメソッドよりも有意な性能向上を裏付ける。

Federated Reinforcement Learning (FRL) has garnered increasing attention recently. However, due to the intrinsic spatio-temporal non-stationarity of data distributions, the current approaches typically suffer from high interaction and communication costs. In this paper, we introduce a new FRL algorithm, named \alg{}, that utilizes momentum, importance sampling, and additional server-side adjustment to control the shift of stochastic policy gradients and enhance the efficiency of data utilization. We prove that by proper selection of momentum parameters and interaction frequency, \alg{} can achieve $\tilde{\mathcal{O}}(H N^{-1}\epsilon^{-3/2})$ and $\tilde{\mathcal{O}}(\epsilon^{-1})$ interaction and communication complexities ($N$ represents the number of agents), where the interaction complexity achieves linear speedup with the number of agents, and the communication complexity aligns the best achievable of existing first-order FL algorithms. Extensive experiments corroborate the substantial performance gains of \alg{} over existing methods on a suite of complex and high-dimensional benchmarks.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# FreezeAsGuard:選択的なテンソル凍結による拡散モデルの不規則適応の軽減

FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing ( http://arxiv.org/abs/2405.17472v1 )

ライセンス: Link先を確認
Kai Huang, Wei Gao, (参考訳) テキストと画像の拡散モデルは、特定のユーザの好みに適応するためにカスタムドメインで微調整することができるが、そのような制約のない適応性は、公共の人物の肖像画の偽造や著作権のあるアートワークの複製など、違法な目的にも利用されてきた。 既存の研究の多くは、違法に生成されたコンテンツを検出することに重点を置いているが、拡散モデルの違法な適応を予防または緩和することはできない。 モデルアンラーニングと再初期化の他のスキームは、ユーザーがカスタムデータを使って違法なモデル適応の知識を再学習するのを防ぐことができない。 本稿では,これらの制限に対処し,拡散モデルの違法適応を不可逆的に緩和する新しい手法であるFreezeAsGuardを提案する。 基本的アプローチは、モデルパブリッシャが、違法なモデル適応に不可欠な事前訓練された拡散モデルのテンソルを選択的に凍結し、不正なドメインにおける微調整モデルの表現力を緩和するが、他のドメインにおける法的なモデル適応への影響を最小限に抑えることである。 このようなテンソル凍結は、微調整のためにモデルパブリッシャが提供するAPIを通じて実施することができ、計算コストの削減によってユーザの採用を動機付けることができる。 複数のドメインにおけるデータセットによる実験結果から、FreezeAsGuardは、偽の公開人物の肖像画を生成することによる違法なモデル適応を緩和する上で、他の法律領域におけるモデル適応に最小限の影響を与える。 ソースコードは、https://github.com/pittisl/FreezeAsGuard/で入手できる。

Text-to-image diffusion models can be fine-tuned in custom domains to adapt to specific user preferences, but such unconstrained adaptability has also been utilized for illegal purposes, such as forging public figures' portraits and duplicating copyrighted artworks. Most existing work focuses on detecting the illegally generated contents, but cannot prevent or mitigate illegal adaptations of diffusion models. Other schemes of model unlearning and reinitialization, similarly, cannot prevent users from relearning the knowledge of illegal model adaptation with custom data. In this paper, we present FreezeAsGuard, a new technique that addresses these limitations and enables irreversible mitigation of illegal adaptations of diffusion models. The basic approach is that the model publisher selectively freezes tensors in pre-trained diffusion models that are critical to illegal model adaptations, to mitigate the fine-tuned model's representation power in illegal domains but minimize the impact on legal model adaptations in other domains. Such tensor freezing can be enforced via APIs provided by the model publisher for fine-tuning, can motivate users' adoption due to its computational savings. Experiment results with datasets in multiple domains show that FreezeAsGuard provides stronger power in mitigating illegal model adaptations of generating fake public figures' portraits, while having the minimum impact on model adaptation in other legal domains. The source code is available at: https://github.com/pittisl/FreezeAsGuard/
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# 動的グラフ学習のための繰り返し認識近傍サンプリング

Repeat-Aware Neighbor Sampling for Dynamic Graph Learning ( http://arxiv.org/abs/2405.17473v1 )

ライセンス: Link先を確認
Tao Zou, Yuhao Mao, Junchen Ye, Bowen Du, (参考訳) 動的グラフ学習は、エッジに時間属性を装備し、2つのノード間の複数のリンクを可能にする。 既存の研究は、主に最新の隣のシーケンスに依存して進化するパターンを得る。 しかし、今後2つのノードが相互に相互作用するかどうかは、過去に起こったのと同じ相互作用と非常に相関している。 最近の隣人は繰り返し行動の現象を見落としているだけであり、相互作用の時間的進化を正確に捉えることができない。 このギャップを埋めるために、近隣のサンプリング戦略と時間情報学習における1次および高次反復行動の進化パターンを考察したRepeatMixerを提案する。 まず、ソースノードの1次繰り返し認識ノードを、歴史的に相互作用した宛先ノードとして定義し、その概念を目的地ノードの高次隣接ノードとして高次に拡張する。 そこで我々は,リピート認識ノードが出現する前に相互作用したソースノードの隣人を,その隣のシーケンスとしてスライドウィンドウ戦略を用いて抽出する。 次に、ソースノードと宛先ノードの1次および2次隣接シーケンスを利用して、MPPベースのエンコーダを介して対話の時間パターンを学習する。 さらに、異なる順序における時間的パターンの変化を考慮すると、相互作用時間列の意義に基づいて、異なる順序から時間的表現を適応的に集約する時間的アグリゲーション機構を導入する。 RepeatMixerがリンク予測タスクにおける最先端モデルよりも優れていることを示す実験結果が得られた。

Dynamic graph learning equips the edges with time attributes and allows multiple links between two nodes, which is a crucial technology for understanding evolving data scenarios like traffic prediction and recommendation systems. Existing works obtain the evolving patterns mainly depending on the most recent neighbor sequences. However, we argue that whether two nodes will have interaction with each other in the future is highly correlated with the same interaction that happened in the past. Only considering the recent neighbors overlooks the phenomenon of repeat behavior and fails to accurately capture the temporal evolution of interactions. To fill this gap, this paper presents RepeatMixer, which considers evolving patterns of first and high-order repeat behavior in the neighbor sampling strategy and temporal information learning. Firstly, we define the first-order repeat-aware nodes of the source node as the destination nodes that have interacted historically and extend this concept to high orders as nodes in the destination node's high-order neighbors. Then, we extract neighbors of the source node that interacted before the appearance of repeat-aware nodes with a slide window strategy as its neighbor sequence. Next, we leverage both the first and high-order neighbor sequences of source and destination nodes to learn temporal patterns of interactions via an MLP-based encoder. Furthermore, considering the varying temporal patterns on different orders, we introduce a time-aware aggregation mechanism that adaptively aggregates the temporal representations from different orders based on the significance of their interaction time sequences. Experimental results demonstrate the superiority of RepeatMixer over state-of-the-art models in link prediction tasks, underscoring the effectiveness of the proposed repeat-aware neighbor sampling strategy.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# デュアル正規化によるフェデレーションオフライン政策最適化

Federated Offline Policy Optimization with Dual Regularization ( http://arxiv.org/abs/2405.17474v1 )

ライセンス: Link先を確認
Sheng Yue, Zerui Qin, Xingyuan Hua, Yongheng Deng, Ju Ren, (参考訳) Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。 しかし、既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。 この課題を克服するために、分散エージェントは、環境のさらなる相互作用を伴わずに、プライベートデータと静的データのみから決定ポリシーを協調的に学習することのできる、新しいオフラインフェデレーション最適化アルゴリズムである$\texttt{DRPO}$を提案する。 $\texttt{DRPO}$は、ローカルな行動ポリシーとグローバルな集約されたポリシーの両方を取り入れた二重正規化を利用して、オフラインFRLの本質的な2層分布シフトに、巧みに対処する。 理論的解析は、二重正則化が性能に与える影響を特徴付け、その正しいバランスを達成することで、$\texttt{DRPO}$は、分散シフトを効果的に防止し、各フェデレーティブ学習ラウンドにおける厳格な政策改善を確保することができることを示した。 大規模な実験は、$\texttt{DRPO}$ over baselineメソッドの大幅なパフォーマンス向上を検証する。

Federated Reinforcement Learning (FRL) has been deemed as a promising solution for intelligent decision-making in the era of Artificial Internet of Things. However, existing FRL approaches often entail repeated interactions with the environment during local updating, which can be prohibitively expensive or even infeasible in many real-world domains. To overcome this challenge, this paper proposes a novel offline federated policy optimization algorithm, named $\texttt{DRPO}$, which enables distributed agents to collaboratively learn a decision policy only from private and static data without further environmental interactions. $\texttt{DRPO}$ leverages dual regularization, incorporating both the local behavioral policy and the global aggregated policy, to judiciously cope with the intrinsic two-tier distributional shifts in offline FRL. Theoretical analysis characterizes the impact of the dual regularization on performance, demonstrating that by achieving the right balance thereof, $\texttt{DRPO}$ can effectively counteract distributional shifts and ensure strict policy improvement in each federative learning round. Extensive experiments validate the significant performance gains of $\texttt{DRPO}$ over baseline methods.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# ビジョン・ランゲージ・モデルと文化の関連性

How Culturally Aware are Vision-Language Models? ( http://arxiv.org/abs/2405.17475v1 )

ライセンス: Link先を確認
Olena Burda-Lassen, Aman Chadha, Shashank Goswami, Vinija Jain, (参考訳) 画像はしばしば1000ワードの価値があると言われており、ある画像は豊かで洞察に富んだ物語を伝えることができる。 これらの話はイメージキャプションで語れますか? 神話、民俗舞踊、文化記号、シンボルなどの民俗ジャンルからのイメージは、あらゆる文化にとって不可欠である。 本研究は,4つの人気ビジョン言語モデル (GPT-4V, Gemini Pro Vision, LLaVA, OpenFlamingo) の性能を比較し,これらの画像の文化的特異な情報を特定し,正確かつ文化的に敏感な画像キャプションを作成する。 また,画像キャプションにおける文化意識の度合いを計測する新しい評価指標であるカルチャーアウェアネススコア(CAS)を提案する。 我々は、文化的背景や背景を含む画像に対して、基礎的な真実をラベル付けしたデータセットMOSAIC-1.5kと、見知らぬデータで使用できる文化意識スコアを割り当てたラベル付きデータセットを提供する。 文化的に適切な画像キャプションを作成することは科学研究に有用であり、多くの実用的な応用に有用である。 我々は、我々の研究が世界中のAIアプリケーションにおける文化的な感受性のより深い統合を促進することを期待している。 データセットと文化意識スコアを一般公開することで、この分野のさらなる研究を促進し、世界的多様性を尊重し、祝福するより文化的に意識されたAIシステムの開発を促進することを目指している。

An image is often said to be worth a thousand words, and certain images can tell rich and insightful stories. Can these stories be told via image captioning? Images from folklore genres, such as mythology, folk dance, cultural signs, and symbols, are vital to every culture. Our research compares the performance of four popular vision-language models (GPT-4V, Gemini Pro Vision, LLaVA, and OpenFlamingo) in identifying culturally specific information in such images and creating accurate and culturally sensitive image captions. We also propose a new evaluation metric, Cultural Awareness Score (CAS), dedicated to measuring the degree of cultural awareness in image captions. We provide a dataset MOSAIC-1.5k, labeled with ground truth for images containing cultural background and context, as well as a labeled dataset with assigned Cultural Awareness Scores that can be used with unseen data. Creating culturally appropriate image captions is valuable for scientific research and can be beneficial for many practical applications. We envision that our work will promote a deeper integration of cultural sensitivity in AI applications worldwide. By making the dataset and Cultural Awareness Score available to the public, we aim to facilitate further research in this area, encouraging the development of more culturally aware AI systems that respect and celebrate global diversity.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# オフライン模倣学習における多変量記述の活用法

How to Leverage Diverse Demonstrations in Offline Imitation Learning ( http://arxiv.org/abs/2405.17476v1 )

ライセンス: Link先を確認
Sheng Yue, Jiani Liu, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang, (参考訳) 不完全な実演を伴うオフライン模倣学習(IL)は、多くの現実世界のドメインで専門家データが不足しているため、注目を集めている。 このシナリオの根本的な問題は、ノイズの多いデータからポジティブな振る舞いを抽出する方法である。 一般に、この問題に対する現在のアプローチは、与えられた専門家のデモンストレーションとの状態-アクションの類似性に基づくデータ構築を選択し、(潜在的に豊富な)$\textit{diverse}$状態-アクションの貴重な情報を無視する。 本稿では,結果の状態に基づいて肯定的な振る舞いを識別する,単純で効果的なデータ選択手法を提案する。 さらに、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。 実験では,連続制御や視覚に基づくタスクを含む,複雑で高次元のオフラインILベンチマークを用いて,本手法の評価を行った。 以上の結果から,本手法は現在の性能を$\textbf{20/21}$ベンチマークで上回り,通常$\textbf{2-5x}$と同等のランタイムを維持しつつ,振る舞いのクローン($\texttt{BC}$)と同等の性能を維持していることがわかった。

Offline Imitation Learning (IL) with imperfect demonstrations has garnered increasing attention owing to the scarcity of expert data in many real-world domains. A fundamental problem in this scenario is how to extract positive behaviors from noisy data. In general, current approaches to the problem select data building on state-action similarity to given expert demonstrations, neglecting precious information in (potentially abundant) $\textit{diverse}$ state-actions that deviate from expert ones. In this paper, we introduce a simple yet effective data selection method that identifies positive behaviors based on their resultant states -- a more informative criterion enabling explicit utilization of dynamics information and effective extraction of both expert and beneficial diverse behaviors. Further, we devise a lightweight behavior cloning algorithm capable of leveraging the expert and selected data correctly. In the experiments, we evaluate our method on a suite of complex and high-dimensional offline IL benchmarks, including continuous-control and vision-based tasks. The results demonstrate that our method achieves state-of-the-art performance, outperforming existing methods on $\textbf{20/21}$ benchmarks, typically by $\textbf{2-5x}$, while maintaining a comparable runtime to Behavior Cloning ($\texttt{BC}$).
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# OLLIE: オフライントレーニングからオンラインファインタニングまで

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning ( http://arxiv.org/abs/2405.17477v1 )

ライセンス: Link先を確認
Sheng Yue, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang, (参考訳) 本稿では、静的な実演データから模倣ポリシーを事前学習するオフライン・オンライン・イミテーション・ラーニング(IL)について検討し、続いて環境相互作用を最小限に抑えた高速な微調整を行う。 既存のオフラインILとオンラインILメソッドの組み合わせは、初期識別器(しばしばオンラインILで使用される)がポリシー初期化に対してランダムかつ不一致に動作し、誤ったポリシー最適化と事前学習のための$\textit{unlearning}$が生じるため、この文脈では不適切な振る舞いをする傾向がある。 この課題を解決するために,$\textt{OLLIE}$と$\textit{aligned discriminator initialization}$を同時に学習し,スムーズかつ高速な微調整を実現する。 実証的には、$\texttt{OLLIE}$は、連続的な制御から視覚ベースのドメインまで、パフォーマンス、デモンストレーション効率、収束速度の点で、ベースラインメソッドを$\textbf{20}$チャレンジタスクで一貫して大幅に上回ります。 この研究は、ILの文脈における事前訓練と微調整のさらなる研究の基盤となるかもしれない。

In this paper, we study offline-to-online Imitation Learning (IL) that pretrains an imitation policy from static demonstration data, followed by fast finetuning with minimal environmental interaction. We find the na\"ive combination of existing offline IL and online IL methods tends to behave poorly in this context, because the initial discriminator (often used in online IL) operates randomly and discordantly against the policy initialization, leading to misguided policy optimization and $\textit{unlearning}$ of pretraining knowledge. To overcome this challenge, we propose a principled offline-to-online IL method, named $\texttt{OLLIE}$, that simultaneously learns a near-expert policy initialization along with an $\textit{aligned discriminator initialization}$, which can be seamlessly integrated into online IL, achieving smooth and fast finetuning. Empirically, $\texttt{OLLIE}$ consistently and significantly outperforms the baseline methods in $\textbf{20}$ challenging tasks, from continuous control to vision-based domains, in terms of performance, demonstration efficiency, and convergence speed. This work may serve as a foundation for further exploration of pretraining and finetuning in the context of IL.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# ROSE:分解周波数学習による一般時系列予測支援

ROSE: Register Assisted General Time Series Forecasting with Decomposed Frequency Learning ( http://arxiv.org/abs/2405.17478v1 )

ライセンス: Link先を確認
Yihang Wang, Yuying Qiu, Peng Chen, Kai Zhao, Yang Shu, Zhongwen Rao, Lujia Pan, Bin Yang, Chenjuan Guo, (参考訳) 様々なドメインからの時系列データの収集が増加し、様々な下流予測タスクをサポートするために、多数の時系列データセットで事前訓練された一般時系列予測モデルに強い需要が生じる。 一般的な時系列予測は、マルチドミアン時系列データから統一表現を得る方法と、下流タスクにおける適応的転送のために、様々な領域にわたる時系列データからドメイン固有の特徴をキャプチャする方法の2つの課題に直面する。 これらの課題に対処するために、時系列予測のための新しい事前学習モデルである分解周波数学習(ROSE)を用いた登録型汎用時系列予測モデルを提案する。 ROSEは事前学習タスクに分解周波数学習を採用し、周波数ベースのマスキングと再構成による時系列における意味情報と周期情報を分解し、ドメイン間の統一表現を得る。 また、ROSEには、事前トレーニング中にドメイン固有の表現をキャプチャするレジスタコードブックを生成することを学習し、下流タスクで関連するレジスタトークンを選択することでドメイン適応転送を強化する時系列レジスタも備えている。 大規模時系列データを事前トレーニングした後、ROSEは8つの実世界のベンチマークで最先端の予測性能を達成する。 注目すべきは、数ショットのシナリオであっても、フルデータでトレーニングされた既存のメソッドと比較して、競争力や優れたパフォーマンスを示すことだ。

With the increasing collection of time series data from various domains, there arises a strong demand for general time series forecasting models pre-trained on a large number of time-series datasets to support a variety of downstream prediction tasks. Enabling general time series forecasting faces two challenges: how to obtain unified representations from multi-domian time series data, and how to capture domain-specific features from time series data across various domains for adaptive transfer in downstream tasks. To address these challenges, we propose a Register Assisted General Time Series Forecasting Model with Decomposed Frequency Learning (ROSE), a novel pre-trained model for time series forecasting. ROSE employs Decomposed Frequency Learning for the pre-training task, which decomposes coupled semantic and periodic information in time series with frequency-based masking and reconstruction to obtain unified representations across domains. We also equip ROSE with a Time Series Register, which learns to generate a register codebook to capture domain-specific representations during pre-training and enhances domain-adaptive transfer by selecting related register tokens on downstream tasks. After pre-training on large-scale time series data, ROSE achieves state-of-the-art forecasting performance on 8 real-world benchmarks. Remarkably, even in few-shot scenarios, it demonstrates competitive or superior performance compared to existing methods trained with full data.
翻訳日:2024-05-30 00:10:18 公開日:2024-05-24
# ニューラルネットのトレーニングにおける周波数視点によるグルーキングの理論的考察

A rationale from frequency perspective for grokking in training neural network ( http://arxiv.org/abs/2405.17479v1 )

ライセンス: Link先を確認
Zhangchen Zhou, Yaoyu Zhang, Zhi-Qin John Xu, (参考訳) グロキング(Grokking)は、ニューラルネットワークNNがトレーニングデータに最初に適合し、後にトレーニング中にテストデータに一般化する現象である。 本稿では,NNにおけるこの現象の出現を説明するための周波数視点を実証的に提示する。 中心となる洞察は、ネットワークが最初、テストデータに存在するより健全な周波数成分を学習することである。 我々は、この現象を合成データと実データの両方にわたって観察し、学習過程における周波数ダイナミクスのレンズを通して特徴付けることによって、グルーキング現象を解明するための新しい視点を提供する。 実験周波数に基づく分析では、グルーキング現象とその基盤となるメカニズムの理解に新たな光を当てています。

Grokking is the phenomenon where neural networks NNs initially fit the training data and later generalize to the test data during training. In this paper, we empirically provide a frequency perspective to explain the emergence of this phenomenon in NNs. The core insight is that the networks initially learn the less salient frequency components present in the test data. We observe this phenomenon across both synthetic and real datasets, offering a novel viewpoint for elucidating the grokking phenomenon by characterizing it through the lens of frequency dynamics during the training process. Our empirical frequency-based analysis sheds new light on understanding the grokking phenomenon and its underlying mechanisms.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# 機械学習を用いた設計検証によるシミュレーション回帰効率の向上

Improving Simulation Regression Efficiency using a Machine Learning-based Method in Design Verification ( http://arxiv.org/abs/2405.17481v1 )

ライセンス: Link先を確認
Deepak Narayan Gadde, Sebastian Simon, Djones Lettnin, Thomas Ziller, (参考訳) SoC設計の複雑さとサイズが依然として増大しているため、検証のスループットは大きな課題のボトルネックになっています。 CPUコアの追加やテストの並列実行を単純にすれば,もはやスケールアップは不可能だ。 本稿では,Cadenceが導入した機械学習技術,すなわちXcelium MLのランキングと新たな機械学習技術について述べる。 どちらの手法も、より効率的な刺激を適用して、より少ないCPU時間で同等のカバレッジを得ることを目的としている。 一方、Xcelium MLはランダム化点と過去の回帰率の相関関係を見出した結果、最適化されたパターンを生成する。 本論文では,3つの実産業プロジェクトの事例として,各手法の問題点と問題点を考察する。 Xcelium ML と Ranking のいずれの手法も3つの圧縮とスピードアップの要素を一貫して与えている。 しかし、最適化されたMLベースの回帰は、新しいランダムシナリオをシミュレートし、時にはカバレッジが100%以上回復する。 最後に、製品開発を通じて効率的にXcelium MLを使用する方法が提案されている。

The verification throughput is becoming a major challenge bottleneck, since the complexity and size of SoC designs are still ever increasing. Simply adding more CPU cores and running more tests in parallel will not scale anymore. This paper discusses various methods of improving verification throughput: ranking and the new machine learning (ML) based technology introduced by Cadence i.e. Xcelium ML. Both methods aim at getting comparable coverage in less CPU time by applying more efficient stimulus. Ranking selects specific seeds that simply turned out to come up with the largest coverage in previous simulations, while Xcelium ML generates optimized patterns as a result of finding correlations between randomization points and achieved coverage of previous regressions. Quantified results as well as pros & cons of each approach are discussed in this paper at the example of three actual industry projects. Both Xcelium ML and Ranking methods gave comparable compression & speedup factors around 3 consistently. But the optimized ML based regressions simulated new random scenarios occasionally producing a coverage regain of more than 100%. Finally, a methodology is proposed to use Xcelium ML efficiently throughout the product development.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# CT画像における肺結節の特異な悪性度の検討

Concept-based Explainable Malignancy Scoring on Pulmonary Nodules in CT Images ( http://arxiv.org/abs/2405.17483v1 )

ライセンス: Link先を確認
Rinat I. Dumaev, Sergei A. Molodyakov, Lev V. Utkin, (参考訳) 肺結節の悪性度を評価するためのコンピュータ支援診断システム(CAD)の透明性を高めるために, 一般化付加モデルを適用した解釈可能なモデルを提案し, 概念に基づく学習を提案する。 本モデルは、最終悪性度回帰スコアに加え、臨床的に重要な属性のセットを検出し、肺結節属性と最終診断決定との関係と、その決定への貢献を学習する。 提案した概念に基づく学習フレームワークは、異なる概念(数値と分類)、それらの価値、そして最終的な予測への貢献の観点から、人間可読な説明を提供する。 LIDC-IDRIデータセットを用いた数値実験により, 内的関係を明示的に探求するモデルを用いて得られた診断結果は, 臨床実践で観察された類似パターンと一致していることが示された。 さらに, 本モデルでは, 肺結節診断において, 競合分類と結節属性スコアリング性能が有効であることを示す。

To increase the transparency of modern computer-aided diagnosis (CAD) systems for assessing the malignancy of lung nodules, an interpretable model based on applying the generalized additive models and the concept-based learning is proposed. The model detects a set of clinically significant attributes in addition to the final malignancy regression score and learns the association between the lung nodule attributes and a final diagnosis decision as well as their contributions into the decision. The proposed concept-based learning framework provides human-readable explanations in terms of different concepts (numerical and categorical), their values, and their contribution to the final prediction. Numerical experiments with the LIDC-IDRI dataset demonstrate that the diagnosis results obtained using the proposed model, which explicitly explores internal relationships, are in line with similar patterns observed in clinical practice. Additionally, the proposed model shows the competitive classification and the nodule attribute scoring performance, highlighting its potential for effective decision-making in the lung nodule diagnosis.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# 家庭内リフレクション適応による低位と直交順応のギャップを埋める

Bridging The Gap between Low-rank and Orthogonal Adaptation via Householder Reflection Adaptation ( http://arxiv.org/abs/2405.17484v1 )

ライセンス: Link先を確認
Shen Yuan, Haotian Liu, Hongteng Xu, (参考訳) 異なる技術ルートに従う一方で、低ランクと直交の双方の手法は、訓練可能なパラメータの小さな部分に基づいて、特定のタスクやドメインで大規模な事前学習モデルを効率的に適用することができる。 本研究では,この2つの技法のギャップを橋渡しし,家庭内リフレクションに基づく簡易かつ効果的な適応手法を提案する。 本手法は, 学習可能な家庭用リフレクション(HR)の連鎖によって構築された直交行列を用いて, 各冷凍重量行列を乗算することにより, その層を微調整する。 このHRに基づく直交微調整は適応的な低ランク適応と等価である。 さらに、HRに対応する反射面の直交性がモデル容量と正則性に影響を及ぼすことを示す。 この分析は、HRの直交性を規則化する動機となり、提案手法の異なる実装に繋がる。 最先端の手法と比較して、HRAは、大きな言語モデルや条件付き画像生成装置を適用する際に、学習可能なパラメータが少なく、優れた性能を達成する。 コードはhttps://github.com/DaShenZi721/HRAで公開されている。

While following different technical routes, both low-rank and orthogonal adaptation techniques can efficiently adapt large-scale pre-training models in specific tasks or domains based on a small piece of trainable parameters. In this study, we bridge the gap between these two techniques, proposing a simple but effective adaptation method based on Householder reflections. Given a pre-trained model, our method fine-tunes its layers by multiplying each frozen weight matrix with an orthogonal matrix constructed by a chain of learnable Householder reflections (HRs). This HR-based orthogonal fine-tuning is equivalent to an adaptive low-rank adaptation. Moreover, we show that the orthogonality of the reflection planes corresponding to the HRs impacts the model capacity and regularity. The analysis motivates us to regularize the orthogonality of the HRs, leading to different implementations of the proposed Householder reflection adaptation (HRA) method. Compared with state-of-the-art methods, HRA achieves superior performance with fewer learnable parameters when adapting large language models and conditional image generators. The code is available at https://github.com/DaShenZi721/HRA
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# $\textit{Comet:}$ A $\underline{Com}$munication-$\underline{e}$fficient and Performant Approxima$\underline{t}$ion for Private Transformer Inference

$\textit{Comet:}$ A $\underline{Com}$munication-$\underline{e}$fficient and Performant Approxima$\underline{t}$ion for Private Transformer Inference ( http://arxiv.org/abs/2405.17485v1 )

ライセンス: Link先を確認
Xiangrui Xu, Qiao Zhang, Rui Ning, Chunsheng Xin, Hongyi Wu, (参考訳) 現代の言語処理アプリケーションでChatGPTによって実証されたTransformerライクなモデルの一般的な使用は、そのようなモデルに依存した多くのクラウドベースのサービスに不可欠なプライベート推論を実現するための重要な必要性を浮き彫りにしている。 しかしながら、現在のプライバシ保護フレームワークは、特にTransformerモデルにおける非線形計算において、通信負担を著しく軽減している。 本稿では,推論性能を損なうことなく,通信コストを効果的に削減する新しいプラグイン方式Cometを提案する。 第2に,優れた初期近似を求める際の通信量を削減するための効率的な近似手法を提案する。 我々は、GLUEベンチマークデータセットを用いて、Comet on BertとRoBERTaモデルを評価し、通信の少ない3.9$\times$と3.5$\times$のスピードアップを示しながら、以前の技術と比較して競争力のあるモデルパフォーマンスを維持している。

The prevalent use of Transformer-like models, exemplified by ChatGPT in modern language processing applications, underscores the critical need for enabling private inference essential for many cloud-based services reliant on such models. However, current privacy-preserving frameworks impose significant communication burden, especially for non-linear computation in Transformer model. In this paper, we introduce a novel plug-in method Comet to effectively reduce the communication cost without compromising the inference performance. We second introduce an efficient approximation method to eliminate the heavy communication in finding good initial approximation. We evaluate our Comet on Bert and RoBERTa models with GLUE benchmark datasets, showing up to 3.9$\times$ less communication and 3.5$\times$ speedups while keep competitive model performance compared to the prior art.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# eQMARL:量子チャネル上での分散協調のための量子マルチエージェント強化学習

eQMARL: Entangled Quantum Multi-Agent Reinforcement Learning for Distributed Cooperation over Quantum Channels ( http://arxiv.org/abs/2405.17486v1 )

ライセンス: Link先を確認
Alexander DeRieux, Walid Saad, (参考訳) 分散マルチエージェント強化学習(MARL)環境でのコラボレーションは重要な課題である。 これらの分散システムのための学習フレームワークは、ローカル観測と環境データを共有する際の通信オーバーヘッドと計算コストに対する明示的なプレイヤー調整の利点を考慮しなければならない。 量子コンピューティングは、最小限の情報共有によるより効率的な分散コラボレーションを可能にする、マルチエージェント環境における量子絡み合いと協調の間の潜在的なシナジーを引き起こした。 しかし、現在の最先端量子MARL(QMARL)の実装は、調整媒体としての量子チャネルの絡み合いではなく、古典的な情報共有に依存しているため、この関係はほとんど解明されていない。 一方,本研究では,絡み合ったQMARL(eQMARL)と呼ばれる新しいフレームワークを提案する。 提案するeQMARLは,量子チャネル間の協調を容易にし,量子絡み合ったスプリット批評家による局所的な観察共有をなくす分散アクタ批判フレームワークである。 エージェントに一意に広がる量子批評家の導入により、量子チャネル上の絡み合った入力量子ビットを介して局所的な観測エンコーダの結合が可能となり、局所的な観測の明示的な共有が不要となり、古典的な通信オーバーヘッドを低減できる。 さらに、合同量子測定による共同観測値関数推定によりエージェントポリシーを調整し、集中的な計算負担を軽減する。 実験の結果、${\Psi}^{+}$エンタングルメントを持つeQMARLは、古典的および完全中央集権的な古典的および量子的ベースラインの分割よりも最大17.8\%の速さで協調戦略に収束することが示された。 また, eQMARL は, 分割された古典的ベースラインに比べて, 集中型パラメータの定数係数が 25$-time より小さいことにより, この性能を達成することを示した。

Collaboration is a key challenge in distributed multi-agent reinforcement learning (MARL) environments. Learning frameworks for these decentralized systems must weigh the benefits of explicit player coordination against the communication overhead and computational cost of sharing local observations and environmental data. Quantum computing has sparked a potential synergy between quantum entanglement and cooperation in multi-agent environments, which could enable more efficient distributed collaboration with minimal information sharing. This relationship is largely unexplored, however, as current state-of-the-art quantum MARL (QMARL) implementations rely on classical information sharing rather than entanglement over a quantum channel as a coordination medium. In contrast, in this paper, a novel framework dubbed entangled QMARL (eQMARL) is proposed. The proposed eQMARL is a distributed actor-critic framework that facilitates cooperation over a quantum channel and eliminates local observation sharing via a quantum entangled split critic. Introducing a quantum critic uniquely spread across the agents allows coupling of local observation encoders through entangled input qubits over a quantum channel, which requires no explicit sharing of local observations and reduces classical communication overhead. Further, agent policies are tuned through joint observation-value function estimation via joint quantum measurements, thereby reducing the centralized computational burden. Experimental results show that eQMARL with ${\Psi}^{+}$ entanglement converges to a cooperative strategy up to $17.8\%$ faster and with a higher overall score compared to split classical and fully centralized classical and quantum baselines. The results also show that eQMARL achieves this performance with a constant factor of $25$-times fewer centralized parameters compared to the split classical baseline.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# 異常検出とアラートフィルタリングのためのパターンに基づく時系列リスクスコアリング -予測的メンテナンスケーススタディ-

Pattern-Based Time-Series Risk Scoring for Anomaly Detection and Alert Filtering -- A Predictive Maintenance Case Study ( http://arxiv.org/abs/2405.17488v1 )

ライセンス: Link先を確認
Elad Liebman, (参考訳) 障害検出は複雑なシステムの管理において重要な課題である。 大規模産業システムにおける予測メンテナンスに対するSparkCognitionの取り組みの文脈では、この問題は異常検出(異常検出)という観点で表されることが多い。 正常な振る舞いのパターンは、単に測定された信号の粗い統計で捉えられるわけではない。 むしろ、多変量連続パターン自体が正常な振る舞いと異常な振舞いを示すことができる。 そのため、進化するにつれて時間的関係を考慮せずにデータのスナップショットに依存する通常の振る舞いモデリングには欠かせない。 しかし、リカレントニューラルネットワークやアテンションメカニズムのような時間依存を扱う一般的な戦略は、しばしば計算コストが高く、訓練が難しい。 本稿では,逐次パターンの類似性に基づく異常検出と警告フィルタリングのための高速かつ効率的な手法を提案する。 本稿では,大規模な実世界の産業システムにおいて,異常検出を含む様々な目的で,このアプローチをどのように活用することができるかを示す。 その後、我々のアプローチを公開データセットで検証し、最先端のベースラインと比較して、その汎用性と堅牢性を確立する。 また、アラートリコール対象関数に基づいて、フレームワークを最適化する効率的な方法を示す。

Fault detection is a key challenge in the management of complex systems. In the context of SparkCognition's efforts towards predictive maintenance in large scale industrial systems, this problem is often framed in terms of anomaly detection - identifying patterns of behavior in the data which deviate from normal. Patterns of normal behavior aren't captured simply in the coarse statistics of measured signals. Rather, the multivariate sequential pattern itself can be indicative of normal vs. abnormal behavior. For this reason, normal behavior modeling that relies on snapshots of the data without taking into account temporal relationships as they evolve would be lacking. However, common strategies for dealing with temporal dependence, such as Recurrent Neural Networks or attention mechanisms are oftentimes computationally expensive and difficult to train. In this paper, we propose a fast and efficient approach to anomaly detection and alert filtering based on sequential pattern similarities. In our empirical analysis section, we show how this approach can be leveraged for a variety of purposes involving anomaly detection on a large scale real-world industrial system. Subsequently, we test our approach on a publicly-available dataset in order to establish its general applicability and robustness compared to a state-of-the-art baseline. We also demonstrate an efficient way of optimizing the framework based on an alert recall objective function.
翻訳日:2024-05-30 00:00:30 公開日:2024-05-24
# 信頼度トリガー検出:リアルタイム追従システムの高速化

Confidence Trigger Detection: Accelerating Real-time Tracking-by-detection Systems ( http://arxiv.org/abs/1902.00615v5 )

ライセンス: Link先を確認
Zhicheng Ding, Zhixin Lai, Siyang Li, Panfeng Li, Qikai Yang, Edward Wong, (参考訳) リアルタイム物体追跡は、ディープラーニング手法の計算要求によってさらに悪化する課題である、速度と精度の微妙なバランスを必要とする。 本稿では,中間状態によく似たフレームに対するオブジェクト検出を戦略的に回避し,トラッカーの信頼度を生かしたCTD(Confidence-Triggered Detection)を提案する。 CTDは追跡速度を向上するだけでなく、既存の追跡アルゴリズムを超越して精度も維持する。 種々のトラッカー信頼度しきい値の広範な評価を通じて,トラッキング速度と精度の最適なトレードオフを特定し,パラメータの微調整と実世界のシナリオにおけるCTDの実用性向上に重要な洞察を与える。 各種検出モデルを用いた実験により,CTDフレームワークの堅牢性と汎用性を実証し,資源制約環境におけるリアルタイムトラッキングの実現の可能性を示した。

Real-time object tracking necessitates a delicate balance between speed and accuracy, a challenge exacerbated by the computational demands of deep learning methods. In this paper, we propose Confidence-Triggered Detection (CTD), an innovative approach that strategically bypasses object detection for frames closely resembling intermediate states, leveraging tracker confidence scores. CTD not only enhances tracking speed but also preserves accuracy, surpassing existing tracking algorithms. Through extensive evaluation across various tracker confidence thresholds, we identify an optimal trade-off between tracking speed and accuracy, providing crucial insights for parameter fine-tuning and enhancing CTD's practicality in real-world scenarios. Our experiments across diverse detection models underscore the robustness and versatility of the CTD framework, demonstrating its potential to enable real-time tracking in resource-constrained environments.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-24
# 出力が逆向きに汚染された場合のラッソによるロバスト推定

Robust estimation with Lasso when outputs are adversarially contaminated ( http://arxiv.org/abs/2004.05990v5 )

ライセンス: Link先を確認
Takeyuki Sasai, Hironori Fujisawa, (参考訳) 出力が逆向きに汚染されている場合のロバストな推定について検討する。 Nguyen and Tran (2012) はロバストなパラメータ推定のための拡張ラッソを提案し、その推定誤差の収束率を示した。 最近、Dalalyan と Thompson (2019) はいくつかの有用な不等式を与え、その後 Nguyen と Tran (2012) よりも高速な収束速度を示した。 彼らは、拡張されたラッソの最小化問題は、$L_1$ペナルティを持つハマー損失関数のペナルティ化に焦点をあてた。 特徴は、ハマー損失関数が従来の方法とは異なる追加のチューニングパラメータを含むことである。 Dalalyan と Thompson (2019) とは異なる証明を与え、その後 Dalalyan と Thompson (2019) と同じ収束率を与える。 この証明の意義は、フーバー関数の特定の性質を使うことである。 このような手法は過去の証明では使われていない。

We consider robust estimation when outputs are adversarially contaminated. Nguyen and Tran (2012) proposed an extended Lasso for robust parameter estimation and then they showed the convergence rate of the estimation error. Recently, Dalalyan and Thompson (2019) gave some useful inequalities and then they showed a faster convergence rate than Nguyen and Tran (2012). They focused on the fact that the minimization problem of the extended Lasso can become that of the penalized Huber loss function with $L_1$ penalty. The distinguishing point is that the Huber loss function includes an extra tuning parameter, which is different from the conventional method. We give the proof, which is different from Dalalyan and Thompson (2019) and then we give the same convergence rate as Dalalyan and Thompson (2019). The significance of our proof is to use some specific properties of the Huber function. Such techniques have not been used in the past proofs.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-24
# 逆ロバスト低ランク行列推定 : 圧縮センシングと行列補完

Adversarial Robust Low Rank Matrix Estimation: Compressed Sensing and Matrix Completion ( http://arxiv.org/abs/2010.13018v5 )

ライセンス: Link先を確認
Takeyuki Sasai, Hironori Fujisawa, (参考訳) 出力が敵によって汚染される場合、ロバストな低ランク行列推定をトレース回帰とみなす。 敵は任意の出力に任意の値を追加することができる。 そのような値はどんなサンプルにも依存する。 部分問題としてラッソを含む行列圧縮センシングと行列完備化に対処し, シャープな推定誤差境界を求める。 行列圧縮センシングや行列補完などの異なるモデルに対する誤差境界を得るために,ハマー損失関数と核ノルムのペナル化を組み合わせた単純な統一アプローチを提案する。 本論文で得られた誤差境界は過去のものよりもシャープである。

We consider robust low rank matrix estimation as a trace regression when outputs are contaminated by adversaries. The adversaries are allowed to add arbitrary values to arbitrary outputs. Such values can depend on any samples. We deal with matrix compressed sensing, including lasso as a partial problem, and matrix completion, and then we obtain sharp estimation error bounds. To obtain the error bounds for different models such as matrix compressed sensing and matrix completion, we propose a simple unified approach based on a combination of the Huber loss function and the nuclear norm penalization, which is a different approach from the conventional ones. Some error bounds obtained in the present paper are sharper than the past ones.
翻訳日:2024-05-29 13:05:39 公開日:2024-05-24
# 安全強化学習の展望:方法・理論・応用

A Review of Safe Reinforcement Learning: Methods, Theory and Applications ( http://arxiv.org/abs/2205.10330v5 )

ライセンス: Link先を確認
Shangding Gu, Long Yang, Yali Du, Guang Chen, Florian Walter, Jun Wang, Alois Knoll, (参考訳) 強化学習(RL)は多くの複雑な意思決定タスクで大きな成功を収めています。 しかし、現実世界のアプリケーションにRLをデプロイする際の安全性の懸念が高まり、自律運転やロボット工学のシナリオなど、安全なRLアルゴリズムの需要が高まっている。 安全な制御には長い歴史があるが、安全なRLアルゴリズムの研究はまだ初期段階にある。 本稿では, 将来安全なRL研究の基盤を確立するために, 手法, 理論, 応用の観点から, 安全なRLのレビューを行う。 まず,安全RLの5次元からの進歩を概観し,安全RLを「2H3W」とよばれる現実世界のアプリケーションに展開する上で,5つの重要な問題を提起する。 次に,「2H3W」問題に答える観点から,アルゴリズムと理論の進歩を分析する。 特に、安全なRLアルゴリズムのサンプル複雑性について概説し、続いて安全なRLアルゴリズムのアプリケーションとベンチマークを紹介する。 最後に,このスレッドの今後の研究を期待して,安全なRLにおける課題の議論を開いている。 安全なRLアルゴリズムの研究を進めるために、主要な安全なRLアルゴリズムの実装を含むオープンソースリポジトリをリンクでリリースする。

Reinforcement Learning (RL) has achieved tremendous success in many complex decision-making tasks. However, safety concerns are raised during deploying RL in real-world applications, leading to a growing demand for safe RL algorithms, such as in autonomous driving and robotics scenarios. While safe control has a long history, the study of safe RL algorithms is still in the early stages. To establish a good foundation for future safe RL research, in this paper, we provide a review of safe RL from the perspectives of methods, theories, and applications. Firstly, we review the progress of safe RL from five dimensions and come up with five crucial problems for safe RL being deployed in real-world applications, coined as "2H3W". Secondly, we analyze the algorithm and theory progress from the perspectives of answering the "2H3W" problems. Particularly, the sample complexity of safe RL algorithms is reviewed and discussed, followed by an introduction to the applications and benchmarks of safe RL algorithms. Finally, we open the discussion of the challenging problems in safe RL, hoping to inspire future research on this thread. To advance the study of safe RL algorithms, we release an open-sourced repository containing the implementations of major safe RL algorithms at the link: https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-24
# パワー・ムアヘッド平均に基づく近距離近似アルゴリズム

A Novel Nearest Neighbors Algorithm Based on Power Muirhead Mean ( http://arxiv.org/abs/2209.01514v3 )

ライセンス: Link先を確認
Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, (参考訳) 本稿では、K-Nearest Neighbors法と適応型Power Muirhead Mean演算子を組み合わせた新しいデータ分類手法である、革新的なPower Muirhead Mean K-Nearest Neighbors(PMM-KNN)アルゴリズムを提案する。 提案手法は,従来のKNNの限界に対処するために,各クラス内のK-アレスト近傍の局所的な手段を問合せサンプルに計算するためにPower Muirhead Meanを利用する。 多様なベンチマークデータセットに対する大規模な実験は、他の分類法よりもPMM-KNNの方が優れていることを示す。 その結果, 様々なデータセット, 特に複雑・高次元分布において, 統計的に有意な精度の向上が見られた。 Power Muirhead Meanの適応性により、PMM-KNNは基盤となるデータ構造を効果的に捉え、精度と堅牢性を高めることができる。 この発見は、PMM-KNNがデータ分類タスクの強力で汎用的なツールとしての可能性を強調し、現実世界のシナリオでの応用を探究し、Power Muirhead Meanパラメーターを自動化してその潜在能力を解き放つよう、さらなる研究を奨励している。

This paper introduces the innovative Power Muirhead Mean K-Nearest Neighbors (PMM-KNN) algorithm, a novel data classification approach that combines the K-Nearest Neighbors method with the adaptive Power Muirhead Mean operator. The proposed methodology aims to address the limitations of traditional KNN by leveraging the Power Muirhead Mean for calculating the local means of K-nearest neighbors in each class to the query sample. Extensive experimentation on diverse benchmark datasets demonstrates the superiority of PMM-KNN over other classification methods. Results indicate statistically significant improvements in accuracy on various datasets, particularly those with complex and high-dimensional distributions. The adaptability of the Power Muirhead Mean empowers PMM-KNN to effectively capture underlying data structures, leading to enhanced accuracy and robustness. The findings highlight the potential of PMM-KNN as a powerful and versatile tool for data classification tasks, encouraging further research to explore its application in real-world scenarios and the automation of Power Muirhead Mean parameters to unleash its full potential.
翻訳日:2024-05-29 12:57:42 公開日:2024-05-24
# 識別エントロピークラスタリングとK平均とSVMとの関係

Discriminative Entropy Clustering and its Relation to K-means and SVM ( http://arxiv.org/abs/2301.11405v3 )

ライセンス: Link先を確認
Zhongwen Zhang, Yuri Boykov, (参考訳) モデルの入力と出力の相互情報の最大化は、正式にはソフトマックス予測の「決定性」と「公正性」に関係しており、これらの教師なしエントロピーに基づくクラスタリングの基準を動機付けている。 まず、線形ソフトマックスモデルの文脈において、エントロピーに基づくクラスタリングの一般的な性質について論じる。 以前の主張に反し、K-平均との根本的な違いを指摘する。 一方,SVMクラスタリングとの関連性を確立するために,決定性に対するマージンの最大化特性を実証する。 第二に、一般的なソフトマックスモデルに対するエントロピークラスタリングの自己ラベル化に関する新しい定式化を提案する。 擬似ラベルは「公平さと決定性を分割する」補助変数として導入される。 導出した自己ラベル損失は、擬似ラベル誤りに対して頑健な逆クロスエントロピーを含み、擬似ラベルに対する効率的なEMソルバを可能にする。 我々のアルゴリズムは、ディープクラスタリングのためのいくつかの標準ベンチマークの最先端性を改善する。

Maximization of mutual information between the model's input and output is formally related to "decisiveness" and "fairness" of the softmax predictions, motivating these unsupervised entropy-based criteria for clustering. First, in the context of linear softmax models, we discuss some general properties of entropy-based clustering. Disproving some earlier claims, we point out fundamental differences with K-means. On the other hand, we prove the margin maximizing property for decisiveness establishing a relation to SVM-based clustering. Second, we propose a new self-labeling formulation of entropy clustering for general softmax models. The pseudo-labels are introduced as auxiliary variables "splitting" the fairness and decisiveness. The derived self-labeling loss includes the reverse cross-entropy robust to pseudo-label errors and allows an efficient EM solver for pseudo-labels. Our algorithm improves the state of the art on several standard benchmarks for deep clustering.
翻訳日:2024-05-29 12:47:48 公開日:2024-05-24
# 3次元分子生成と最適化のための幾何-完備拡散

Geometry-Complete Diffusion for 3D Molecule Generation and Optimization ( http://arxiv.org/abs/2302.04313v6 )

ライセンス: Link先を確認
Alex Morehead, Jianlin Cheng, (参考訳) 拡散確率モデル(DDPM)は、テキスト誘導画像生成から構造誘導タンパク質設計まで様々なタスクのためのコンピュータビジョンや計算生物学などの分野における新しい最先端の成果を開拓した。 この研究の後期の線に沿って、DDPMフレームワーク内で同変グラフニューラルネットワーク(GNN)を用いて3次元分子を生成する方法が最近提案されている。 しかし、これらの手法は分子に依存しない非幾何学的なGNNを3Dグラフの認知ネットワークとして採用しているため、重要な3D分子の幾何学的性質を習得することができない。 本研究では, 既存の3次元分子拡散モデルよりも, QM9データセットと大規模GEOM-Drugsデータセットの条件付きおよび非条件付き設定の差が大きい3次元分子拡散モデル(GCDM)を導入することにより, これらのギャップを解消し, 従来の方法と比較して, QM9データセットに対してより斬新でユニークな非条件付き3次元分子を生成する。 重要なことは、3次元分子生成のために学習されたGCDMの幾何完全分解過程により、GEOM-Drugsのスケールで有効でエネルギー的に安定な大分子のかなりの割合を生成できるのに対し、以前の手法は学習した特徴を達成できなかったことである。 さらに,GCDMの拡張は, 特定のタンパク質ポケットの3D分子を効果的に設計するだけでなく, 分子の安定性と特性特異性のために, 既存の3D分子の幾何学的および化学組成を常に最適化するためにGCDMの幾何学的特徴を再利用し, 分子拡散モデルの新たな汎用性を示す。 ソースコードとデータはhttps://github.com/BioinfoMachineLearning/Bio-Diffusion.comで無償公開しています。

Denoising diffusion probabilistic models (DDPMs) have pioneered new state-of-the-art results in disciplines such as computer vision and computational biology for diverse tasks ranging from text-guided image generation to structure-guided protein design. Along this latter line of research, methods have recently been proposed for generating 3D molecules using equivariant graph neural networks (GNNs) within a DDPM framework. However, such methods are unable to learn important geometric properties of 3D molecules, as they adopt molecule-agnostic and non-geometric GNNs as their 3D graph denoising networks, which notably hinders their ability to generate valid large 3D molecules. In this work, we address these gaps by introducing the Geometry-Complete Diffusion Model (GCDM) for 3D molecule generation, which outperforms existing 3D molecular diffusion models by significant margins across conditional and unconditional settings for the QM9 dataset and the larger GEOM-Drugs dataset, respectively, and generates more novel and unique unconditional 3D molecules for the QM9 dataset compared to previous methods. Importantly, we demonstrate that the geometry-complete denoising process of GCDM learned for 3D molecule generation enables the model to generate a significant proportion of valid and energetically-stable large molecules at the scale of GEOM-Drugs, whereas previous methods fail to do so with the features they learn. Additionally, we show that extensions of GCDM can not only effectively design 3D molecules for specific protein pockets but also that GCDM's geometric features can be repurposed to consistently optimize the geometry and chemical composition of existing 3D molecules for molecular stability and property specificity, demonstrating new versatility of molecular diffusion models. Our source code and data are freely available at https://github.com/BioinfoMachineLearning/Bio-Diffusion.
翻訳日:2024-05-29 12:47:48 公開日:2024-05-24
# RN-Net:Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network

RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network ( http://arxiv.org/abs/2303.10770v4 )

ライセンス: Link先を確認
Sangmin Yoo, Eric Yeu-Jer Lee, Ziyu Wang, Xinxin Wang, Wei D. Lu, (参考訳) イベントベースのカメラは、生物学的視覚系のスパースかつ非同期スパイク表現にインスパイアされている。 しかし、イベントデータを処理するには、高価な機能記述子を使用してスパイクをフレームに変換するか、トレーニングに高価なスパイクニューラルネットワークを使用するかが必要になる。 本研究では,局所的および大域的時空間的特徴検出のための動的テンポラリエンコードストレージと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャであるReservoir Nodes対応ニューロモルフィック・ビジョンセンシングネットワーク(RN-Net)を提案する。 RN-Netは非同期の時間的特徴の効率的な処理を可能にし、現在報告されているDVS128 Gestureの99.2%の最高精度と、より小さなネットワークサイズでDVS Lipデータセットの67.5%の最高精度の1つを達成する。 内部デバイスと回路のダイナミックスを活用することで、プリプロセッサや専用メモリ、演算ユニットを使わずに、非同期の時間的特徴符号化を非常に低コストで実装することができる。 単純なDNNブロックと標準バックプロパゲーションベースのトレーニングルールを使用することで、実装コストをさらに削減できる。

Event-based cameras are inspired by the sparse and asynchronous spike representation of the biological visual system. However, processing the event data requires either using expensive feature descriptors to transform spikes into frames, or using spiking neural networks that are expensive to train. In this work, we propose a neural network architecture, Reservoir Nodes-enabled neuromorphic vision sensing Network (RN-Net), based on simple convolution layers integrated with dynamic temporal encoding reservoirs for local and global spatiotemporal feature detection with low hardware and training costs. The RN-Net allows efficient processing of asynchronous temporal features, and achieves the highest accuracy of 99.2% for DVS128 Gesture reported to date, and one of the highest accuracy of 67.5% for DVS Lip dataset at a much smaller network size. By leveraging the internal device and circuit dynamics, asynchronous temporal feature encoding can be implemented at very low hardware cost without preprocessing and dedicated memory and arithmetic units. The use of simple DNN blocks and standard backpropagation-based training rules further reduces implementation costs.
翻訳日:2024-05-29 12:47:48 公開日:2024-05-24
# 経時的データ収集による個人差分合成データの連続的リリース

Continual Release of Differentially Private Synthetic Data from Longitudinal Data Collections ( http://arxiv.org/abs/2306.07884v2 )

ライセンス: Link先を確認
Mark Bun, Marco Gaboardi, Marcel Neunhoeffer, Wanrong Zhang, (参考訳) 医学・社会科学研究における長期的縦断研究におけるプライバシーの懸念から, 縦断データ収集から差分プライベートな合成データを継続的に放出する問題について検討した。 我々は,各段階において,各段階ごとに新しいデータ要素を報告し,合成器の目標は,一貫した方法で合成データセットをインクリメンタルに更新し,豊富な統計特性を捕捉するモデルを導入する。 固定時間ウィンドウクエリと累積時間クエリの2つの基本型を格納する連続合成データ生成アルゴリズムを提供する。 我々は,これらのアルゴリズムの誤差率にほぼ厳密な上限を示し,米国国勢調査局の所得・プログラム参加調査から得られた現実的なサイズのデータセットに対して,その実証的な性能を示す。

Motivated by privacy concerns in long-term longitudinal studies in medical and social science research, we study the problem of continually releasing differentially private synthetic data from longitudinal data collections. We introduce a model where, in every time step, each individual reports a new data element, and the goal of the synthesizer is to incrementally update a synthetic dataset in a consistent way to capture a rich class of statistical properties. We give continual synthetic data generation algorithms that preserve two basic types of queries: fixed time window queries and cumulative time queries. We show nearly tight upper bounds on the error rates of these algorithms and demonstrate their empirical performance on realistically sized datasets from the U.S. Census Bureau's Survey of Income and Program Participation.
翻訳日:2024-05-29 12:28:18 公開日:2024-05-24
# 巨人を解き放つ:コーディングアルゴリズムとデータ構造におけるChatGPTの習熟度に関する包括的評価

Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures ( http://arxiv.org/abs/2307.05360v3 )

ライセンス: Link先を確認
Sayed Erfan Arefin, Tasnia Ashrafi Heya, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda, (参考訳) 大規模言語モデル(LLM)の変革的影響は、人工知能(AI)技術領域を根本的に変えている。 特にChatGPTは、これらのモデル内で自分自身を区別し、マルチターン会話において顕著なパフォーマンスを示し、さまざまな言語でコード習熟度を示す。 本稿では,ChatGPTのコーディング能力の総合評価を行う。 我々の焦点はピソンプログラミング言語とデータ構造とアルゴリズムを中心とした問題であり、コンピュータ科学の根底にある2つのトピックである。 また、ChatGPTは、そのコードの品質、およびコードから投げ出された実行時のエラーの性質といった問題に対する正しい解決策を生成することができると評価した。 ChatGPTコードが正常に実行されるが、その問題の解決に失敗した場合、我々は、ChatGPTコードがこの種の状況でどのように間違っているかを知るために、通過したテストケースのパターンを調べる。 ChatGPTがトレーニングに使われたデータのいくつかを直接記憶したかどうかを推測するため、我々はこの現象を調査するための実験を体系的に設計した。 基礎となる学習モデル (GPT-3.5 と GPT-4) の文脈から, メイントピック内の広範囲なサブトピック, 難易度が異なる問題について, 上記の質問すべてについて検討した。

The transformative influence of Large Language Models (LLMs) is profoundly reshaping the Artificial Intelligence (AI) technology domain. Notably, ChatGPT distinguishes itself within these models, demonstrating remarkable performance in multi-turn conversations and exhibiting code proficiency across an array of languages. In this paper, we carry out a comprehensive evaluation of ChatGPT's coding capabilities based on what is to date the largest catalog of coding challenges. Our focus is on the python programming language and problems centered on data structures and algorithms, two topics at the very foundations of Computer Science. We evaluate ChatGPT for its ability to generate correct solutions to the problems fed to it, its code quality, and nature of run-time errors thrown by its code. Where ChatGPT code successfully executes, but fails to solve the problem at hand, we look into patterns in the test cases passed in order to gain some insights into how wrong ChatGPT code is in these kinds of situations. To infer whether ChatGPT might have directly memorized some of the data that was used to train it, we methodically design an experiment to investigate this phenomena. Making comparisons with human performance whenever feasible, we investigate all the above questions from the context of both its underlying learning models (GPT-3.5 and GPT-4), on a vast array sub-topics within the main topics, and on problems having varying degrees of difficulty.
翻訳日:2024-05-29 12:18:33 公開日:2024-05-24
# 最大拡散強化学習

Maximum diffusion reinforcement learning ( http://arxiv.org/abs/2309.15293v5 )

ライセンス: Link先を確認
Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey, (参考訳) ロボットと動物はともに身体と感覚を通して世界を経験する。 彼らの体格は経験を制約し、空間と時間で連続的に展開することを保証する。 その結果, 内因性に相関が認められた。 相関は、データが独立して同一に分散されているという仮定に依存するため、機械学習の基本的な課題を生み出す。 エージェントのシーケンシャルな経験からデータが直接収集される強化学習では、この仮定の違反は避けられないことが多い。 本稿では,エルゴード過程の統計力学を利用してこの問題を克服する手法を導出する。 エージェントエクスペリエンスを関連づけることで,個別のタスク試行を通じて,継続的デプロイメントにおける単発学習を確実に実現する。 さらに,本手法は,よく知られた最大エントロピー手法を一般化し,一般的なベンチマークにおける最先端性能を頑健に上回ることを示す。 物理・学習・制御のネクサスにおける我々の研究成果は、具体化された強化学習エージェントにおける透明で信頼性の高い意思決定の基礎となる。

Robots and animals both experience the world through their bodies and senses. Their embodiment constrains their experiences, ensuring they unfold continuously in space and time. As a result, the experiences of embodied agents are intrinsically correlated. Correlations create fundamental challenges for machine learning, as most techniques rely on the assumption that data are independent and identically distributed. In reinforcement learning, where data are directly collected from an agent's sequential experiences, violations of this assumption are often unavoidable. Here, we derive a method that overcomes this issue by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables single-shot learning in continuous deployments over the course of individual task attempts. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control form a foundation for transparent and reliable decision-making in embodied reinforcement learning agents.
翻訳日:2024-05-29 11:58:46 公開日:2024-05-24
# 産業用オープンソースデータを用いた産業用システムの診断・診断のための機械学習手法の検討

Review of Machine Learning Approaches for Diagnostics and Prognostics of Industrial Systems Using Industrial Open Source Data ( http://arxiv.org/abs/2312.16810v2 )

ライセンス: Link先を確認
Hanqi Su, Jay Lee, (参考訳) 近年、PHM(Prognostics and Health Management)の分野では、機械学習(ML)の適用が大幅に急増している。 この成長にもかかわらず、この分野は、これらのMLテクニックを効果的に実装するための統一されたガイドラインと体系的なアプローチの欠如と、さまざまなシナリオにわたる産業用オープンソースデータに関する包括的な分析に悩まされている。 これらのギャップに対処するため、本稿では、PHM SocietyとIEEE Reliability Societyが2018年から2023年にかけて開催したPHMデータチャレンジコンペティションのオープンソースデータセットを用いて、産業システムの診断と予後に関する機械学習アプローチの包括的なレビューを行い、統一MLフレームワークを要約する。 本稿では,これらのコンペで示された問題,課題,方法論,進歩を体系的に分類・精査し,検出,診断,評価,予後に関する複雑な産業課題に取り組む上で,従来の機械学習と深層学習の両方が果たす役割を明らかにする。 さらに,データ関連問題とモデル関連問題の両方を強調し,これらの課題に対処するためのソリューションを要約することによって,PHMデータチャレンジコンペティションにおける共通課題を考察する。 最後に、今後の研究の鍵となるテーマと潜在的方向性を特定し、PHMにおけるMLのさらなる発展の機会と展望を提供する。

In the field of Prognostics and Health Management (PHM), recent years have witnessed a significant surge in the application of machine learning (ML). Despite this growth, the field grapples with a lack of unified guidelines and systematic approaches for effectively implementing these ML techniques and comprehensive analysis regarding industrial open-source data across varied scenarios. To address these gaps, this paper provides a comprehensive review of machine learning approaches for diagnostics and prognostics of industrial systems using open-source datasets from PHM Data Challenge Competitions held between 2018 and 2023 by PHM Society and IEEE Reliability Society and summarizes a unified ML framework. This review systematically categorizes and scrutinizes the problems, challenges, methodologies, and advancements demonstrated in these competitions, highlighting the evolving role of both conventional machine learning and deep learning in tackling complex industrial tasks related to detection, diagnosis, assessment, and prognosis. Moreover, this paper delves into the common challenges in PHM data challenge competitions by emphasizing both data-related and model-related issues and summarizes the solutions that have been employed to address these challenges. Finally, we identify key themes and potential directions for future research, providing opportunities and prospects for ML further development in PHM.
翻訳日:2024-05-29 08:15:32 公開日:2024-05-24
# 水平フェデレーションコンピュータビジョン

Horizontal Federated Computer Vision ( http://arxiv.org/abs/2401.00390v2 )

ライセンス: Link先を確認
Paul K. Mandal, Cole Leo, Connor Hurley, (参考訳) 現代の世界では、記録された視覚データの量は急速に増加している。 多くの場合、データは地理的に異なる場所に格納され、統合するには大量の時間と空間を必要とする。 データ統合を防ぐプライバシー保護の規制も時々ある。 本研究では、FRCNN(Ferated Faster R-CNN)とFCN(Ferated Fully Convolutional Network)を用いた画像分割を用いたオブジェクト検出と認識のためのフェデレーション実装を提案する。 FRCNNはCOCO2017データセットの5000例をトレーニングし、FCNはCamVidデータセットの全トレインセットでトレーニングしました。 提案するフェデレーションモデルでは,視覚データの量増加と分散化がもたらす課題に対処し,プライバシー規制に準拠した効率的なソリューションを提供する。

In the modern world, the amount of visual data recorded has been rapidly increasing. In many cases, data is stored in geographically distinct locations and thus requires a large amount of time and space to consolidate. Sometimes, there are also regulations for privacy protection which prevent data consolidation. In this work, we present federated implementations for object detection and recognition using a federated Faster R-CNN (FRCNN) and image segmentation using a federated Fully Convolutional Network (FCN). Our FRCNN was trained on 5000 examples of the COCO2017 dataset while our FCN was trained on the entire train set of the CamVid dataset. The proposed federated models address the challenges posed by the increasing volume and decentralized nature of visual data, offering efficient solutions in compliance with privacy regulations.
翻訳日:2024-05-29 08:15:32 公開日:2024-05-24
# 適応型強化学習エージェントに対する解釈可能な概念ボトルネック

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents ( http://arxiv.org/abs/2401.05821v3 )

ライセンス: Link先を確認
Quentin Delfosse, Sebastian Sztwiertnia, Mark Rothermel, Wolfgang Stammer, Kristian Kersting, (参考訳) ゴールミスアライメント、報酬の相違、困難なクレジット割り当ては、深層強化学習(RL)エージェントが最適な政策を学ぶのを難しくする多くの問題のごく一部にすぎない。 残念なことに、ディープニューラルネットワークのブラックボックスの性質は、モデルを検査し、準最適ポリシーを改訂するためのドメインエキスパートの関与を妨げる。 この目的のために、連続的な概念ボトルネック(CB)層を統合する*Successive Concept Bottleneck Agents*(SCoBots)を紹介します。 現在のCBモデルとは対照的に、SCoBotは概念を個々のオブジェクトの特性として表現するだけでなく、多くのRLタスクに不可欠なオブジェクト間の関係として表現する。 我々の実験結果は、SCoBotsの競争性能を示すだけでなく、ドメインの専門家が彼らの行動を理解し、規則化する可能性を示す。 とりわけ、SCoBotsは、象徴的なビデオゲームPongでこれまで知られていなかった誤認識の問題を識別し、解決できるようにしました。 全体として、SCoBotsはより人間らしいRLエージェントをもたらす。 私たちのコードはhttps://github.com/k4ntz/SCoBotsで利用可能です。

Goal misalignment, reward sparsity and difficult credit assignment are only a few of the many issues that make it difficult for deep reinforcement learning (RL) agents to learn optimal policies. Unfortunately, the black-box nature of deep neural networks impedes the inclusion of domain experts for inspecting the model and revising suboptimal policies. To this end, we introduce *Successive Concept Bottleneck Agents* (SCoBots), that integrate consecutive concept bottleneck (CB) layers. In contrast to current CB models, SCoBots do not just represent concepts as properties of individual objects, but also as relations between objects which is crucial for many RL tasks. Our experimental results provide evidence of SCoBots' competitive performances, but also of their potential for domain experts to understand and regularize their behavior. Among other things, SCoBots enabled us to identify a previously unknown misalignment problem in the iconic video game, Pong, and resolve it. Overall, SCoBots thus result in more human-aligned RL agents. Our code is available at https://github.com/k4ntz/SCoBots .
翻訳日:2024-05-29 08:04:22 公開日:2024-05-24
# 未来へメッセージを送る? ロックされた情報の分散的発見のためのブロックチェーンベースのタイムマシン

Send Message to the Future? Blockchain-based Time Machines for Decentralized Reveal of Locked Information ( http://arxiv.org/abs/2401.05947v2 )

ライセンス: Link先を確認
Zhuolun Li, Srijoni Majumdar, Evangelos Pournaras, (参考訳) 条件情報開示システムは、時間や場所などの特定の条件を満たすと、情報のリリースを自動化する。 本稿では,高度にセキュアで分散化されたシステムを明らかにする条件情報の理解,設計,適用のブレークスルーを紹介する。 新たな実用的なタイムドリリース暗号システムと検証可能な秘密共有スキームを設計することにより、ブロックチェーン上に「未来にメッセージを送信」する新たなデータ共有システムを、高精度な復号時間で考案する。 本稿では,この先駆的パラダイムの完全な評価ポートフォリオを提供し,解析結果,タマリン・プロバーにおけるロバスト性の評価,および世界中の実世界のオープンソース・プロトタイプの性能評価を行う。 実世界の選挙データを用いて、電子投票におけるこの革新的なシステムの適用性を実証し、公正な電子投票プロセスの確保と確保を図った。

Conditional information reveal systems automate the release of information upon meeting specific predefined conditions, such as time or location. This paper introduces a breakthrough in the understanding, design and application of conditional information reveal systems that are highly secure and decentralized. By designing a new practical timed-release cryptography system and a verifiable secret sharing scheme, a novel data sharing system is devised on the blockchain that `sends messages in the future' with highly accurate decryption times. This paper provides a complete evaluation portfolio of this pioneering paradigm, including analytical results, a validation of its robustness in the Tamarin Prover and a performance evaluation of a real-world, open-source system prototype deployed across the globe. Using real-world election data, we also demonstrate the applicability of this innovative system in e-voting, illustrating its capacity to secure and ensure fair electronic voting processes.
翻訳日:2024-05-29 08:04:22 公開日:2024-05-24
# 随伴法によるPDEデータの探索

Data-Driven Discovery of PDEs via the Adjoint Method ( http://arxiv.org/abs/2401.17177v2 )

ライセンス: Link先を確認
Mohsen Sadr, Tony Tohme, Kamal Youcef-Toumi, (参考訳) 本研究では, 与えられたデータに基づいて, 基礎となる支配的偏微分方程式(PDE)を探索する随伴型手法を提案する。 この考え方は、パラメータ化されたPDEを一般的な形式で考慮し、データからPDE解の誤差を最小限に抑えることを目的としたPDE制約最適化問題を定式化する。 変動計算を用いてラグランジュ乗算器(随伴方程式)の進化方程式を求め、与えられたPDEのパラメータに対する目的関数の勾配を直接的に計算する。 特に、線形、非線形、空間微分候補項を含むパラメータ化PDEの族を考察し、対応する随伴方程式をエレガントに導出する。 本稿では,PDEの形式を機械的精度まで同定する手法の有効性を示し,データからPDEの正確な発見を可能にする。 また,PDE-FIND (Rudy et al , 2017) と呼ばれる非線形ダイナミクス法の性能を,滑らかかつノイズの多いデータセットで比較した。 提案手法は前方/後方の解法に依存するが,各PDEパラメータに対するコスト関数の勾配解析式により,大規模データセットに対してPDE-FINDより優れる。

In this work, we present an adjoint-based method for discovering the underlying governing partial differential equations (PDEs) given data. The idea is to consider a parameterized PDE in a general form and formulate a PDE-constrained optimization problem aimed at minimizing the error of the PDE solution from data. Using variational calculus, we obtain an evolution equation for the Lagrange multipliers (adjoint equations) allowing us to compute the gradient of the objective function with respect to the parameters of PDEs given data in a straightforward manner. In particular, we consider a family of parameterized PDEs encompassing linear, nonlinear, and spatial derivative candidate terms, and elegantly derive the corresponding adjoint equations. We show the efficacy of the proposed approach in identifying the form of the PDE up to machine accuracy, enabling the accurate discovery of PDEs from data. We also compare its performance with the famous PDE Functional Identification of Nonlinear Dynamics method known as PDE-FIND (Rudy et al., 2017), on both smooth and noisy data sets. Even though the proposed adjoint method relies on forward/backward solvers, it outperforms PDE-FIND for large data sets thanks to the analytic expressions for gradients of the cost function with respect to each PDE parameter.
翻訳日:2024-05-29 07:54:38 公開日:2024-05-24
# 難解なギブズサンプリング

Diffusive Gibbs Sampling ( http://arxiv.org/abs/2402.03008v4 )

ライセンス: Link先を確認
Wenlin Chen, Mingtian Zhang, Brooks Paige, José Miguel Hernández-Lobato, David Barber, (参考訳) 従来のマルコフ・チェイン・モンテカルロ法(MCMC)のマルチモーダル分布に対する不適切な混合は、ベイズ推論や分子動力学のような実践的応用において重要な課題である。 そこで本稿では,ディフューシブギブズサンプリング(Diffusive Gibbs Sampling, DiGS)を提案する。 DiGSは拡散モデルにおける最近の発展を統合し、ガウスの畳み込みを利用して元の空間の孤立モードをブリッジする補助ノイズ分布を作成し、ギブスサンプリングを用いて両方の空間からサンプルを交互に描画する。 新規なメトロポリス・ウィスティン・ギブス法は, サンプリング工程における混合性を高めるために提案されている。 DiGSは、並列テンパリングのような最先端の手法よりも、マルチモーダル分布をサンプリングするためのより優れた混合特性を示し、ガウス、ベイズニューラルネットワーク、分子動力学の混合を含む様々なタスクにおける性能を大幅に改善した。

The inadequate mixing of conventional Markov Chain Monte Carlo (MCMC) methods for multi-modal distributions presents a significant challenge in practical applications such as Bayesian inference and molecular dynamics. Addressing this, we propose Diffusive Gibbs Sampling (DiGS), an innovative family of sampling methods designed for effective sampling from distributions characterized by distant and disconnected modes. DiGS integrates recent developments in diffusion models, leveraging Gaussian convolution to create an auxiliary noisy distribution that bridges isolated modes in the original space and applying Gibbs sampling to alternately draw samples from both spaces. A novel Metropolis-within-Gibbs scheme is proposed to enhance mixing in the denoising sampling step. DiGS exhibits a better mixing property for sampling multi-modal distributions than state-of-the-art methods such as parallel tempering, attaining substantially improved performance across various tasks, including mixtures of Gaussians, Bayesian neural networks and molecular dynamics.
翻訳日:2024-05-29 07:44:38 公開日:2024-05-24
# 大N配位におけるSU(3)格子型ヤンミルの理論の量子シミュレーション

Quantum Simulation of SU(3) Lattice Yang Mills Theory at Leading Order in Large N ( http://arxiv.org/abs/2402.10265v3 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Christian W. Bauer, (参考訳) QCDの力学の量子シミュレーションは、連続ゲージ場を量子コンピュータにマッピングする複雑さによって制限されてきた。 ゲージ不変ヒルベルト空間をプラケットの次数でパラメータ化することにより、ヒルベルト空間と相互作用がN_cの逆数でどのように拡張されるかを示す。 この展開の先頭の順序において、ハミルトニアンはヒルベルト空間の必要な大きさと関連する相互作用のタイプの両方において劇的に単純化される。 局所エネルギー状態の観点で結果のヒルベルト空間の切り離しを加えることで、u(3)ゲージ場をクォービットおよびクォートリット上で単純に表現できる明示的な構成を与える。 この定式化により、CNOT深さ113のibm_torino上の5x5および8x8格子上のSU(3)格子ゲージ理論のリアルタイムダイナミクスのシミュレーションが可能になる。

Quantum simulations of the dynamics of QCD have been limited by the complexities of mapping the continuous gauge fields onto quantum computers. By parametrizing the gauge invariant Hilbert space in terms of plaquette degrees of freedom, we show how the Hilbert space and interactions can be expanded in inverse powers of N_c. At leading order in this expansion, the Hamiltonian simplifies dramatically, both in the required size of the Hilbert space as well as the type of interactions involved. Adding a truncation of the resulting Hilbert space in terms of local energy states we give explicit constructions that allow simple representations of SU(3) gauge fields on qubits and qutrits. This formulation allows a simulation of the real time dynamics of a SU(3) lattice gauge theory on a 5x5 and 8x8 lattice on ibm_torino with a CNOT depth of 113.
翻訳日:2024-05-29 07:25:03 公開日:2024-05-24
# 偏見とボラティリティ:大規模言語モデルにおける社会的差別の測定のための統計的枠組み

Prejudice and Volatility: A Statistical Framework for Measuring Social Discrimination in Large Language Models ( http://arxiv.org/abs/2402.15481v4 )

ライセンス: Link先を確認
Y Liu, K Yang, Z Qi, X Liu, Y Yu, C Zhai, (参考訳) 本研究では,Large Language Models (LLMs) の生成における不整合が社会的不正を誘発し,さらに悪化させる可能性について検討した。 例えば、LLMは、様々な状況に応じて、同じキャリアに関する対照的なジェンダーステレオタイプをしばしば示し、LLMの行動パターンの有害な予測可能性を強調している。 LLM生成の変動を考慮した既存の識別評価を強化するために、トークン予測確率の観点からLLMのステレオタイプの確率分布を記述したLCMの評価のための行動指標を正確に定義するPrejudice-Volatility Framework (PVF) を定式化する。 具体的には、LLMの可能な適用コンテキストを近似するためにデータマイニング手法を採用し、対応する文脈化された社会的差別リスクを評価するために統計メトリクスを考案する。 さらに, LLMの集団識別リスクを, システムバイアスから生じる偏見リスクと, 世代不整合から生じるボラティリティリスクに数学的に分解する。 当初 LLM における差別評価を目的としていたが,提案したPVF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。 PVFを最も広く採用されている12のLSMに適用し、それらのリスクレベルを比較した。 私たちの発見は、こう示しています。 一 偏見リスクは、LCMにおける差別リスクの主な原因であり、これらのモデルに固有のバイアスが、ステレオタイプ的な出力につながることを示唆する。 二 ほとんどのLPMは、ほぼすべてのキャリアにおいて有意な前雄性ステレオタイプを呈する。 三 人間のフィードバックからの強化学習との整合は、偏見を減らして差別を低下させるが、ボラティリティを増大させる。 iv) LLMの差別リスクは、職業給与のような社会経済的要因と相関する。

This study investigates why and how inconsistency in the generation of Large Language Models (LLMs) might induce or exacerbate societal injustice. For instance, LLMs frequently exhibit contrasting gender stereotypes regarding the same career depending on varied contexts, highlighting the arguably harmful unpredictability of LLMs' behavioral patterns. To augment the existing discrimination assessment with the capability to account for variation in LLM generation, we formulate the Prejudice-Volatility Framework (PVF) that precisely defines behavioral metrics for assessing LLMs, which delineate the probability distribution of LLMs' stereotypes from the perspective of token prediction probability. Specifically, we employ a data-mining approach to approximate the possible applied contexts of LLMs and devise statistical metrics to evaluate the corresponding contextualized societal discrimination risk. Further, we mathematically dissect the aggregated discrimination risk of LLMs into prejudice risk, originating from their system bias, and volatility risk, stemming from their generation inconsistency. While initially intended for assessing discrimination in LLMs, our proposed PVF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply PVF to 12 most commonly adopted LLMs and compare their risk levels. Our findings reveal that: i) prejudice risk is the primary cause of discrimination risk in LLMs, indicating that inherent biases in these models lead to stereotypical outputs; ii) most LLMs exhibit significant pro-male stereotypes across nearly all careers; iii) alignment with Reinforcement Learning from Human Feedback lowers discrimination by reducing prejudice, but increases volatility; iv) discrimination risk in LLMs correlates with socio-economic factors like profession salaries.
翻訳日:2024-05-29 07:05:34 公開日:2024-05-24
# ビッグシーケンスモデリング問題としての集中ケア

Intensive Care as One Big Sequence Modeling Problem ( http://arxiv.org/abs/2402.17501v2 )

ライセンス: Link先を確認
Vadim Liventsev, Tobias Fritz, (参考訳) 医療における強化学習は、典型的には、敗血症予測や麻酔管理のような狭い自己完結したタスクに関係している。 しかし、従来の研究では、暗黙的な伝達学習能力により、タスク固有のアプローチよりも優れた汎用モデル(主な例はLarge Language Models)の可能性を実証している。 医療基盤モデルのトレーニングを可能にするとともに、最先端のトランスフォーマーアーキテクチャの能力を活用するために、患者と医療提供者の相互作用をイベントストリームとして表現し、診断や治療選択などのタスクをストリーム内の将来の事象の予測としてモデル化する、医療のパラダイム・アズ・シーケンス・モデリングを提案する。 このパラダイムを実験的に検討するために、MIMIC-IVデータセットから異種臨床記録を均一なイベントストリーム形式に翻訳し、ベースラインモデルをトレーニングし、その能力を探索するシーケンスモデリングベンチマークMIMIC-SEQを開発した。

Reinforcement Learning in Healthcare is typically concerned with narrow self-contained tasks such as sepsis prediction or anesthesia control. However, previous research has demonstrated the potential of generalist models (the prime example being Large Language Models) to outperform task-specific approaches due to their capability for implicit transfer learning. To enable training of foundation models for Healthcare as well as leverage the capabilities of state of the art Transformer architectures, we propose the paradigm of Healthcare as Sequence Modeling, in which interaction between the patient and the healthcare provider is represented as an event stream and tasks like diagnosis and treatment selection are modeled as prediction of future events in the stream. To explore this paradigm experimentally we develop MIMIC-SEQ, a sequence modeling benchmark derived by translating heterogenous clinical records from MIMIC-IV dataset into a uniform event stream format, train a baseline model and explore its capabilities.
翻訳日:2024-05-29 06:55:50 公開日:2024-05-24
# Peacock: アラビア語のマルチモーダルな大規模言語モデルとベンチマークのファミリー

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks ( http://arxiv.org/abs/2403.01031v2 )

ライセンス: Link先を確認
Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia, Abdelrahman Mohamed, Muhammad Abdul-Mageed, (参考訳) MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。 しかし、英語以外の言語では高品質なマルチモーダルリソースが不足しているため、MLLMの成功は英語ベースの設定に限られている。 これは他の言語に匹敵するモデルを開発する上で大きな課題となる。 この課題を軽減するために、私たちは、強力な視覚と言語能力を備えた、‘textit{Peacock}’と呼ばれるアラビア語のMLLMの包括的なファミリーを紹介します。 包括的質的および定量的分析を通じて、様々な視覚的推論課題におけるモデルの堅実な性能を実証し、その出現する方言の可能性を示す。 さらに、 ~\textit{Henna}は、アラビア文化に関連する側面でMLLMを評価するために特別に設計された新しいベンチマークである。

Multimodal large language models (MLLMs) have proven effective in a wide range of tasks requiring complex reasoning and linguistic comprehension. However, due to a lack of high-quality multimodal resources in languages other than English, success of MLLMs remains relatively limited to English-based settings. This poses significant challenges in developing comparable models for other languages, including even those with large speaker populations such as Arabic. To alleviate this challenge, we introduce a comprehensive family of Arabic MLLMs, dubbed \textit{Peacock}, with strong vision and language capabilities. Through comprehensive qualitative and quantitative analysis, we demonstrate the solid performance of our models on various visual reasoning tasks and further show their emerging dialectal potential. Additionally, we introduce ~\textit{Henna}, a new benchmark specifically designed for assessing MLLMs on aspects related to Arabic culture, setting the first stone for culturally-aware Arabic MLLMs.The GitHub repository for the \textit{Peacock} project is available at \url{https://github.com/UBC-NLP/peacock}.
翻訳日:2024-05-29 06:55:50 公開日:2024-05-24
# 臨界窓-拡散モデルにおける特徴出現のための非漸近理論

Critical windows: non-asymptotic theory for feature emergence in diffusion models ( http://arxiv.org/abs/2403.01633v2 )

ライセンス: Link先を確認
Marvin Li, Sitan Chen, (参考訳) 我々は,重要なウィンドウと呼ぶ画像生成のための拡散モデルの興味深い性質を理解するための理論を開発する。 実験的に、最終像の特定の特徴、例えば画像クラスまたは背景色(Ho et al , 2020b; Meng et al , 2022; Choi et al , 2022; Raya & Ambrogioni, 2023; Georgiev et al , 2023; Sclocchi et al , 2024; Biroli et al , 2024)が出現する時間間隔が狭いことが観察されている。 これは、生成物の性質を軌道の小さな部分へ局所化できることを意味するため、解釈可能性に有利であるが、拡散の連続的な性質に反するように見える。 本稿では,これらのウィンドウを解析するための公式な枠組みを提案し,強対数凹凸密度の混合から得られるデータに対して,グループ間およびグループ間分離の特定の尺度によって,これらのウィンドウを証明可能な有界化が可能であることを示す。 また、よく条件付けられたガウス混合のような具体的な例としてこれらの境界をインスタンス化する。 最後に、我々の境界を用いて拡散モデルの厳密な解釈を階層的なサンプルとして与え、段階的に離散的に出力特徴を「デシド」する。 我々は合成実験で限界を検証した。 さらに、安定拡散に関する予備実験では、クリティカルウィンドウが現実世界の拡散モデルにおける公正性とプライバシ違反の診断に有用なツールである可能性が示唆されている。

We develop theory to understand an intriguing property of diffusion models for image generation that we term critical windows. Empirically, it has been observed that there are narrow time intervals in sampling during which particular features of the final image emerge, e.g. the image class or background color (Ho et al., 2020b; Meng et al., 2022; Choi et al., 2022; Raya & Ambrogioni, 2023; Georgiev et al., 2023; Sclocchi et al., 2024; Biroli et al., 2024). While this is advantageous for interpretability as it implies one can localize properties of the generation to a small segment of the trajectory, it seems at odds with the continuous nature of the diffusion. We propose a formal framework for studying these windows and show that for data coming from a mixture of strongly log-concave densities, these windows can be provably bounded in terms of certain measures of inter- and intra-group separation. We also instantiate these bounds for concrete examples like well-conditioned Gaussian mixtures. Finally, we use our bounds to give a rigorous interpretation of diffusion models as hierarchical samplers that progressively "decide" output features over a discrete sequence of times. We validate our bounds with synthetic experiments. Additionally, preliminary experiments on Stable Diffusion suggest critical windows may serve as a useful tool for diagnosing fairness and privacy violations in real-world diffusion models.
翻訳日:2024-05-29 06:45:59 公開日:2024-05-24
# ガンバ:マムバとマーリー・ガウシアン・スプレイティング シングルビュー3D再構築

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction ( http://arxiv.org/abs/2403.18795v3 )

ライセンス: Link先を確認
Qiuhong Shen, Zike Wu, Xuanyu Yi, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang, (参考訳) 1枚の画像から1ミリ秒の速度で3Dアセットを効率的に再構築するという課題に挑戦する。 SDS(Score Distillation Sampling)とニューラル3D表現をベースとして,既存の3D画像再構成手法が提案されている。 有望な結果にもかかわらず、これらのアプローチは、長い最適化とかなりのメモリ消費のために、実用的な制限に直面している。 本研究では,(1) 効率的なバックボーン設計: 3次元ガウススプラッティング(3DGS) 再構成を,トークン長の線形拡張性のある逐次予測として導入することにより,相当数のガウスアンを収容する,(2) ロバスト・ガウスアン制約: マルチビューマスクからのラジアルマスク制約を導出し,トレーニング中の3次元ポイントクラウドのウォームアップを不要にする,という2つの主要な洞察を具体化して,エンド・ツー・エンドの3次元再構築モデルであるガンバを紹介した。 我々はObjaverseでガンバを訓練し、GSOデータセット上で既存の最適化ベースおよびフィードフォワード3D再構成アプローチと比較した。 Gambaは1つのNVIDIA A100 GPU上で0.05秒以内に再構築を完了します。 プロジェクトのページはhttps://florinshen.github.io/gamba-projectでご覧ください。

We tackle the challenge of efficiently reconstructing a 3D asset from a single image at millisecond speed. Existing methods for single-image 3D reconstruction are primarily based on Score Distillation Sampling (SDS) with Neural 3D representations. Despite promising results, these approaches encounter practical limitations due to lengthy optimizations and significant memory consumption. In this work, we introduce Gamba, an end-to-end 3D reconstruction model from a single-view image, emphasizing two main insights: (1) Efficient Backbone Design: introducing a Mamba-based GambaFormer network to model 3D Gaussian Splatting (3DGS) reconstruction as sequential prediction with linear scalability of token length, thereby accommodating a substantial number of Gaussians; (2) Robust Gaussian Constraints: deriving radial mask constraints from multi-view masks to eliminate the need for warmup supervision of 3D point clouds in training. We trained Gamba on Objaverse and assessed it against existing optimization-based and feed-forward 3D reconstruction approaches on the GSO Dataset, among which Gamba is the only end-to-end trained single-view reconstruction model with 3DGS. Experimental results demonstrate its competitive generation capabilities both qualitatively and quantitatively and highlight its remarkable speed: Gamba completes reconstruction within 0.05 seconds on a single NVIDIA A100 GPU, which is about $1,000\times$ faster than optimization-based methods. Please see our project page at https://florinshen.github.io/gamba-project.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-24
# トラップイオン量子プロセッサのための完全統合2量子ビット演算レジスタ上の任意量子回路

Arbitrary quantum circuits on a fully integrated two-qubit computation register for a trapped-ion quantum processor ( http://arxiv.org/abs/2403.19809v2 )

ライセンス: Link先を確認
N. Pulido-Mateo, H. Mendpara, M. Duwe, T. Dubielzig, G. Zarantonello, L. Krinner, C. Ospelkaus, (参考訳) 本稿では,量子電荷結合デバイスアーキテクチャに基づくトラップイオン量子コンピュータの計算モジュールとして機能する,普遍的な2量子レジスタ上の任意の回路の実装について報告する。 量子ゲートの普遍集合は、チップ集積マイクロ波アドレスのみを用いて、$^9$Be$^+$イオンの2イオンクーロン結晶上に実装される。 マイクロ波マイクロモーションサイドバンド遷移を用いて個別イオンアドレッシングを行い、レジスタ内のクロストークのアドレッシングにおける上限値を求める。 任意の2量子演算は、サイクルベンチマークプロトコルを用いて特徴付けられる。

We report on the implementation of arbitrary circuits on a universal two-qubit register that can act as the computational module in a trapped-ion quantum computer based on the quantum charge-coupled device architecture. A universal set of quantum gates is implemented on a two-ion Coulomb crystal of $^9$Be$^+$ ions using only chip-integrated microwave addressing. Individual-ion addressing is implemented using microwave micromotion sideband transitions; we obtain upper limits on addressing cross-talk in the register. Arbitrary two-qubit operations are characterized using the cycle benchmarking protocol.
翻訳日:2024-05-29 06:16:48 公開日:2024-05-24
# Anchoral: 大規模かつ不均衡なデータセットのための計算効率の良いアクティブラーニング

AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets ( http://arxiv.org/abs/2404.05623v2 )

ライセンス: Link先を確認
Pietro Lesci, Andreas Vlachos, (参考訳) 不均衡な分類タスクのアクティブラーニングは、マイノリティクラスが自然に稀に発生するため、困難である。 したがって、乱れのない大量のデータを集めることは、マイノリティなインスタンスをキャプチャするのに不可欠である。 標準的なプールベースのアクティブラーニングは、大きなプールでは計算コストが高く、初期決定境界を過度に適合させることで、入力空間の探索に失敗し、少数インスタンスを見つけることで、しばしば低い精度に達する。 これらの問題に対処するため、AnchorALを提案する。 各イテレーションで、Anchoralはラベル付けされたセットまたはアンカーからクラス固有のインスタンスを選択し、プールから最も類似しないインスタンスを検索する。 この結果のサブプールは、アクティブな学習に使用される。 小さな固定サイズのサブプールAnchorALを使用することで、任意のアクティブな学習戦略を大規模プールに拡張することができる。 各イテレーションで異なるアンカーを動的に選択することで、クラスバランスが促進され、初期決定境界の過度な適合が防止され、少数インスタンスの新しいクラスタの発見が促進される。 さまざまな分類タスク、アクティブラーニング戦略、モデルアーキテクチャの実験において、AnchorALは (i)高速で、実行時間を数時間から数分に短縮することが多い。 (二)より高性能な模型を運転する。 (iii)競合するメソッドよりもバランスのとれたデータセットを返す。

Active learning for imbalanced classification tasks is challenging as the minority classes naturally occur rarely. Gathering a large pool of unlabelled data is thus essential to capture minority instances. Standard pool-based active learning is computationally expensive on large pools and often reaches low accuracy by overfitting the initial decision boundary, thus failing to explore the input space and find minority instances. To address these issues we propose AnchorAL. At each iteration, AnchorAL chooses class-specific instances from the labelled set, or anchors, and retrieves the most similar unlabelled instances from the pool. This resulting subpool is then used for active learning. Using a small, fixed-sized subpool AnchorAL allows scaling any active learning strategy to large pools. By dynamically selecting different anchors at each iteration it promotes class balance and prevents overfitting the initial decision boundary, thus promoting the discovery of new clusters of minority instances. In experiments across different classification tasks, active learning strategies, and model architectures AnchorAL is (i) faster, often reducing runtime from hours to minutes, (ii) trains more performant models, (iii) and returns more balanced datasets than competing methods.
翻訳日:2024-05-29 06:07:03 公開日:2024-05-24
# テキストによるベクトルグラフィクスの推論

Text-Based Reasoning About Vector Graphics ( http://arxiv.org/abs/2404.06479v3 )

ライセンス: Link先を確認
Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji, (参考訳) 大規模なマルチモーダルモデルは広いビジョン言語ベンチマークで優れているが、線長の比較や単純な迷路の解法など、低レベルの視覚的詳細を正確に認識するタスクに苦慮することが多い。 特に、この障害モードは、ベクトルグラフィックスに関する質問応答タスクで持続する。 この課題に対処するために,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。 VDLMは、より正確なビジュアル記述のために、スケーラブルベクトルグラフィックス(SVG)を活用し、最初にエンコーディングのために、既製のラスター・ツー・SVGアルゴリズムを使用する。 既存の言語モデルはゼロショット設定では生のSVGを理解できないため、VDLMは新しく導入された中間記号表現であるPrimal Visual Description (PVD)を通じて、SVGを事前訓練された言語モデルでブリッジする。 PVDはタスクに依存しず、全てのベクトルグラフィックスで普遍的な視覚的プリミティブを表す。 手続き的に生成された (SVG, PVD) ペアで学習でき、複雑な推論タスクへの一般化に LLM を直接使用することができる。 画像をテキストベース表現にキャストすることで、言語モデルのパワーを活用して、SVGからビジュアルプリミティブへのアライメントを学び、目に見えない質問応答タスクに一般化することができる。 実験結果から,VDLMはGPT-4Vのような最先端のLMMと比較して,低レベルのマルチモーダル認識やベクトルグラフィックスの推論タスクにおいて,より強力なゼロショット性能を実現することが示された。 また,VDLMの性能に関する広範囲な分析を行い,このフレームワークは,その不整合認識と推論プロセスにより,より優れた解釈性を提供することを示した。 プロジェクトページ: https://mikewangwzhl.github.io/VDLM/

While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics -- images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM's performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
翻訳日:2024-05-29 06:07:03 公開日:2024-05-24
# Tripod: 絡み合った表現学習のための3つの相補的帰納的ビアーゼ

Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning ( http://arxiv.org/abs/2404.10282v2 )

ライセンス: Link先を確認
Kyle Hsu, Jubayer Ibn Hamid, Kaylee Burns, Chelsea Finn, Jiajun Wu, (参考訳) 帰納バイアスは、未特定解集合を狭めるために、非絡み合い表現学習において重要である。 本研究では、量子化によるグリッドのような潜伏空間へのデータ圧縮、潜伏者間の集団独立、他の潜伏者によるデータ生成の決定方法に対する潜伏者の機能的影響の最小化という、3つの選択的帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。 原則として、これらの帰納バイアスは深い相補的であり、最も直接的に潜在空間、エンコーダ、デコーダの特性を規定する。 しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。 そこで本研究では,学習問題を単純化する3つの手法を適応し,不変性を安定化した鍵正規化項を付与し,インセンティブをクアシュデジェネレーションする手法を提案する。 結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。 また、Tripodはその単純さによって大幅に改善され、最高のパフォーマンスには3つの"レッグ"がすべて必要であることも確認しています。

Inductive biases are crucial in disentangled representation learning for narrowing down an underspecified solution set. In this work, we consider endowing a neural network autoencoder with three select inductive biases from the literature: data compression into a grid-like latent space via quantization, collective independence amongst latents, and minimal functional influence of any latent on how other latents determine data generation. In principle, these inductive biases are deeply complementary: they most directly specify properties of the latent space, encoder, and decoder, respectively. In practice, however, naively combining existing techniques instantiating these inductive biases fails to yield significant benefits. To address this, we propose adaptations to the three techniques that simplify the learning problem, equip key regularization terms with stabilizing invariances, and quash degenerate incentives. The resulting model, Tripod, achieves state-of-the-art results on a suite of four image disentanglement benchmarks. We also verify that Tripod significantly improves upon its naive incarnation and that all three of its "legs" are necessary for best performance.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-24
# サイクル体験リプレイによるLTL制約ポリシ最適化

LTL-Constrained Policy Optimization with Cycle Experience Replay ( http://arxiv.org/abs/2404.11578v2 )

ライセンス: Link先を確認
Ameesh Shah, Cameron Voloshin, Chenxi Yang, Abhinav Verma, Swarat Chaudhuri, Sanjit A. Seshia, (参考訳) 線形時間論理(LTL)は、強化学習エージェントの動作を制限するための正確な手段を提供する。 しかし、多くのタスクにおいて、LTLはタスク仕様には不十分であり、LTL制約下でスカラー報酬を最適化することを目的としたLTL制約付きポリシー最適化が必要である。 この制約付き問題の以前の方法は有限状態空間に制限される。 本稿では,この問題に対する報酬形成アプローチであるCyclER(CyclER)を紹介し,連続状態とアクション空間と関数近似の利用を可能にする。 CyclERは、制約の構造を用いて、LTL制約に準拠する部分的行動を促すことによって満足度へのポリシーを導出する。 その際、LTL満足度の希薄な性質から生じる最適化の課題に対処する。 3つの連続制御領域におけるCycleerの評価を行った。 これらのタスクにおいて、Cycleerは、パフォーマンスとLTL満足度ポリシーを見つけるために、既存の報酬形成手法より優れている。

Linear Temporal Logic (LTL) offers a precise means for constraining the behavior of reinforcement learning agents. However, in many tasks, LTL is insufficient for task specification; LTL-constrained policy optimization, where the goal is to optimize a scalar reward under LTL constraints, is needed. Prior methods for this constrained problem are restricted to finite state spaces. In this work, we present Cycle Experience Replay (CyclER), a reward-shaping approach to this problem that allows continuous state and action spaces and the use of function approximations. CyclER guides a policy towards satisfaction by encouraging partial behaviors compliant with the LTL constraint, using the structure of the constraint. In doing so, it addresses the optimization challenges stemming from the sparse nature of LTL satisfaction. We evaluate CyclER in three continuous control domains. On these tasks, CyclER outperforms existing reward-shaping methods at finding performant and LTL-satisfying policies.
翻訳日:2024-05-29 05:57:17 公開日:2024-05-24
# オンデマンドマルチホットスポット熱管理のための機械学習支援熱電冷却

Machine Learning-Assisted Thermoelectric Cooling for On-Demand Multi-Hotspot Thermal Management ( http://arxiv.org/abs/2404.13441v2 )

ライセンス: Link先を確認
Jiajian Luo, Jaeho Lee, (参考訳) 熱電冷却器 (TEC) は、高度電子システムにおける局所ホットスポットの直接冷却とアクティブな熱管理のための有望なソリューションを提供する。 しかし、TECは空間冷却、暖房、電力消費の間で大きなトレードオフをもたらしている。 TECの最適化には広範なシミュレーションが必要であり、空間的および時間的変動の下で複数のホットスポットを持つ実際のシステムを管理するには実用的ではない。 本研究では,全領域にわたるリアルタイムマルチホットスポット条件に基づいてTECユニットを個別に制御することにより,大域的最適温度を実現することのできる,熱電冷凍機の機械学習支援最適化アルゴリズムを提案する。 我々は、インセプションモジュールとマルチタスク学習(MTL)アプローチを組み合わせた畳み込みニューラルネットワーク(CNN)を訓練し、システムの基礎となる熱-電気物理の結合を理解し、TECと無関係の温度と消費電力の両方の正確な予測を行う。 受動的熱勾配, ペルチェ効果, ジュール効果の複雑な相互作用により, 局所最適TEC制御は空間温度トレードオフを経験し, 大域的最適解には至らない。 この問題に対処するために,機械学習モデルを用いたバックトラックに基づく最適化アルゴリズムを開発し,グローバルな最適解を得るための可能なTEC割り当てを反復する。 NHSホットスポットを持つ任意のm by n行列(n, m <= 10, 0<= NHS <= 20)に対して、このアルゴリズムは52.4%のピーク温度低減とそれに対応するTECアレイ制御を平均1.64秒で提供し、舞台裏の数十の温度予測を繰り返すことができる。 これは、約27分を要する従来のFEM戦略と比較して3桁以上のスピードアップを示している。

Thermoelectric coolers (TECs) offer a promising solution for direct cooling of local hotspots and active thermal management in advanced electronic systems. However, TECs present significant trade-offs among spatial cooling, heating and power consumption. The optimization of TECs requires extensive simulations, which are impractical for managing actual systems with multiple hotspots under spatial and temporal variations. In this study, we present a novel machine learning-assisted optimization algorithm for thermoelectric coolers that can achieve global optimal temperature by individually controlling TEC units based on real-time multi-hotspot conditions across the entire domain. We train a convolutional neural network (CNN) with a combination of the Inception module and multi-task learning (MTL) approach to comprehend the coupled thermal-electrical physics underlying the system and attain accurate predictions for both temperature and power consumption with and without TECs. Due to the intricate interaction among passive thermal gradient, Peltier effect and Joule effect, a local optimal TEC control experiences spatial temperature trade-off which may not lead to a global optimal solution. To address this issue, we develop a backtracking-based optimization algorithm using the machine learning model to iterate all possible TEC assignments for attaining global optimal solutions. For any m by n matrix with NHS hotspots (n, m <= 10, 0<= NHS <= 20), our algorithm is capable of providing 52.4% peak temperature reduction and its corresponding TEC array control within an average of 1.64 seconds while iterating through tens of temperature predictions behind-the-scenes. This represents a speed increase of over three orders of magnitude compared to traditional FEM strategies which take approximately 27 minutes.
翻訳日:2024-05-29 05:47:26 公開日:2024-05-24
# 明示的なリプシッツ値推定は摂動に対する政策ロバスト性を高める

Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation ( http://arxiv.org/abs/2404.13879v2 )

ライセンス: Link先を確認
Xulin Chen, Ruipeng Liu, Garrett E. Katz, (参考訳) ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、実世界のモデリングエラー、測定エラー、予測不可能な摂動により、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。 ロバストなRL法は、トレーニング中に最悪の値関数を近似することでこの問題に対処するが、それらは、値関数の近似誤差と、トレーニングが完了する前の勾配に敏感である。 本稿では,リプシッツ正則化が近似値関数勾配の条件付けに役立ち,訓練後のロバスト性の向上につながると仮定する。 リプシッツ正則化とFast Gradient Sign Methodを併用して,対向摂動下での値関数の評価において近似誤差を低減することにより,この仮説を検証した。 私たちの経験的な結果は、多くの継続的制御ベンチマークの事前作業よりも、このアプローチの利点を実証しています。

In robotic control tasks, policies trained by reinforcement learning (RL) in simulation often experience a performance drop when deployed on physical hardware, due to modeling error, measurement error, and unpredictable perturbations in the real world. Robust RL methods account for this issue by approximating a worst-case value function during training, but they can be sensitive to approximation errors in the value function and its gradient before training is complete. In this paper, we hypothesize that Lipschitz regularization can help condition the approximated value function gradients, leading to improved robustness after training. We test this hypothesis by combining Lipschitz regularization with an application of Fast Gradient Sign Method to reduce approximation errors when evaluating the value function under adversarial perturbations. Our empirical results demonstrate the benefits of this approach over prior work on a number of continuous control benchmarks.
翻訳日:2024-05-29 05:47:26 公開日:2024-05-24
# Kan: Kolmogorov-Arnold Networks

KAN: Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2404.19756v3 )

ライセンス: Link先を確認
Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark, (参考訳) コルモゴロフ・アルノルド表現定理に着想を得て、多層受容器(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)を提案する。 MLPはノード(ニューロン)上で一定の活性化関数を持つが、Kanはエッジ(重み)上で学習可能な活性化関数を持つ。 カンは線形重みを全く持たず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。 この一見単純な変化により、KANSA は精度と解釈可能性において MLP を上回ります。 正確性のために、より小さなkanは、データフィッティングやPDE解決において、はるかに大きなMLPよりも同等またはより良い精度を達成することができる。 理論上、実証上、カンはMLPよりも高速なニューラルスケーリング法則を持っている。 解釈可能性のために、KANSAは直感的に視覚化でき、人間のユーザと簡単に対話できる。 数学と物理学の2つの例を通して、カンは科学者が数学的および物理的法則を発見(再発見)するのに有用な協力者であることが示されている。 要約すると、KansはMLPの代替として有望であり、MDPに大きく依存する今日のディープラーニングモデルをさらに改善する機会を開く。

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
翻訳日:2024-05-29 05:37:42 公開日:2024-05-24
# マルコフ分布下におけるSHAP説明のトラクタビリティについて

On the Tractability of SHAP Explanations under Markovian Distributions ( http://arxiv.org/abs/2405.02936v2 )

ライセンス: Link先を確認
Reda Marzouk, Colin de La Higuera, (参考訳) そのしっかりとした理論的な基盤のおかげで、SHAPフレームワークは間違いなくMLモデルの局所的な説明可能性のための最も広く使われているフレームワークの1つである。 その人気にもかかわらず、その正確な計算は非常に困難であることが知られ、様々な構成においてNP-Hardであることが証明されている。 近年の研究では、決定木、無作為林、ブール回路のクラスを含む、特定のモデルファミリーに対するSHAPスコアの計算に関して、肯定的な複雑性の結果が明らかにされている。 しかし、これらの肯定的な結果は、機能独立の仮定を暗示しており、現実のシナリオでは多くの場合、単純である。 本稿では,この仮定を緩和し,マルコフ視点を導入することで,SHAPスコアの計算複雑性を考察する。 マルコフの仮定では、重み付きオートマトン、解離DNF、決定木に対するSHAPスコアの計算は多項式時間で行うことができ、特徴独立仮定の限界を超越するSHAPスコア計算の問題に対して、最初の正の複雑性結果を提供する。

Thanks to its solid theoretical foundation, the SHAP framework is arguably one the most widely utilized frameworks for local explainability of ML models. Despite its popularity, its exact computation is known to be very challenging, proven to be NP-Hard in various configurations. Recent works have unveiled positive complexity results regarding the computation of the SHAP score for specific model families, encompassing decision trees, random forests, and some classes of boolean circuits. Yet, all these positive results hinge on the assumption of feature independence, often simplistic in real-world scenarios. In this article, we investigate the computational complexity of the SHAP score by relaxing this assumption and introducing a Markovian perspective. We show that, under the Markovian assumption, computing the SHAP score for the class of Weighted automata, Disjoint DNFs and Decision Trees can be performed in polynomial time, offering a first positive complexity result for the problem of SHAP score computation that transcends the limitations of the feature independence assumption.
翻訳日:2024-05-29 05:37:42 公開日:2024-05-24
# 期待最大化に基づくマルチモデル3次元レジストレーションの理論解析

Theoretical Analysis for Expectation-Maximization-Based Multi-Model 3D Registration ( http://arxiv.org/abs/2405.08991v2 )

ライセンス: Link先を確認
David Jin, Harry Zhang, Kai Chang, (参考訳) 我々は,最近提案された予測最大化に基づくアルゴリズムの詳細な理論的解析を行い,多モデル3D登録という3次元登録問題のバリエーションを解決する。 優れた経験結果を示したにもかかわらず、EMアプローチが基底真理に収束する条件を理論的には正当化しなかった。 本稿では,このような条件を定め,このギャップを埋めることを目的としている。 特に、解析は、コース全体を通して様々なインスタンスで開発され、適用される確率的尾境界の使用を中心に展開される。 このプロジェクトで研究された問題は、テールバウンドが確率論的方法でアルゴリズムの理解を促進するのに役立つコースとは異なる別の例である。 3Dレジストレーションに関する自己完結型背景資料を提供する

We perform detailed theoretical analysis of an expectation-maximization-based algorithm recently proposed in for solving a variation of the 3D registration problem, named multi-model 3D registration. Despite having shown superior empirical results, did not theoretically justify the conditions under which the EM approach converges to the ground truth. In this project, we aim to close this gap by establishing such conditions. In particular, the analysis revolves around the usage of probabilistic tail bounds that are developed and applied in various instances throughout the course. The problem studied in this project stands as another example, different from those seen in the course, in which tail-bounds help advance our algorithmic understanding in a probabilistic way. We provide self-contained background materials on 3D Registration
翻訳日:2024-05-29 05:27:58 公開日:2024-05-24
# AI能力のオープンソースアセスメント:AI分析ツールの普及、競合モデルのレプリケーション、Zhousidunデータセット

Open-Source Assessments of AI Capabilities: The Proliferation of AI Analysis Tools, Replicating Competitor Models, and the Zhousidun Dataset ( http://arxiv.org/abs/2405.12167v3 )

ライセンス: Link先を確認
Ritwik Gupta, Leah Walker, Eli Glickman, Raine Koizumi, Sarthak Bhatnagar, Andrew W. Reddie, (参考訳) 人工知能(AI)の軍事能力への統合は、世界中の主要な軍事力の標準となっている。 これらのAIモデルがどのように機能するかを理解することは、戦略的アドバンテージの維持とセキュリティの確保に不可欠である。 本稿は、アメリカと連合国の駆逐艦に重要な部品を徹底的にラベル付けした中国指向のデータセットであるZhousidunデータセットの詳細な検証を通して、軍事AIモデルを分析するためのオープンソース手法を実証する。 このデータセット上で、最先端のコンピュータビジョンモデルのレプリケーションを実演することで、オープンソースツールをどのように活用して、重要な軍事AI機能を評価し、理解することができるかを説明します。 この方法論は、AI対応軍事能力の性能と可能性を評価するための堅牢なフレームワークを提供し、戦略評価の正確性と信頼性を高める。

The integration of artificial intelligence (AI) into military capabilities has become a norm for major military power across the globe. Understanding how these AI models operate is essential for maintaining strategic advantages and ensuring security. This paper demonstrates an open-source methodology for analyzing military AI models through a detailed examination of the Zhousidun dataset, a Chinese-originated dataset that exhaustively labels critical components on American and Allied destroyers. By demonstrating the replication of a state-of-the-art computer vision model on this dataset, we illustrate how open-source tools can be leveraged to assess and understand key military AI capabilities. This methodology offers a robust framework for evaluating the performance and potential of AI-enabled military capabilities, thus enhancing the accuracy and reliability of strategic assessments.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-24
# Hypergraph: 統一かつ統一された定義と化学ハイパーグラフへの応用

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph ( http://arxiv.org/abs/2405.12235v3 )

ライセンス: Link先を確認
Daniel T. Chang, (参考訳) 従来のハイパーグラフの定義には、(1)有向ハイパーグラフの標準的な定義がなく、(2)有向ハイパーグラフの正式な定義がない、という2つの大きな問題がある。 これらの問題を解決するために, ハイパーグラフの概念を統一するハイパーグラフの新たな定義を提案し, ノードとハイパーエッジの高次相関を表す単一の構造としてハイパーエッジを用いる場合の統一性について述べる。 具体的には、ハイパーエッジを単純なハイパーエッジ、ネストハイパーエッジ、あるいは有向ハイパーエッジと定義する。 この新しい定義では、ハイパーグラフはネストするハイパーエッジ(s)がある場合はネストされ、指示されたハイパーエッジ(s)がある場合は方向付けされる。 そうでなければ、ハイパーグラフは単純なハイパーグラフである。 この新定義の統一性とパワーは、可視化とともに、一般および化学系における(階層的な)高次相関を表現するためのハイパーグラフの使用を促進すべきである。 グラフは、分子構造と3次元分子幾何学の機械学習のための数学的構造として広く利用されている。 しかし、グラフには大きな制限があり、ノード間のペアワイズ相関しか表現できない。 Hypergraphはノード間の高次相関でグラフを拡張する。 この拡張は化学系の機械学習に重要であるか、不可欠である。 分子にとって、これは多中心結合と分子サブ構造を直接的かつ明示的に表現できるため重要である。 化学反応では、ほとんどの化学反応は複数の参加者を含むため、これは必須である。 本稿では, 化学系を表現するための単一の数学的構造として, 単純, ネスト, 指向のハイパーエッジを持つマルチレベルハイパーグラフであるケミカルハイパーグラフを提案する。 化学ハイパーグラフの新しい定義を化学ハイパーグラフに適用し,分子ハイパーグラフと化学反応ハイパーグラフを簡易化した。

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-24
# 石油と水 : 科学分野におけるAIの拡散

Oil & Water? Diffusion of AI Within and Across Scientific Fields ( http://arxiv.org/abs/2405.15828v1 )

ライセンス: Link先を確認
Eamon Duede, William Dolan, André Bauer, Ian Foster, Karim Lakhani, (参考訳) この研究は、1985年から2022年までのAIとの学術的関わりの変化を調べることによって、20の科学分野にわたる約8000万の研究出版物において、人工知能(AI)の普遍性が増大しているという主張を実証的に調査する。 我々は指数的な成長を観察し、AIによる出版物は全分野にわたって約13倍(13倍)増加し、ニッチからメインストリームへの劇的なシフトを示唆している。 さらに、各分野の出版施設におけるAI活用出版物の配布に関する実証的研究を行い、学術分野におけるAI活用の拡充を図った。 このエンゲージメントの拡大は、あらゆる分野におけるより深い学際的な統合に向けた動きを示唆する一方で、増大するユビキティは、AIによる研究とより伝統的な学際的な研究の間の意味的な緊張と関係している。 数千万のドキュメント埋め込みの分析を通じて、フィールド内およびフィールド内におけるAIとAIを含まない研究の複雑な相互作用を観察し、ユビキティの増加は油と水の現象である、と示唆する。

This study empirically investigates claims of the increasing ubiquity of artificial intelligence (AI) within roughly 80 million research publications across 20 diverse scientific fields, by examining the change in scholarly engagement with AI from 1985 through 2022. We observe exponential growth, with AI-engaged publications increasing approximately thirteenfold (13x) across all fields, suggesting a dramatic shift from niche to mainstream. Moreover, we provide the first empirical examination of the distribution of AI-engaged publications across publication venues within individual fields, with results that reveal a broadening of AI engagement within disciplines. While this broadening engagement suggests a move toward greater disciplinary integration in every field, increased ubiquity is associated with a semantic tension between AI-engaged research and more traditional disciplinary research. Through an analysis of tens of millions of document embeddings, we observe a complex interplay between AI-engaged and non-AI-engaged research within and across fields, suggesting that increasing ubiquity is something of an oil-and-water phenomenon -- AI-engaged work is spreading out over fields, but not mixing well with non-AI-engaged work.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# 深層強化学習のための時空間意味論に基づく抽象化

Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning ( http://arxiv.org/abs/2405.15829v1 )

ライセンス: Link先を確認
Jihui Nie, Dehui Du, Jiangnan Zhao, (参考訳) Intelligent Cyber-Physical Systems (ICPS)は、インテリジェントなコンポーネント、特に畳み込みニューラルネットワーク(CNN)とDeep Reinforcement Learning (DRL)を組み込んだCPS(Cyber-Physical System)の特殊な形態を表現し、知覚、意思決定、制御を含む多面的なタスクを実行する。 意思決定におけるDRLの利用は環境との動的相互作用を促進し、累積報酬の最大化を目的とした制御行動を生成する。 それにもかかわらず、ICPSの運用環境の固有の不確実性と複雑な性質は、学習期間中に複雑な状態空間と動的状態空間内での探索を必要とする。 DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。 これらの課題に対応するために,時空間値意味論に基づく革新的な抽象的モデリング手法を提案し,時間と空間における意味値の分布の進化を捉えた。 DRL学習プロセスのための抽象マルコフ決定プロセス(MDP)を構築するためにセマンティクスに基づく抽象化を導入する。 さらに,抽象モデルの改良と,抽象状態と具体的状態のセマンティックギャップの緩和を目的として,抽象化のための最適化手法を導出する。 PRISMを用いた抽象MDPモデルの評価と解析により、抽象モデリングの有効性を評価する。 抽象化手法の有効性を実証するために,車線維持,適応型クルーズ制御,交差点横断支援などの多様なシナリオを含む一連の実験を行った。

Intelligent Cyber-Physical Systems (ICPS) represent a specialized form of Cyber-Physical System (CPS) that incorporates intelligent components, notably Convolutional Neural Networks (CNNs) and Deep Reinforcement Learning (DRL), to undertake multifaceted tasks encompassing perception, decision-making, and control. The utilization of DRL for decision-making facilitates dynamic interaction with the environment, generating control actions aimed at maximizing cumulative rewards. Nevertheless, the inherent uncertainty of the operational environment and the intricate nature of ICPS necessitate exploration within complex and dynamic state spaces during the learning phase. DRL confronts challenges in terms of efficiency, generalization capabilities, and data scarcity during decision-making process. In response to these challenges, we propose an innovative abstract modeling approach grounded in spatial-temporal value semantics, capturing the evolution in the distribution of semantic value across time and space. A semantics-based abstraction is introduced to construct an abstract Markov Decision Process (MDP) for the DRL learning process. Furthermore, optimization techniques for abstraction are delineated, aiming to refine the abstract model and mitigate semantic gaps between abstract and concrete states. The efficacy of the abstract modeling is assessed through the evaluation and analysis of the abstract MDP model using PRISM. A series of experiments are conducted, involving diverse scenarios such as lane-keeping, adaptive cruise control, and intersection crossroad assistance, to demonstrate the effectiveness of our abstracting approach.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# 送電インタフェースの電力フロー調整:マルチタスク属性マップに基づく深層強化学習手法

Transmission Interface Power Flow Adjustment: A Deep Reinforcement Learning Approach based on Multi-task Attribution Map ( http://arxiv.org/abs/2405.15831v1 )

ライセンス: Link先を確認
Shunyu Liu, Wei Luo, Yanzhen Zhou, Kaixuan Chen, Quan Zhang, Huating Xu, Qinglai Guo, Mingli Song, (参考訳) 送電インタフェースの電力フロー調整は、電力システムの安全性と経済性を確保するための重要な手段である。 しかし、従来のモデルベース調整方式は、異なるトランスミッションインタフェースの調整問題を複数の独立したタスクとして扱い、それらの結合関係を無視し、さらには競合決定に至る電力システムにおいて、バリエーションの増加と不確実性によって制限される。 本稿では,各タスクをスクラッチから学習するのではなく,複数の電力フロー調整タスクを協調的に処理する,データ駆動型深部強化学習(DRL)手法を提案する。 提案手法の中心にはマルチタスク属性マップ (MAM) があり、DRLエージェントは各送信インタフェースタスクをタスク適応型注意重み付き異なる電力系統ノードに明示的に属性付けることができる。 このMAMに基づいて、エージェントは、最適に近い操作コストでマルチタスク調整問題を解決するための効果的な戦略をさらに提供することができる。 中国における現実的な300バスシステムであるIEEE 118-busシステムと9241バスを備えた非常に大きなヨーロッパシステムによるシミュレーションの結果、提案手法はいくつかのベースライン方式と比較して性能を著しく改善し、学習可能なMAMと高い解釈性を示した。

Transmission interface power flow adjustment is a critical measure to ensure the security and economy operation of power systems. However, conventional model-based adjustment schemes are limited by the increasing variations and uncertainties occur in power systems, where the adjustment problems of different transmission interfaces are often treated as several independent tasks, ignoring their coupling relationship and even leading to conflict decisions. In this paper, we introduce a novel data-driven deep reinforcement learning (DRL) approach, to handle multiple power flow adjustment tasks jointly instead of learning each task from scratch. At the heart of the proposed method is a multi-task attribution map (MAM), which enables the DRL agent to explicitly attribute each transmission interface task to different power system nodes with task-adaptive attention weights. Based on this MAM, the agent can further provide effective strategies to solve the multi-task adjustment problem with a near-optimal operation cost. Simulation results on the IEEE 118-bus system, a realistic 300-bus system in China, and a very large European system with 9241 buses demonstrate that the proposed method significantly improves the performance compared with several baseline methods, and exhibits high interpretability with the learnable MAM.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# DETECTA 2.0:中小企業における予測・サイバー安全維持技術を実現する産業 4.0 支援非侵入手法の研究

DETECTA 2.0: Research into non-intrusive methodologies supported by Industry 4.0 enabling technologies for predictive and cyber-secure maintenance in SMEs ( http://arxiv.org/abs/2405.15832v1 )

ライセンス: Link先を確認
Álvaro Huertas-García, Javier Muñoz, Enrique De Miguel Ambite, Marcos Avilés Camarmas, José Félix Ovejero, (参考訳) 予測保守とサイバーセキュリティの統合は、産業4.0パラダイムで運用される中小企業(中小企業)の変革的な進歩を表している。 経済的な重要性にもかかわらず、中小企業は資源の制約や知識のギャップのため、先進技術の採用において重大な課題に直面していることが多い。 DETECTA 2.0プロジェクトは、リアルタイム異常検出、洗練された分析、予測予測機能を調和させる革新的なシステムを開発することで、これらのハードルに対処する。 このシステムは、教師なし異常検出と教師付き学習技術を組み合わせた半教師付き方法論を採用している。 このアプローチにより、AI検出システムのよりアジャイルで費用対効果の高い開発が可能になり、手作業によるケースレビューに必要な時間を大幅に削減できる。 中心となるのはDigital Twinインターフェースで、マシン状態と検出された異常の直感的なリアルタイム可視化を提供する。 最先端のAIエンジンを活用することで、システムは観察されたパターンに基づいて異常をインテリジェントに分類し、技術的エラーと潜在的なサイバーセキュリティインシデントを区別する。 この識別は、警告の信頼性を高め、偽陽性を最小化する確実性レベルを含む詳細な分析によって強化されている。 予測エンジンは、N-HiTSのような高度な時系列アルゴリズムを使用して、将来のマシン利用トレンドを予測する。 このプロアクティブなアプローチは、メンテナンス計画の最適化、サイバーセキュリティ対策の強化、生産プロセスの変動にもかかわらず計画外のダウンタイムを最小限にする。 DETECTA 2.0は、工業設備間のシームレスな統合と実装コストの低減を可能にするモジュールアーキテクチャにより、中小企業が予測保守とサイバーセキュリティ戦略を強化する魅力的なソリューションを提供する。

The integration of predictive maintenance and cybersecurity represents a transformative advancement for small and medium-sized enterprises (SMEs) operating within the Industry 4.0 paradigm. Despite their economic importance, SMEs often face significant challenges in adopting advanced technologies due to resource constraints and knowledge gaps. The DETECTA 2.0 project addresses these hurdles by developing an innovative system that harmonizes real-time anomaly detection, sophisticated analytics, and predictive forecasting capabilities. The system employs a semi-supervised methodology, combining unsupervised anomaly detection with supervised learning techniques. This approach enables more agile and cost-effective development of AI detection systems, significantly reducing the time required for manual case review. At the core lies a Digital Twin interface, providing intuitive real-time visualizations of machine states and detected anomalies. Leveraging cutting-edge AI engines, the system intelligently categorizes anomalies based on observed patterns, differentiating between technical errors and potential cybersecurity incidents. This discernment is fortified by detailed analytics, including certainty levels that enhance alert reliability and minimize false positives. The predictive engine uses advanced time series algorithms like N-HiTS to forecast future machine utilization trends. This proactive approach optimizes maintenance planning, enhances cybersecurity measures, and minimizes unplanned downtimes despite variable production processes. With its modular architecture enabling seamless integration across industrial setups and low implementation costs, DETECTA 2.0 presents an attractive solution for SMEs to strengthen their predictive maintenance and cybersecurity strategies.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# エントロピー平均場 min-max ゲームに対するフィッシャー・ラオ勾配流

A Fisher-Rao gradient flow for entropic mean-field min-max games ( http://arxiv.org/abs/2405.15834v1 )

ライセンス: Link先を確認
Razvan-Andrei Lascu, Mateusz B. Majka, Łukasz Szpruch, (参考訳) グラディエントフローは多くの機械学習問題に対処する上で重要な役割を果たす。 エントロピー正則化を用いた凸凹型min-maxゲーム解法において,<textit{Fisher-Rao} (Mean-Field Birth-Death) 勾配流の連続時間収束について検討する。 我々は、一意混合ナッシュ平衡に対する明示的な速度で収束を示すための適切なリャプノフ関数を提案する。

Gradient flows play a substantial role in addressing many machine learning problems. We examine the convergence in continuous-time of a \textit{Fisher-Rao} (Mean-Field Birth-Death) gradient flow in the context of solving convex-concave min-max games with entropy regularization. We propose appropriate Lyapunov functions to demonstrate convergence with explicit rates to the unique mixed Nash equilibrium.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# 気候変動が大気汚染に与える影響の分析--時系列データにおけるMLモデルと統計モデルの比較

Analyzing the Impact of Climate Change With Major Emphasis on Pollution: A Comparative Study of ML and Statistical Models in Time Series Data ( http://arxiv.org/abs/2405.15835v1 )

ライセンス: Link先を確認
Anurag Mishra, Ronen Gold, Sanjeev Vijayakumar, (参考訳) 産業活動は、前世紀を通じて飛躍的に成長し、自動車や機械によるエネルギー利用の進展を加速させており、この成長は、気候データの監視・分析に高度技術の使用が必要であり、産業活動の急増は、その多様な環境影響を予測し、地域によって大きく異なるという複雑な課題を呈しており、産業活動の環境影響を予測・緩和するためにこれらのダイナミクスをより深く理解することを目的としている。

Industrial operations have grown exponentially over the last century, driving advancements in energy utilization through vehicles and machinery.This growth has significant environmental implications, necessitating the use of sophisticated technology to monitor and analyze climate data.The surge in industrial activities presents a complex challenge in forecasting its diverse environmental impacts, which vary greatly across different regions.Aim to understand these dynamics more deeply to predict and mitigate the environmental impacts of industrial activities.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# 量子コンピュータについて知っておくべきでないこと

What You Shouldn't Know About Quantum Computers ( http://arxiv.org/abs/2405.15838v1 )

ライセンス: Link先を確認
Chris Ferrie, (参考訳) 会社の将来を計画しているCEOや、次のキャリアを議論しているテクノロジー愛好家、学生を啓蒙したいと熱心に考えている高校の先生、あるいは無茶苦茶な量子的誇大広告にうんざりしているだけにせよ、これはあなたのために作られたものだ。 複雑なジャンゴンを切断して量子コンピューティングの真正な事実を伝え、神秘の層を剥ぎ取り、この画期的な技術の真の可能性と限界を明らかにする。 読者に好奇心とニーズのスペクトルを知らせ、刺激するために書かれた、量子未来に対するこの明確な視点に、あなたの理解が深まることを覚悟してください。

Whether you're a CEO strategizing the future of your company, a tech enthusiast debating your next career move, a high school teacher eager to enlighten your students, or simply tired of the relentless quantum hype, this is crafted just for you. Cutting through the complex jargon to deliver the straight facts on quantum computing, peeling away the layers of mystique to reveal the true potential and limitations of this groundbreaking technology. Prepare to have your misconceptions challenged, and your understanding deepened in this clear-eyed view of the quantum future, written to inform and inspire readers across the spectrum of curiosity and need.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# タンパク質構造言語を学ぶ

Learning the Language of Protein Structure ( http://arxiv.org/abs/2405.15840v1 )

ライセンス: Link先を確認
Benoit Gaujac, Jérémie Donà, Liviu Copoiu, Timothy Atkinson, Thomas Pierrot, Thomas D. Barrett, (参考訳) 表現学習と「emph{de novo}」タンパク質の生成は、重要な計算生物学の課題である。 自然言語処理(NLP)技術はタンパク質配列モデリングに非常に効果的であることが証明されているが、構造モデリングは、主に連続的かつ三次元的な性質のために複雑な課題を呈している。 この相違を動機として,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを導入する。 この方法は、タンパク質構造の連続的で複雑な空間を、4096から64000トークンのコードブックで管理可能な離散形式に変換し、約1-5 \AAの背骨の平均平方偏差(RMSD)で高忠実な再構成を実現する。 学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。 我々のアプローチはタンパク質構造の表現を提供するだけでなく、異なるモーダル表現の課題を緩和し、シームレスでマルチモーダルな統合の基礎を築き、タンパク質設計における計算手法の能力を高める。

Representation learning and \emph{de novo} generation of proteins are pivotal computational biology tasks. Whilst natural language processing (NLP) techniques have proven highly effective for protein sequence modelling, structure modelling presents a complex challenge, primarily due to its continuous and three-dimensional nature. Motivated by this discrepancy, we introduce an approach using a vector-quantized autoencoder that effectively tokenizes protein structures into discrete representations. This method transforms the continuous, complex space of protein structures into a manageable, discrete format with a codebook ranging from 4096 to 64000 tokens, achieving high-fidelity reconstructions with backbone root mean square deviations (RMSD) of approximately 1-5 \AA. To demonstrate the efficacy of our learned representations, we show that a simple GPT model trained on our codebooks can generate novel, diverse, and designable protein structures. Our approach not only provides representations of protein structure, but also mitigates the challenges of disparate modal representations and sets a foundation for seamless, multi-modal integration, enhancing the capabilities of computational methods in protein design.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# コードのためのモデルカスケード: LLMに基づくコード生成のためのモデルカスケードによる推論コストの削減

Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation ( http://arxiv.org/abs/2405.15842v1 )

ライセンス: Link先を確認
Boyuan Chen, Mingzhi Zhu, Brendan Dolan-Gavitt, Muhammad Shafique, Siddharth Garg, (参考訳) 大規模言語モデル(LLM)の急速な開発により、コード補完タスクが大幅に進歩した。 大型モデルは精度が高いが、実行にははるかにコストがかかる。 一方、モデルカスケードは、自然言語生成タスクにおけるLLMの精度を高めつつ、計算資源の保存に有効であることが証明されている。 セットで最小のモデルで出力を生成し、事前定義された品質基準を満たしていない場合にのみ、より大きなモデルをクエリする。 しかし、この戦略はコード補完タスクでは使われていない。主な理由は、コード補完の質を評価することは、関数的正しさに大きく依存する自然言語を評価することとは大きく異なるためである。 この問題に対処するため、各モデルがそれぞれのソリューションに対して一連のテストケースを生成し実行させ、その結果をカスケードしきい値として使用することを提案する。 モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。 また、予算に基づいて、各モデルが生成すべきソリューションの数、テストケース、テストラインの最適な組み合わせを決定するためのヒューリスティックスも導入します。 投機的復号法と比較すると,提案手法はブラックボックスモデルで動作し,コスト-精度のトレードオフが同じであるが,サーバの予算に基づいて,はるかに多くの選択肢を提供する。 LLMコード生成のコスト-精度トレードオフをモデルカスケードで最適化するための最初の取り組みである。

The rapid development of large language models (LLMs) has led to significant advancements in code completion tasks. While larger models have higher accuracy, they also cost much more to run. Meanwhile, model cascading has been proven effective to conserve computational resources while enhancing accuracy in LLMs on natural language generation tasks. It generates output with the smallest model in a set, and only queries the larger models when it fails to meet predefined quality criteria. However, this strategy has not been used in code completion tasks, primarily because assessing the quality of code completions differs substantially from assessing natural language, where the former relies heavily on the functional correctness. To address this, we propose letting each model generate and execute a set of test cases for their solutions, and use the test results as the cascading threshold. We show that our model cascading strategy reduces computational costs while increases accuracy compared to generating the output with a single model. We also introduce a heuristics to determine the optimal combination of the number of solutions, test cases, and test lines each model should generate, based on the budget. Compared to speculative decoding, our method works on black-box models, having the same level of cost-accuracy trade-off, yet providing much more choices based on the server's budget. Ours is the first work to optimize cost-accuracy trade-off for LLM code generation with model cascading.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# SpotNet:画像中心のライダーが長距離知覚にアプローチ

SpotNet: An Image Centric, Lidar Anchored Approach To Long Range Perception ( http://arxiv.org/abs/2405.15843v1 )

ライセンス: Link先を確認
Louis Foucard, Samar Khanna, Yi Shi, Chi-Kuei Liu, Quinn Z Shen, Thuyen Ngo, Zi-Xiang Xia, (参考訳) 本稿では,スポットネット(SpotNet: 高速で単一ステージ,画像中心だがLiDARアンロックによる長距離3次元物体検出手法)を提案する。 我々は,LiDAR/画像センサフュージョンへのアプローチと2次元および3次元検出タスクの連成学習が組み合わさって,LiDARの精度が低い3次元物体検出に繋がることを示した。 より最近のバードアイビュー(BEV)センサーフュージョン法とは異なり、$O(r^2)$として$r$でスケールするが、SpotNetは$O(1)$でレンジでスケールする。 このようなアーキテクチャは、各センサの強度、すなわち画像からのセマンティック理解とLiDARデータからの正確な範囲探索を活用するのに最適である、と我々は主張する。 最後に、LiDAR点のアンカー検出により、距離を遅らせる必要がなくなることを示し、アーキテクチャは再トレーニングなしで2MPから8MPの解像度画像に変換可能であることを示す。

In this paper, we propose SpotNet: a fast, single stage, image-centric but LiDAR anchored approach for long range 3D object detection. We demonstrate that our approach to LiDAR/image sensor fusion, combined with the joint learning of 2D and 3D detection tasks, can lead to accurate 3D object detection with very sparse LiDAR support. Unlike more recent bird's-eye-view (BEV) sensor-fusion methods which scale with range $r$ as $O(r^2)$, SpotNet scales as $O(1)$ with range. We argue that such an architecture is ideally suited to leverage each sensor's strength, i.e. semantic understanding from images and accurate range finding from LiDAR data. Finally we show that anchoring detections on LiDAR points removes the need to regress distances, and so the architecture is able to transfer from 2MP to 8MP resolution images without re-training.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# ダイヒッグス生成のためのニューラルシミュレーションに基づく推論によるヒッグスポテンシャルの抑制

Constraining the Higgs Potential with Neural Simulation-based Inference for Di-Higgs Production ( http://arxiv.org/abs/2405.15847v1 )

ライセンス: Link先を確認
Radha Mastandrea, Benjamin Nachman, Tilman Plehn, (参考訳) ヒッグスポテンシャルの形式を決定することは、現代の粒子物理学における最もエキサイティングな課題の1つである。 ヒッグス対生成はヒッグス自己カップリングを直接プローブし、近い将来に高光度LHCで観測されるべきである。 我々は,ディヒッグス現象の運動論を通じて,標準モデルを超えて物理に対する感度を改善する方法について検討する。 特に,シミュレーションに基づく推論による機械学習を用いて,各確率比を推定し,このキネマティック情報を含む電位感度の利得を計測する。 標準モデル有効場理論(Standard Model Effective Field Theory)の観点からは、限られた数の観測可能な値を追加することで、ウィルソン係数の縮退を除去し、実験感度を著しく向上させることができる。

Determining the form of the Higgs potential is one of the most exciting challenges of modern particle physics. Higgs pair production directly probes the Higgs self-coupling and should be observed in the near future at the High-Luminosity LHC. We explore how to improve the sensitivity to physics beyond the Standard Model through per-event kinematics for di-Higgs events. In particular, we employ machine learning through simulation-based inference to estimate per-event likelihood ratios and gauge potential sensitivity gains from including this kinematic information. In terms of the Standard Model Effective Field Theory, we find that adding a limited number of observables can help to remove degeneracies in Wilson coefficient likelihoods and significantly improve the experimental sensitivity.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# CSSおよびフラクトロニック格子モデルの異常流入とクラスター状態測定による双対性

Anomaly inflow for CSS and fractonic lattice models and dualities via cluster state measurement ( http://arxiv.org/abs/2405.15853v1 )

ライセンス: Link先を確認
Takuya Okuda, Aswin Parayil Mana, Hiroki Sukeno, (参考訳) Calderbank-Shor-Steane (CSS) 符号はトーリック符号とフラクトンモデルを含む量子誤り訂正符号のクラスである。 Foliationと呼ばれるプロシージャは、所定のCSSコードのクラスタ状態を定義する。 我々は、CSS鎖錯体とそのテンソル積を他の鎖錯体と組み合わせて、葉状クラスター状態の位相構造を記述するとともに、葉状CSS鎖錯体のサイクルで支持される一般化大域対称性によって保護される対称性で保護された位相秩序を持つと主張する。 欠陥ワールドボリュームの関数として定義されるバルクおよび境界分割関数のゲージ変換の等価性を明示的に示すことにより,CSSコードと対応する分離クラスタ状態との間のいわゆる異常流入を実証する。 バルク系の測定により, バルク欠陥と境界欠陥が関係していることが判明した。 さらに, ツイスト欠陥を挿入した統計モデルに対して, 一般的なCSSコードに関連する統計モデルを得る手法を提案し, クラマース・ワニエ・ウェグナー双対性の一般化を導出する。 また,CSS/フラクトンモデルに対するクラスタ状態エンタングルを用いた計測支援ギャグ法について,最近の提案に基づいて検討し,双対作用素の非可逆融合を実証する。 クラスタ状態のエンタングルを用いて、一般的なCSS/フラクトンモデルのためのいわゆる奇妙な相関器を構築する。 最後に、一般化されたKramers-Wannier-Wegner双対性変換の下で自己双対となるサブシステム対称量子モデルの族を導入し、非可逆対称性となる。

Calderbank-Shor-Steane (CSS) codes are a class of quantum error correction codes that contains the toric code and fracton models. A procedure called foliation defines a cluster state for a given CSS code. We use the CSS chain complex and its tensor product with other chain complexes to describe the topological structure in the foliated cluster state, and argue that it has a symmetry-protected topological order protected by generalized global symmetries supported on cycles in the foliated CSS chain complex. We demonstrate the so-called anomaly inflow between CSS codes and corresponding foliated cluster states by explicitly showing the equality of the gauge transformations of the bulk and boundary partition functions defined as functionals of defect world-volumes. We show that the bulk and boundary defects are related via measurement of the bulk system. Further, we provide a procedure to obtain statistical models associated with general CSS codes via the foliated cluster state, and derive a generalization of the Kramers-Wannier-Wegner duality for such statistical models with insertion of twist defects. We also study the measurement-assisted gauging method with cluster-state entanglers for CSS/fracton models based on recent proposals in the literature, and demonstrate a non-invertible fusion of duality operators. Using the cluster-state entanglers, we construct the so-called strange correlator for general CSS/fracton models. Finally, we introduce a new family of subsystem-symmetric quantum models each of which is self-dual under the generalized Kramers-Wannier-Wegner duality transformation, which becomes a non-invertible symmetry.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# ハードウェア要件の最小化によるフロケット符号の製作欠陥の調整

Accommodating Fabrication Defects on Floquet Codes with Minimal Hardware Requirements ( http://arxiv.org/abs/2405.15854v1 )

ライセンス: Link先を確認
Campbell McLauchlan, György P. Gehér, Alexandra E. Moylett, (参考訳) フロッケ符号は、安定化器とサブシステムのコードの興味深い一般化であり、ハードウェアの接続要件を減らし、優れたフォールトトレラント特性を提供することができる。 最近の関心のある質問は、欠陥のある -- 使用不可能な -- 量子ビットを持つデバイス上で、Floquetコードを実行する方法だ。 これは、現実的なハードウェア上でこのようなコードを実行する上で重要な、未調査の課題である。 この課題に対処するため,Floquet符号の量子ハードウェアへの追加接続を必要とせず,元のFloquet符号の計測スケジュールの変更を必要とせず,バウンダリに対応でき,キュービット数や安定化器の取り外しという点で最適である,広範囲な2次元フロッケ符号に欠陥量子ビットを収容する新しい方法を提案する。 この手法を用いて、平面ハニカム符号は、製造欠陥確率が$\approx 12\%$まで耐障害性があることを数値的に示す。 欠陥雑音下でのこの符号の耐障害性能は、スペーサー接続性にもかかわらず、表面コードと競合する。 我々は最終的に、このアプローチを基盤となるハードウェアに適応させる複数の方法を提案し、追加の接続性を活用し、欠陥のある補助量子ビットを欠陥のあるデータ量子ビットに別々に扱います。 そこで本研究は,現実的な量子ハードウェアにおけるFloquet符号の実装のガイドとして機能する。

Floquet codes are an intriguing generalisation of stabiliser and subsystem codes, which can provide good fault-tolerant characteristics while benefiting from reduced connectivity requirements in hardware. A recent question of interest has been how to run Floquet codes on devices which have defective -- and therefore unusable -- qubits. This is an under-studied issue of crucial importance for running such codes on realistic hardware. To address this challenge, we introduce a new method of accommodating defective qubits on a wide range of two-dimensional Floquet codes, which requires no additional connectivity in the underlying quantum hardware, no modifications to the original Floquet code's measurement schedule, can accommodate boundaries, and is optimal in terms of the number of qubits and stabilisers removed. We numerically demonstrate that, using this method, the planar honeycomb code is fault tolerant up to a fabrication defect probability of $\approx 12\%$. We find the fault-tolerant performance of this code under defect noise is competitive with that of the surface code, despite its sparser connectivity. We finally propose multiple ways this approach can be adapted to the underlying hardware, through utilising any additional connectivity available, and treating defective auxiliary qubits separately to defective data qubits. Our work therefore serves as a guide for the implementation of Floquet codes in realistic quantum hardware.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# Transmon qudit で符号化された spin-7/2 システムの多周波制御と測定

Multi-frequency control and measurement of a spin-7/2 system encoded in a transmon qudit ( http://arxiv.org/abs/2405.15857v1 )

ライセンス: Link先を確認
Elizabeth Champion, Zihao Wang, Rayleigh Parker, Machiel Blok, (参考訳) クディットは効率的な量子計算と高次元量子システムのシミュレーションに大いに期待できる。 次元 d > 2 の局所ヒルベルト空間を利用することで、効率的な局所的なキューディット制御と測定を与えられた量子ビットの相対的な量子アルゴリズムを高速化することが知られている。 しかし、高次元回転とプロジェクターの直接実現は困難であり、ほとんどの実験は、SU(d) 演算を隣接する状態の2レベル部分空間間の一連の回転への分解と、少数の状態の射影可読化に頼っている。 ここでは、超伝導回路のエネルギー固有状態にマッピングすることで、実効スピン7/2系における回転と投射を同時に生成するために、同時多周波駆動を用いる。 マルチトン分散リードアウト(F_assignment = 88.3%)を用いて8つの状態の単発読み出しを実装し,高EJ/ECトランスモンの強い非線形性を利用して各遷移に同時に対応し,スピン変位演算子を実現する。 変位演算子と仮想SNAPゲートを組み合わせることで、O(d)物理パルスにおける任意の単一量子ユニタリ演算を実現し、サイズ j = 1 から j = 7/2 の仮想スピンに対して 0.997 から 0.989 までのスピン変位ゲート忠実度を抽出する。 これらのネイティブなクディット演算は、クディットに基づく誤差補正や格子ゲージ理論のクディットによるシミュレーションを探索するエンタングル演算と組み合わせることができる。 共振器に結合したマルチレベルシステムを実現し,効率的な量子計算とシミュレーションのためのビルディングブロックとなる,他の物理プラットフォームにも容易に対応できる。

Qudits hold great promise for efficient quantum computation and the simulation of high-dimensional quantum systems. Utilizing a local Hilbert space of dimension d > 2 is known to speed up certain quantum algorithms relative to their qubit counterparts given efficient local qudit control and measurement. However, the direct realization of high-dimensional rotations and projectors has proved challenging, with most experiments relying on decompositions of SU(d) operations into series of rotations between two-level subspaces of adjacent states and projective readout of a small number of states. Here we employ simultaneous multi-frequency drives to generate rotations and projections in an effective spin-7/2 system by mapping it onto the energy eigenstates of a superconducting circuit. We implement single-shot readout of the 8 states using a multi-tone dispersive readout (F_assignment = 88.3%) and exploit the strong nonlinearity in a high EJ/EC transmon to simultaneously address each transition and realize a spin displacement operator. By combining the displacement operator with a virtual SNAP gate, we realize arbitrary single-qudit unitary operations in O(d) physical pulses and extract spin displacement gate fidelities ranging from 0.997 to 0.989 for virtual spins of size j = 1 to j = 7/2. These native qudit operations could be combined with entangling operations to explore qudit-based error correction or simulations of lattice gauge theories with qudits. Our multi-frequency approach to qudit control and measurement can be readily extended to other physical platforms that realize a multi-level system coupled to a cavity and can become a building block for efficient qudit-based quantum computation and simulation.
翻訳日:2024-05-29 02:29:48 公開日:2024-05-24
# 多ラベル画像分類における複数ラベル付きサンプルの混合によるフリーパフォーマンス向上

Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification ( http://arxiv.org/abs/2405.15860v1 )

ライセンス: Link先を確認
Chak Fong Chong, Jielong Guo, Xu Yang, Wei Ke, Yapeng Wang, (参考訳) マルチラベル画像分類データセットは、多くのラベルが欠落している場所で部分的にラベル付けされることが多く、正確な深層分類器を訓練する上で大きな課題となっている。 しかし、この課題に対処するために、強力なミックスアップサンプル混合データ拡張は、未知ラベル上で線形補間を行えないため、十分に利用できない。 本稿では、このような部分ラベル付きデータセット用に設計されたミックスアップ変種であるLogicMixを提案する。 LogicMixはサンプルラベルを論理的ORで混合し、未知のラベルをオーの論理的等価性を利用して正しく混合することができる。 正確に2つのサンプルを混ぜ合わせたMixupとは異なり、LogicMixは複数の($\geq2$)部分的なラベル付きサンプルを混ぜて、視覚的に混乱した拡張現実サンプルを構築してトレーニングを規則化する。 LogicMixは、様々な部分的にラベル付けされたデータセットのシナリオでの実験において、他の比較されたMixよりも一般的で効果的である。 さらに、プラグイン・アンド・プレイであり、最小限の計算しか必要としないため、既存のフレームワークに簡単に挿入して他の手法と協力し、トレーニング時間に無視できない影響でモデルパフォーマンスを改善することができる。 特にLogicMix, RandAugment, Curriculum Labeling, Category-wise Fine-Tuningの協力を得て, MS-COCO, VG-200, Pascal VOC 2007ベンチマークデータセット上で最先端のパフォーマンスを実現した。 注目すべき汎用性、有効性、コラボレーション、単純さは、LogicMixが普及し、重要なデータ拡張メソッドになることを約束していることを示唆している。

Multi-label image classification datasets are often partially labeled where many labels are missing, posing a significant challenge to training accurate deep classifiers. However, the powerful Mixup sample-mixing data augmentation cannot be well utilized to address this challenge, as it cannot perform linear interpolation on the unknown labels to construct augmented samples. In this paper, we propose LogicMix, a Mixup variant designed for such partially labeled datasets. LogicMix mixes the sample labels by logical OR so that the unknown labels can be correctly mixed by utilizing OR's logical equivalences, including the domination and identity laws. Unlike Mixup, which mixes exactly two samples, LogicMix can mix multiple ($\geq2$) partially labeled samples, constructing visually more confused augmented samples to regularize training. LogicMix is more general and effective than other compared Mixup variants in the experiments on various partially labeled dataset scenarios. Moreover, it is plug-and-play and only requires minimal computation, hence it can be easily inserted into existing frameworks to collaborate with other methods to improve model performance with a negligible impact on training time, as demonstrated through extensive experiments. In particular, through the collaboration of LogicMix, RandAugment, Curriculum Labeling, and Category-wise Fine-Tuning, we attain state-of-the-art performance on MS-COCO, VG-200, and Pascal VOC 2007 benchmarking datasets. The remarkable generality, effectiveness, collaboration, and simplicity suggest that LogicMix promises to be a popular and vital data augmentation method.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# ゼロ次最適化によるフェデレーション学習における次元自由通信の実現

Achieving Dimension-Free Communication in Federated Learning via Zeroth-Order Optimization ( http://arxiv.org/abs/2405.15861v1 )

ライセンス: Link先を確認
Zhe Li, Bicheng Ying, Zidong Liu, Haibo Yang, (参考訳) Federated Learning (FL)は、分散データソース間の協調的およびプライバシ保護機械学習のための有望なフレームワークを提供する。 しかし、FLに関連するかなりの通信コストは、その効率に重大な課題をもたらす。 具体的には、各通信ラウンドにおいて、通信コストはモデルの次元と線形にスケールする。 様々な通信効率の戦略にもかかわらず、本質的な次元に依存した通信コストは、現在のFL実装において大きなボトルネックとなっている。 本稿では,ゼロオーダー最適化技術を活用したFLのための新しい次元自由通信方式を提案する。 本稿では,各通信ラウンドにおけるクライアントとサーバ間のスカラー値の一定数の送信を容易にし,通信コストを$\mathscr{O}(d)$から$\mathscr{O}(1)$に削減する新しいアルゴリズムであるFedDiscoを提案する。 理論的には、非凸関数では、我々のアルゴリズムが最先端の速度を達成することが証明され、これは標準的な仮定の下でのクライアント数とローカルステップの線形高速化と、低効率なランクシナリオに対する次元自由率を示す。 古典的深層学習訓練と大規模言語モデルによる経験的評価は,従来のFL手法と比較して,通信オーバーヘッドを大幅に削減する。

Federated Learning (FL) offers a promising framework for collaborative and privacy-preserving machine learning across distributed data sources. However, the substantial communication costs associated with FL pose a significant challenge to its efficiency. Specifically, in each communication round, the communication costs scale linearly with the model's dimension, which presents a formidable obstacle, especially in large model scenarios. Despite various communication efficient strategies, the intrinsic dimension-dependent communication cost remains a major bottleneck for current FL implementations. In this paper, we introduce a novel dimension-free communication strategy for FL, leveraging zero-order optimization techniques. We propose a new algorithm, FedDisco, which facilitates the transmission of only a constant number of scalar values between clients and the server in each communication round, thereby reducing the communication cost from $\mathscr{O}(d)$ to $\mathscr{O}(1)$, where $d$ is the dimension of the model parameters. Theoretically, in non-convex functions, we prove that our algorithm achieves state-of-the-art rates, which show a linear speedup of the number of clients and local steps under standard assumptions and dimension-free rate for low effective rank scenarios. Empirical evaluations through classic deep learning training and large language model fine-tuning substantiate significant reductions in communication overhead compared to traditional FL approaches.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 高性能音楽生成のための品質を考慮したマスク付き拡散変圧器

Quality-aware Masked Diffusion Transformer for Enhanced Music Generation ( http://arxiv.org/abs/2405.15863v1 )

ライセンス: Link先を確認
Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang, (参考訳) 近年,拡散型テキスト・ツー・ミュージック(TTM)生成が注目され,テキスト記述から音楽コンテンツを合成する新たなアプローチが提案されている。 この生成プロセスで高い精度と多様性を達成するには、広範囲で高品質なデータが必要である。 オープンソースのデータセットの中では、誤ラベル、弱いラベル付け、未ラベルデータ、低品質の音楽波形といった問題が、音楽生成モデルの発展を著しく妨げている。 これらの課題を克服するために、我々は、学習中に入力された音楽波形の質を識別する生成モデルを実現する、QA-MDT(Quality-Aware masked diffusion transformer)アプローチを導入する。 音楽信号の独特な特性に基づいて,TTMタスクにMDTモデルを適用,実装するとともに,その品質管理能力も明らかにした。 さらに,キャプション改良データ処理手法を用いて,低品質キャプションの問題に対処する。 私たちのデモページはhttps://qa-mdt.github.io/で公開されています。 https://github.com/ivcylc/qa-mdt

In recent years, diffusion-based text-to-music (TTM) generation has gained prominence, offering a novel approach to synthesizing musical content from textual descriptions. Achieving high accuracy and diversity in this generation process requires extensive, high-quality data, which often constitutes only a fraction of available datasets. Within open-source datasets, the prevalence of issues like mislabeling, weak labeling, unlabeled data, and low-quality music waveform significantly hampers the development of music generation models. To overcome these challenges, we introduce a novel quality-aware masked diffusion transformer (QA-MDT) approach that enables generative models to discern the quality of input music waveform during training. Building on the unique properties of musical signals, we have adapted and implemented a MDT model for TTM task, while further unveiling its distinct capacity for quality control. Moreover, we address the issue of low-quality captions with a caption refinement data processing approach. Our demo page is shown in https://qa-mdt.github.io/. Code on https://github.com/ivcylc/qa-mdt
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# コモンズを統治する - 大規模ソフトウェア開発におけるコードオーナシップとコードクロン

Governing the Commons: Code Ownership and Code-Clones in Large-Scale Software Development ( http://arxiv.org/abs/2405.15866v1 )

ライセンス: Link先を確認
Anders Sundelin, Javier Gonzalez-Huerta, Richard Torkar, Krzysztof Wnuk, (参考訳) コンテキスト: 弱いあるいは集合的なオーナシップを採用するソフトウェア開発組織では,さまざまなチームがさまざまなコンポーネントの変更を自律的に実施することが期待される。 これにより、個々のコンポーネントの知識と責任の両方に多様性が生まれます。 目的: 目的は、異なるチームが異なるコンポーネントを変更するときに、コードのクローンという形で技術的負債を導入する方法と理由を理解することです。 方法: 大規模な産業ソフトウェアシステムの一部である8つのコンポーネントの10チームによる変更サイズとクローンの導入に関するデータを収集しました。 次に、多レベル一般化線形モデル(MLGLM)を設計し、チームの異なる振る舞いを説明する。 結果が研究組織に報告され、回答が記録され、数学的に符号化された。 結果: 結果は、異なるコンポーネントでチームが異なる振る舞いをすることを示している。そして、チームからのフィードバックは、チームの振る舞いを説明するこの方法が、オーナシップの従来の要約統計を補完するものとして有用であることを示している。 結論: 私たちのモデルベースのアプローチは、異なるコンポーネントを変更することで、コードクローンのチーム導入の有用な視覚化を可能にします。 ビジュアライゼーションは役に立つ洞察を与え、平均的なチームと比較することで、チーム間の比較は避けられる、と実践者は述べている。 ですからこれは,弱いあるいは集合的なオーナシップを採用するソフトウェア開発組織内のチームにとって,有用なフィードバックツールになる可能性があるのです。

Context: In software development organizations employing weak or collective ownership, different teams are allowed and expected to autonomously perform changes in various components. This creates diversity both in the knowledge of, and in the responsibility for, individual components. Objective: Our objective is to understand how and why different teams introduce technical debt in the form of code clones as they change different components. Method: We collected data about change size and clone introductions made by ten teams in eight components which was part of a large industrial software system. We then designed a Multi-Level Generalized Linear Model (MLGLM), to illustrate the teams' differing behavior. Finally, the results were reported to the studied organization, responses were recorded and thematically coded. Results: The results show that teams do behave differently in different components, and the feedback from the teams indicates that this method of illustrating team behavior can be useful as a complement to traditional summary statistics of ownership. Conclusions: We find that our model-based approach produces useful visualizations of team introductions of code clones as they change different components. Practitioners stated that the visualizations gave them insights that were useful, and by comparing with an average team, inter-team comparisons can be avoided. Thus, this has the potential to be a useful feedback tool for teams in software development organizations that employ weak or collective ownership.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# LLS:ニューラルアクティビティ同期に着想を得たディープニューラルネットワークの局所学習ルール

LLS: Local Learning Rule for Deep Neural Networks Inspired by Neural Activity Synchronization ( http://arxiv.org/abs/2405.15868v1 )

ライセンス: Link先を確認
Marco Paul E. Apolinario, Arani Roy, Kaushik Roy, (参考訳) 従来のバックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、特に計算リソースが限られているデバイス上での学習において、計算複雑性とエネルギー消費の観点からの課題を提示している。 BPの様々な代替策として、ランダムフィードバックアライメント、フォワードフォワード、ローカル分類器などがあり、これらの課題に対処するために研究されている。 これらの手法には利点があるが、複雑な視覚的タスクを扱う場合や、かなりの計算資源を必要とする場合、困難に直面することがある。 本稿では,脳内で観察される神経活動同期現象(LLS)にインスパイアされた新しい局所学習規則を提案する。 LLSは固定周期基底ベクトルを用いて各層内のニューロン活動を同期させ、トレーニング可能な追加パラメータを必要とせずに効率的なトレーニングを可能にする。 複数の画像分類データセットにおけるLSSとLS-MとLS-MxMの有効性を実証し,計算複雑性の低減と追加パラメータの最小化によるBPに匹敵する精度を実現する。 さらに、Visual Wake Word (VWW)データセットにおけるLSの性能は、デバイス上での学習タスクに適していることを強調しており、エッジハードウェア実装の候補として有望である。

Training deep neural networks (DNNs) using traditional backpropagation (BP) presents challenges in terms of computational complexity and energy consumption, particularly for on-device learning where computational resources are limited. Various alternatives to BP, including random feedback alignment, forward-forward, and local classifiers, have been explored to address these challenges. These methods have their advantages, but they can encounter difficulties when dealing with intricate visual tasks or demand considerable computational resources. In this paper, we propose a novel Local Learning rule inspired by neural activity Synchronization phenomena (LLS) observed in the brain. LLS utilizes fixed periodic basis vectors to synchronize neuron activity within each layer, enabling efficient training without the need for additional trainable parameters. We demonstrate the effectiveness of LLS and its variations, LLS-M and LLS-MxM, on multiple image classification datasets, achieving accuracy comparable to BP with reduced computational complexity and minimal additional parameters. Furthermore, the performance of LLS on the Visual Wake Word (VWW) dataset highlights its suitability for on-device learning tasks, making it a promising candidate for edge hardware implementations.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# CausalConceptTS:高忠実度拡散モデルを用いた時系列分類における因果属性

CausalConceptTS: Causal Attributions for Time Series Classification using High Fidelity Diffusion Models ( http://arxiv.org/abs/2405.15871v1 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz, Nils Strodthoff, (参考訳) 機械学習モデルの優れたパフォーマンスにもかかわらず、機械学習モデルの決定を理解することは長年の目標である。 説明可能なAIでよく使われる帰属法はこの問題に対処しようとするが、典型的には因果関係ではなく関連性に依存している。 本研究では,時系列分類の文脈において,概念の因果的影響,すなわち時系列内で予め定義されたセグメントが特定の分類結果に与える影響を評価する新しい枠組みを導入する。 これを達成するために、我々は最先端の拡散に基づく生成モデルを活用して、反現実的な結果を推定する。 我々のアプローチは、これらの因果属性と、理論的にも経験的にも、密接に関連する関連属性を比較する。 我々は,時系列分類タスクの質的に異なる多種多様なセットに対して,我々のアプローチによって得られた知見を実証する。 因果関係や因果関係の属性はしばしば類似点を共有するが、すべての場合において重要な詳細は異なり、因果関係のデータのみから因果関係の結論を引き出すリスクが強調される。 提案手法は他の領域、特に事前定義されたセグメンテーションが利用可能である場合にも広く適用可能であると我々は信じている。

Despite the excelling performance of machine learning models, understanding the decisions of machine learning models remains a long-standing goal. While commonly used attribution methods in explainable AI attempt to address this issue, they typically rely on associational rather than causal relationships. In this study, within the context of time series classification, we introduce a novel framework to assess the causal effect of concepts, i.e., predefined segments within a time series, on specific classification outcomes. To achieve this, we leverage state-of-the-art diffusion-based generative models to estimate counterfactual outcomes. Our approach compares these causal attributions with closely related associational attributions, both theoretically and empirically. We demonstrate the insights gained by our approach for a diverse set of qualitatively different time series classification tasks. Although causal and associational attributions might often share some similarities, in all cases they differ in important details, underscoring the risks associated with drawing causal conclusions from associational data alone. We believe that the proposed approach is widely applicable also in other domains, particularly where predefined segmentations are available, to shed some light on the limits of associational attributions.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 修正Jaynes-Cummingsモデルにおける量子相転移

Quantum Phase Transition in a Modified Jaynes-Cummings Model ( http://arxiv.org/abs/2405.15876v1 )

ライセンス: Link先を確認
Moorad Alexanian, (参考訳) 単一光子空洞放射場を持つ改良型Jaynes-Cummingsモデルを導入するが、Jaynes-Cummingsモデルのように単一の光子を交換する代わりに原子系を用いて、スクイーズパラメータrを圧縮した光子と交換する。 これにより、Rabi モデル r = infinity とJaynes-Cummings モデル r = 0 を様々な r で補間することができる。 このモデルは量子相転移を示す。 したがって、Rabiモデルで実現された量子相転移は、Jaynes-Cummingsモデルにも発生する。

We introduce a modified Jaynes-Cummings model with single-photon cavity radiation field but with the atomic system instead of exchanging a single photon as in the Jaynes-Cummings model, it exchanges instead a squeezed photon with squeezing parameter r. This allows us to interpolate between the Rabi model, r = infinity, and the Jaynes-Cummings model, r = 0, by varying r. The model exhibits a quantum phase transition. Accordingly, the quantum phase transition realized in the Rabi model, giving rise to superradiance, also occurs in the Jaynes-Cummings model
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# Basis Selection: ターゲットアプリケーションのための事前訓練された大規模言語モデルの低ランク分解

Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications ( http://arxiv.org/abs/2405.15877v1 )

ライセンス: Link先を確認
Yang Li, Changsheng Zhao, Hyungtak Lee, Ernie Chang, Yangyang Shi, Vikas Chandra, (参考訳) 大規模言語モデル(LLM)は様々なアプリケーションの性能を著しく向上させるが、計算集約的でエネルギー需要が高い。 これにより、パーソナルコンピュータやモバイル/ウェアラブルデバイスのような限られたリソースを持つデバイスにそれらをデプロイすることは困難になり、結果としてクラウドサーバのようなリソース豊富な環境において、かなりの推論コストが発生する。 LLMの使用を拡大するために、特定のアプリケーションの要求に合わせて、これらのモデルを効果的に圧縮する低ランク分解手法を導入する。 汎用データセット上で事前訓練されたLCMには、特定のアプリケーションに不要な多くの冗長なコンポーネントが含まれていることが観察された。 本手法では,これらの冗長部分の特定と削除に重点を置いており,対象アプリケーションに必要な要素のみを保持する。 具体的には,LLMの重み行列を基本成分の線形結合として表現する。 そして、関係のないベースを訓練し、特定のアプリケーションに有用な新しいベースでモデルを強化します。 Llama 2-7b モデルと -13B モデルの深部圧縮結果から,提案手法は,最先端の低ランク圧縮技術に匹敵する精度を維持しつつ,モデルサイズを大幅に削減することを示す。

Large language models (LLMs) significantly enhance the performance of various applications, but they are computationally intensive and energy-demanding. This makes it challenging to deploy them on devices with limited resources, such as personal computers and mobile/wearable devices, and results in substantial inference costs in resource-rich environments like cloud servers. To extend the use of LLMs, we introduce a low-rank decomposition approach to effectively compress these models, tailored to the requirements of specific applications. We observe that LLMs pretrained on general datasets contain many redundant components not needed for particular applications. Our method focuses on identifying and removing these redundant parts, retaining only the necessary elements for the target applications. Specifically, we represent the weight matrices of LLMs as a linear combination of base components. We then prune the irrelevant bases and enhance the model with new bases beneficial for specific applications. Deep compression results on the Llama 2-7b and -13B models, conducted on target applications including mathematical reasoning and code generation, show that our method significantly reduces model size while maintaining comparable accuracy to state-of-the-art low-rank compression techniques.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# HYSYNTH:プログラム合成誘導のための文脈自由LLM近似

HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis ( http://arxiv.org/abs/2405.15880v1 )

ライセンス: Link先を確認
Shraddha Barke, Emmanuel Anaya Gonzalez, Saketh Ram Kasibatla, Taylor Berg-Kirkpatrick, Nadia Polikarpova, (参考訳) 多くの構造化された予測と推論タスクは、プログラム合成問題として、入力データを所望の出力に変換するドメイン固有言語(DSL)でプログラムを生成することを目標としている。 残念ながら、大きな言語モデル(LLM)のような純粋に神経的なアプローチは、よく知らないDSLで完全に正しいプログラムを生成するのに失敗する。 これらの制約により、与えられたタスクに対する LLM 補完をタスク固有の文脈自由代用モデル学習に使用し、プログラム合成をガイドするハイブリッドアプローチを導入する。 このハイブリッドなアプローチを3つの領域で評価し、既存のプログラムシンセサイザーと同様に、無誘導探索とLCMからの直接サンプリングの両方より優れていることを示す。

Many structured prediction and reasoning tasks can be framed as program synthesis problems, where the goal is to generate a program in a domain-specific language (DSL) that transforms input data into the desired output. Unfortunately, purely neural approaches, such as large language models (LLMs), often fail to produce fully correct programs in unfamiliar DSLs, while purely symbolic methods based on combinatorial search scale poorly to complex problems. Motivated by these limitations, we introduce a hybrid approach, where LLM completions for a given task are used to learn a task-specific, context-free surrogate model, which is then used to guide program synthesis. We evaluate this hybrid approach on three domains, and show that it outperforms both unguided search and direct sampling from LLMs, as well as existing program synthesizers.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 効率的な画像・映像生成のための双方向SSMを用いた拡散マンバのスケーリング

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation ( http://arxiv.org/abs/2405.15881v1 )

ライセンス: Link先を確認
Shentong Mo, Yapeng Tian, (参考訳) 近年では、選択的な状態空間アプローチで知られるMambaアーキテクチャが、長い列の効率的なモデリングの可能性を示している。 しかし、画像生成への応用はいまだ未定である。 自己アテンションブロックを利用する従来の拡散変圧器(DiT)は有効であるが、その計算複雑性は入力長と2倍に拡大し、高解像度画像の使用を制限する。 この課題に対処するために,拡張アーキテクチャDiffusion Mamba (DiM)を導入する。 Mambaアーキテクチャの本質的な効率を活用することで、DiMは高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持できる。 我々のアーキテクチャは、効果的にスケールするだけでなく、画像生成タスクとビデオ生成タスクの両方において、既存の拡散トランスフォーマーよりも優れています。 その結果、DiMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。 この研究は、生成モデルの分野を前進させ、スケーラブルアーキテクチャのさらなる応用の道を開く。

In recent developments, the Mamba architecture, known for its selective state space approach, has shown potential in the efficient modeling of long sequences. However, its application in image generation remains underexplored. Traditional diffusion transformers (DiT), which utilize self-attention blocks, are effective but their computational complexity scales quadratically with the input length, limiting their use for high-resolution images. To address this challenge, we introduce a novel diffusion architecture, Diffusion Mamba (DiM), which foregoes traditional attention mechanisms in favor of a scalable alternative. By harnessing the inherent efficiency of the Mamba architecture, DiM achieves rapid inference times and reduced computational load, maintaining linear complexity with respect to sequence length. Our architecture not only scales effectively but also outperforms existing diffusion transformers in both image and video generation tasks. The results affirm the scalability and efficiency of DiM, establishing a new benchmark for image and video generation techniques. This work advances the field of generative models and paves the way for further applications of scalable architectures.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 教師なし機械学習技術を用いた骨粗しょう症の危険因子同定

Risk Factor Identification In Osteoporosis Using Unsupervised Machine Learning Techniques ( http://arxiv.org/abs/2405.15882v1 )

ライセンス: Link先を確認
Mikayla Calitis, (参考訳) 本研究では, 電子カルテに新たなクラスタリング法を適用し, 骨粗しょう症に関連する危険因子の信頼性について検討した。 本研究は,クラスタリング,特徴選択,主機能識別という3つのコンポーネントのいずれかに適応可能な反復的クラスタリングフレームワークを含む,新たなClustering Iterations Framework(CLIF)の利用を提案する。 この研究は、ワッサーシュタイン距離を用いて主特徴を同定し、最適輸送理論から概念を借りることを提案する。 この研究では、ANOVAとアブレーションテストを組み合わせて、データセットから影響力のある特徴を選択することも提案されている。 既存の作業で提示されるいくつかのリスク要因は、特定された重要なクラスタによって支持され、他のリスク要因の信頼性は弱まっている。

In this study, the reliability of identified risk factors associated with osteoporosis is investigated using a new clustering-based method on electronic medical records. This study proposes utilizing a new CLustering Iterations Framework (CLIF) that includes an iterative clustering framework that can adapt any of the following three components: clustering, feature selection, and principal feature identification. The study proposes using Wasserstein distance to identify principal features, borrowing concepts from the optimal transport theory. The study also suggests using a combination of ANOVA and ablation tests to select influential features from a data set. Some risk factors presented in existing works are endorsed by our identified significant clusters, while the reliability of some other risk factors is weakened.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 拡散ブリッジインプリシットモデル

Diffusion Bridge Implicit Models ( http://arxiv.org/abs/2405.15885v1 )

ライセンス: Link先を確認
Kaiwen Zheng, Guande He, Jianfei Chen, Fan Bao, Jun Zhu, (参考訳) 拡散ブリッジモデル(DDBM)は、エンドポイントとして与えられる2つの任意のペア分布を補間するための拡散モデルの強力な変種である。 画像翻訳のようなタスクにおいて有望な性能にもかかわらず、DDBMは数百のネットワーク評価を通じて(確率的な)微分方程式のシミュレーションを含む計算集約的なサンプリングプロセスを必要とする。 本研究では,拡散橋暗黙モデル(DBIM)を提案する。 我々は,DDBMと同一の訓練目標を持つサンプリングに関する離散時間ステップで定義された非マルコフ拡散ブリッジのクラスを介してDDBMを一般化する。 これらの一般化拡散ブリッジは確率的から決定論的(すなわち暗黙の確率論的モデル)まで生成過程を引き起こし、DDBMのバニラサンプルよりも25$\times$速い。 さらに,DBIMによって得られる決定論的サンプリング処理により,初期サンプリングステップで使用されるブートノイズによる忠実な符号化と再構築が可能となり,遅延変数としてのブートノイズについて,画像翻訳タスクにおいて意味的に意味のある補間を行うことができる。

Denoising diffusion bridge models (DDBMs) are a powerful variant of diffusion models for interpolating between two arbitrary paired distributions given as endpoints. Despite their promising performance in tasks like image translation, DDBMs require a computationally intensive sampling process that involves the simulation of a (stochastic) differential equation through hundreds of network evaluations. In this work, we present diffusion bridge implicit models (DBIMs) for accelerated sampling of diffusion bridges without extra training. We generalize DDBMs via a class of non-Markovian diffusion bridges defined on the discretized timesteps concerning sampling, which share the same training objective as DDBMs. These generalized diffusion bridges give rise to generative processes ranging from stochastic to deterministic (i.e., an implicit probabilistic model) while being up to 25$\times$ faster than the vanilla sampler of DDBMs. Moreover, the deterministic sampling procedure yielded by DBIMs enables faithful encoding and reconstruction by a booting noise used in the initial sampling step, and allows us to perform semantically meaningful interpolation in image translation tasks by regarding the booting noise as the latent variable.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# CNNにおけるバイアス補正のためのニューロシンボリックフレームワーク

A Neurosymbolic Framework for Bias Correction in CNNs ( http://arxiv.org/abs/2405.15886v1 )

ライセンス: Link先を確認
Parth Padalkar, Natalia Ślusarz, Ekaterina Komendantskaya, Gopal Gupta, (参考訳) 畳み込みニューラルネットワーク(CNN)の最近の取り組みは、CNNフィルタの活性化を階層化されたAnswer Set Programming(ASP)ルールセットに変換することに焦点を当てている。 CNNフィルタは高レベルのイメージ概念をキャプチャすることで知られており、ルールセットの述語は、対応するフィルタが表現する概念にマッピングされる。 したがって、ルールセットは、任意の画像分類タスクで学習する概念の観点から、CNNの決定過程を効果的に例示する。 これらのルールセットは、CNNのバイアスを公開し、理解するのに役立ちます。 我々は、訓練されたCNNにおいて、バイアス補正のためのNeSyBiCorと呼ばれるニューロシンボリックフレームワークを導入する。 CNN が ASP 制約として表現されるようなシンボリックな概念を考えると、望ましくない概念と望ましい概念を対応するベクトル表現に変換する。 そして、CNNは我々の新しい意味的類似性損失を用いて再訓練され、フィルタが望ましくない概念の表現から遠ざけ、望ましい概念に近づける。 再トレーニング後に得られた最後のASPルールセットは、制約を高いレベルまで満たし、画像分類タスクに対するCNNの知識の見直しを示す。 我々のNeSyBiCorフレームワークは、PlacesデータセットのサブセットでトレーニングされたCNNのバイアスを、最終的なバイアス補正ルールセットw.r.t.t.の値を大幅に減らし、最小限の精度を犠牲にしつつ、解釈可能性を向上させることに成功している。

Recent efforts in interpreting Convolutional Neural Networks (CNNs) focus on translating the activation of CNN filters into stratified Answer Set Programming (ASP) rule-sets. The CNN filters are known to capture high-level image concepts, thus the predicates in the rule-set are mapped to the concept that their corresponding filter represents. Hence, the rule-set effectively exemplifies the decision-making process of the CNN in terms of the concepts that it learns for any image classification task. These rule-sets help expose and understand the biases in CNNs, although correcting the biases effectively remains a challenge. We introduce a neurosymbolic framework called NeSyBiCor for bias correction in a trained CNN. Given symbolic concepts that the CNN is biased towards, expressed as ASP constraints, we convert the undesirable and desirable concepts to their corresponding vector representations. Then, the CNN is retrained using our novel semantic similarity loss that pushes the filters away from the representations of concepts that are undesirable while pushing them closer to the concepts that are desirable. The final ASP rule-set obtained after retraining, satisfies the constraints to a high degree, thus showing the revision in the knowledge of the CNN for the image classification task. We demonstrate that our NeSyBiCor framework successfully corrects the biases of CNNs trained with subsets of classes from the Places dataset while sacrificing minimal accuracy and improving interpretability, by greatly decreasing the size of the final bias-corrected rule-set w.r.t. the initial rule-set.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# DDIMによるスコア蒸留

Score Distillation via Reparametrized DDIM ( http://arxiv.org/abs/2405.15891v1 )

ライセンス: Link先を確認
Artem Lukoianov, Haitz Sáez de Ocáriz Borde, Kristjan Greenewald, Vitor Campagnolo Guizilini, Timur Bagautdinov, Vincent Sitzmann, Justin Solomon, (参考訳) 2次元拡散モデルが現実的な高精細画像を生成する一方で、これらの2次元拡散モデル上に構築されたスコア蒸留サンプリング(SDS)のような3次元形状生成手法は、漫画のような、過度に滑らかな形状を生成する。 この相違を説明するために, スコア蒸留における画像誘導は, ノイズ項の選択に至るまでの2次元雑音生成過程の速度場として理解可能であることを示す。 特に、変数の変化の後、SDSは異なるサンプリングされたノイズ項を持つDenoising Diffusion Implicit Models (DDIM) の高分散バージョンに似ている: SDSは各ステップでランダムにノイズを導入し、DDIMは以前のノイズ予測からそれを推測する。 この過度の分散は過度に滑らかで非現実的な出力をもたらす。 本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。 この修正により、SDSの2次元画像の生成過程はDDIMとほぼ同一である。 3Dでは、過剰な平滑化を除去し、高頻度の細部を保存し、生成品質を2Dサンプルラーに近づける。 実験では,他の最先端のスコア蒸留法と比較して,ニューラルネットワークやマルチビューの監視を訓練することなく,拡散モデルによる2次元と3次元のアセット生成の関係について有用な知見を提供する。

While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS's generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# スプリアスモジュラー通勤機を用いた多体システム

Many-body systems with spurious modular commutators ( http://arxiv.org/abs/2405.15892v1 )

ライセンス: Link先を確認
Julian Gass, Michael Levin, (参考訳) 近年、ギャップを持つ2次元量子多体系のキラル中心電荷は、モジュラーコンピュテータとして知られるバルク基底状態の絡み合い尺度に比例することが提案されている。 この関係を支持する重要な証拠はあるが、本論文では普遍的ではないことを示す。 一方, 1次元と2次元の両方で, 任意の大きさのモジュラーコンピュレータに対して, 非ゼロの「スパーラス」値を与えるカイラル中心電荷が消滅する格子系の例を示す。 我々の例はクラスター状態に基づいており、非局在なモジュラーハミルトニアンを生成できるという事実を利用している。

Recently, it was proposed that the chiral central charge of a gapped, two-dimensional quantum many-body system is proportional to a bulk ground state entanglement measure known as the modular commutator. While there is significant evidence to support this relation, we show in this paper that it is not universal. We give examples of lattice systems that have vanishing chiral central charge which nevertheless give nonzero "spurious" values for the modular commutator for arbitrarily large system sizes, in both one and two dimensions. Our examples are based on cluster states and utilize the fact that they can generate nonlocal modular Hamiltonians.
翻訳日:2024-05-29 02:20:04 公開日:2024-05-24
# 確率的グラディエント蛍光の誘導体

Derivatives of Stochastic Gradient Descent ( http://arxiv.org/abs/2405.15894v1 )

ライセンス: Link先を確認
Franck Iutzeler, Edouard Pauwels, Samuel Vaiter, (参考訳) 目的がパラメータに依存する確率的最適化問題を,例えばハイパーパラメータ最適化でよく見られるように考察する。 本研究では,SGD(Stochastic Gradient Descent, SGD)の導体の挙動をそのパラメータに対して検討し, 元のSGDの収束によって摂動される異なる目的関数上の不正確なSGD再帰によって駆動されることを示す。 これにより、SGDの微分が、目的が強く凸するたびに平均二乗誤差の観点から解写像の微分に収束することを確立することができる。 具体的には、定常的なステップサイズでは、これらの導関数は解導関数を中心とするノイズボール内で安定化し、消滅したステップサイズでは$O(\log(k)^2 / k)$収束率を示すことを示した。 さらに、補間系における指数収束を証明した。 本研究は, 合成課題に関する数値実験により考察した。

We consider stochastic optimization problems where the objective depends on some parameter, as commonly found in hyperparameter optimization for instance. We investigate the behavior of the derivatives of the iterates of Stochastic Gradient Descent (SGD) with respect to that parameter and show that they are driven by an inexact SGD recursion on a different objective function, perturbed by the convergence of the original SGD. This enables us to establish that the derivatives of SGD converge to the derivative of the solution mapping in terms of mean squared error whenever the objective is strongly convex. Specifically, we demonstrate that with constant step-sizes, these derivatives stabilize within a noise ball centered at the solution derivative, and that with vanishing step-sizes they exhibit $O(\log(k)^2 / k)$ convergence rates. Additionally, we prove exponential convergence in the interpolation regime. Our theoretical findings are illustrated by numerical experiments on synthetic tasks.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# ミニマ・マニフォールドによるモデル拡大の影響予測 : 失われた景観の展望

Predicting the Impact of Model Expansion through the Minima Manifold: A Loss Landscape Perspective ( http://arxiv.org/abs/2405.15895v1 )

ライセンス: Link先を確認
Pranshu Malviya, Jerry Huang, Quentin Fournier, Sarath Chandar, (参考訳) 与えられたタスクの最適モデルは、データセットやモデルのサイズが大きくなるにつれて禁止される複数のモデルをスクラッチからトレーニングする必要があるため、決定が難しいことが多い。 より効率的な代替手段は、拡張することで、より小さな事前学習モデルの再利用であるが、このことがトレーニングダイナミクスにどのように影響するかが理解されていないため、広く採用されていない。 以前の研究はこれらの効果を測定する統計を導入したが、それらにはまだ欠陥がある。 これを修正するために、損失ランドスケープのレンズによる膨張の影響を理解し定量化するための新しいアプローチを提案し、これは線形連結されたミニマの多様体を含むことが示されている。 この新たな視点に基づいて、多様体の大きさを推定することにより、拡大の影響を研究する指標を提案する。 実験結果から, 性能と多様体の大きさの関係が明らかとなり, 候補モデルの比較が可能となり, 損失景観の幾何学的特性に基づいて, モデルをより確実に拡張する第一歩が提示された。

The optimal model for a given task is often challenging to determine, requiring training multiple models from scratch which becomes prohibitive as dataset and model sizes grow. A more efficient alternative is to reuse smaller pre-trained models by expanding them, however, this is not widely adopted as how this impacts training dynamics remains poorly understood. While prior works have introduced statistics to measure these effects, they remain flawed. To rectify this, we offer a new approach for understanding and quantifying the impact of expansion through the lens of the loss landscape, which has been shown to contain a manifold of linearly connected minima. Building on this new perspective, we propose a metric to study the impact of expansion by estimating the size of the manifold. Experimental results show a clear relationship between gains in performance and manifold size, enabling the comparison of candidate models and presenting a first step towards expanding models more reliably based on geometric properties of the loss landscape.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# カード予測と有色意味論による拡張的・代替的コミュニケーションの強化

Enhancing Augmentative and Alternative Communication with Card Prediction and Colourful Semantics ( http://arxiv.org/abs/2405.15896v1 )

ライセンス: Link先を確認
Jayr Pereira, Francisco Rodrigues, Jaylton Pereira, Cleber Zanchettin, Robson Fidalgo, (参考訳) 本稿では,ブラジルポルトガル語に特化するトランスフォーマーに基づく言語モデルとカラーフルセマンティックス(CS)を統合することで,AAC(Augmentative and Alternative Communication)システムの拡張手法を提案する。 通信カードの予測を改善するため,CS フレームワークを組み込んだ BERTptCS モデルを提案する。 主な目的は、複雑なコミュニケーションニーズを持つ個人に対して、AACシステムに不可欠な通信カード予測の精度と文脈的関連性を高めることである。 我々は,BERTptCSをベースラインモデルであるBERTptAACと比較した。 以上の結果から,BERTptCSは,トップk精度,平均相反ランク(MRR),エントロピー@Kなど,BERTptAACよりも有意に優れていた。 CSを言語モデルに統合することで予測精度が向上し、ユーザ入力をより直感的で文脈的に理解し、より効果的なコミュニケーションを容易にする。

This paper presents an approach to enhancing Augmentative and Alternative Communication (AAC) systems by integrating Colourful Semantics (CS) with transformer-based language models specifically tailored for Brazilian Portuguese. We introduce an adapted BERT model, BERTptCS, which incorporates the CS framework for improved prediction of communication cards. The primary aim is to enhance the accuracy and contextual relevance of communication card predictions, which are essential in AAC systems for individuals with complex communication needs (CCN). We compared BERTptCS with a baseline model, BERTptAAC, which lacks CS integration. Our results demonstrate that BERTptCS significantly outperforms BERTptAAC in various metrics, including top-k accuracy, Mean Reciprocal Rank (MRR), and Entropy@K. Integrating CS into the language model improves prediction accuracy and offers a more intuitive and contextual understanding of user inputs, facilitating more effective communication.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# Hacc-Man: LLMをジェイルブレイクするアーケードゲーム

Hacc-Man: An Arcade Game for Jailbreaking LLMs ( http://arxiv.org/abs/2405.15902v1 )

ライセンス: Link先を確認
Matheus Valentim, Jeanette Falk, Nanna Inie, (参考訳) 近年のLLM(Large Language Models)の複雑さとフラレンシの飛躍は、人類史上初めて、自然言語だけでコンピュータと対話できることを意味している。 これは、コンピューティングの自動化とアクセシビリティという重要な可能性を生み出すだけでなく、深刻なセキュリティと安全性の脅威も生じます。 必要なのは言語を創造的に活用することだけだ。 本稿では,LLMを倒して意図しないものを出力するゲームであるHacc-Manについて述べる。 ジェイルブレイクは、創造的な問題解決とLLMセキュリティの交差点にある。 ゲームの目的は3つある。 1. 日常システムにおける脆弱なLCMの展開リスクの認識を高めること。 2 LLMとの対話における自己効力を高めること、及び 3. 創造的な問題解決戦略を発見するために、人々はこの新しい文脈に展開する。

The recent leaps in complexity and fluency of Large Language Models (LLMs) mean that, for the first time in human history, people can interact with computers using natural language alone. This creates monumental possibilities of automation and accessibility of computing, but also raises severe security and safety threats: When everyone can interact with LLMs, everyone can potentially break into the systems running LLMs. All it takes is creative use of language. This paper presents Hacc-Man, a game which challenges its players to "jailbreak" an LLM: subvert the LLM to output something that it is not intended to. Jailbreaking is at the intersection between creative problem solving and LLM security. The purpose of the game is threefold: 1. To heighten awareness of the risks of deploying fragile LLMs in everyday systems, 2. To heighten people's self-efficacy in interacting with LLMs, and 3. To discover the creative problem solving strategies, people deploy in this novel context.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# UnitNorm: トランスフォーマーの正規化を時系列で再考する

UnitNorm: Rethinking Normalization for Transformers in Time Series ( http://arxiv.org/abs/2405.15903v1 )

ライセンス: Link先を確認
Nan Huang, Christian Kümmerle, Xiang Zhang, (参考訳) 正規化技術はトランスフォーマーモデルの性能向上と時系列解析タスクの安定性向上に不可欠であるが、バッチやレイヤの正規化といった従来の手法はトークンシフトやアテンションシフト、スパースアテンションといった問題を引き起こすことが多い。 入力ベクトルをノルムで拡張し、注意パターンを変調し、これらの課題を効果的に回避する新しい手法であるUnitNormを提案する。 既存の正規化フレームワークに基づいて、UnitNormの有効性は6つの最先端モデルと10のデータセットに関する厳密な評価を通じて、予測、分類、異常検出を含むさまざまな時系列分析タスクで実証されている。 特にUnitNormは、堅牢な注意機構とコンテキスト理解を必要とするシナリオにおいて、予測のためのMSEが最大1.46減少し、分類のための精度が4.89%向上していることが証明されている。 この研究は、時系列トランスフォーマーにおける正規化戦略の再評価だけでなく、モデル性能と安定性を向上させるための新たな方向性を定めている。 ソースコードはhttps://anonymous.4open.science/r/UnitNorm-5B84で公開されている。

Normalization techniques are crucial for enhancing Transformer models' performance and stability in time series analysis tasks, yet traditional methods like batch and layer normalization often lead to issues such as token shift, attention shift, and sparse attention. We propose UnitNorm, a novel approach that scales input vectors by their norms and modulates attention patterns, effectively circumventing these challenges. Grounded in existing normalization frameworks, UnitNorm's effectiveness is demonstrated across diverse time series analysis tasks, including forecasting, classification, and anomaly detection, via a rigorous evaluation on 6 state-of-the-art models and 10 datasets. Notably, UnitNorm shows superior performance, especially in scenarios requiring robust attention mechanisms and contextual comprehension, evidenced by significant improvements by up to a 1.46 decrease in MSE for forecasting, and a 4.89% increase in accuracy for classification. This work not only calls for a reevaluation of normalization strategies in time series Transformers but also sets a new direction for enhancing model performance and stability. The source code is available at https://anonymous.4open.science/r/UnitNorm-5B84.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# 部分的可観測性の下での優先度を考慮した計画のための状態問合せ法

Belief-State Query Policies for Planning With Preferences Under Partial Observability ( http://arxiv.org/abs/2405.15907v1 )

ライセンス: Link先を確認
Daniel Bramblett, Siddharth Srivastava, (参考訳) 現実の環境での計画では、ユーザーの好みに合わせて部分的な可観測性に対処する必要があることが多い。 本稿では、目標指向の部分的に観測可能なマルコフ決定プロセス(gPOMDPs)の設定において、パラメータ化信念状態クエリ(BSQ)を用いた部分的に観察可能な設定において、エージェントの振る舞いに関するユーザの好みを表現する新しいフレームワークを提案する。 このような選好の最初の形式的解析を行い、BSQ選好の期待値が凸関数 w.r. のパラメータではないことを証明し、有限地平線に対して有限な暗黙的な離散パラメータ探索空間を得る。 この理論的な結果から, gPOMDPエージェントの動作を最適化し, ユーザの嗜好遵守を保証できるアルゴリズムが誕生した。 理論的解析により、我々のアルゴリズムは極限における最適な嗜好に従順な振る舞いに収束することが証明される。 実証的な結果から、BSQの選好は部分的に観測可能な環境での選好を計画する上で、計算的に実現可能なアプローチであることが示された。

Planning in real-world settings often entails addressing partial observability while aligning with users' preferences. We present a novel framework for expressing users' preferences about agent behavior in a partially observable setting using parameterized belief-state query (BSQ) preferences in the setting of goal-oriented partially observable Markov decision processes (gPOMDPs). We present the first formal analysis of such preferences and prove that while the expected value of a BSQ preference is not a convex function w.r.t its parameters, it is piecewise constant and yields an implicit discrete parameter search space that is finite for finite horizons. This theoretical result leads to novel algorithms that optimize gPOMDP agent behavior while guaranteeing user preference compliance. Theoretical analysis proves that our algorithms converge to the optimal preference-compliant behavior in the limit. Empirical results show that BSQ preferences provide a computationally feasible approach for planning with preferences in partially observable settings.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# Reward Machineを用いた強化学習に基づく知識インフォーム自動貫入テスト

Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine ( http://arxiv.org/abs/2405.15908v1 )

ライセンス: Link先を確認
Yuanliang Li, Hanzheng Dai, Jun Yan, (参考訳) 強化学習(RL)に基づく自動浸透試験(AutoPT)は,情報システムにおける脆弱性識別の効率向上を実証している。 しかし、RLベースのPTはサンプリング効率の低さ、複雑な報酬仕様、限定的な解釈可能性など、いくつかの課題に直面している。 これらの課題に対処するために,報酬機(RM)を利用して,PTポリシーをトレーニングするためのガイドラインとしてドメイン知識を符号化する,DRLRM-PTと呼ばれる知識インフォームドAutoPTフレームワークを提案する。 本研究では,PTケーススタディとして側方運動に着目し,RMによる部分的に観察可能なマルコフ決定プロセス(POMDP)として定式化する。 側方運動のためのMITRE ATT\&CK知識ベースに基づく2つのRMを設計する。 POMDPを解き、PTポリシーを最適化するために、RM(DQRM)を用いた深層Q-ラーニングアルゴリズムを用いる。 実験の結果,DQRMエージェントは,知識を組み込まないエージェントに比べてPTのトレーニング効率が高いことがわかった。 さらに、より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示した。

Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# 正確かつ解釈可能な決定木を学習する

Learning accurate and interpretable decision trees ( http://arxiv.org/abs/2405.15911v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Dravyansh Sharma, (参考訳) 決定木は機械学習において一般的なツールであり、理解しやすいモデルを生成する。 決定木分類器を学習するためのいくつかの手法が文献で提案されており、異なる領域のデータに対して異なる手法がうまく機能している。 本研究では,同じドメインから繰り返しデータにアクセス可能な決定木学習アルゴリズムの設計手法を開発する。 本稿では,一般的なエントロピーとギニの不純物基準を補間するトップダウンアルゴリズムにおいて,ノード分割基準のパラメータ化クラスを提案し,データに適する分割関数の学習に必要なサンプル数に関する理論的境界を提供する。 また、ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し、決定木回帰に結果を拡張した。 さらに,ミンコスト複雑性プルーニングを含む古典的プルーニングアルゴリズムにおいて,決定木をプルーニングする際のハイパーパラメータのチューニングの問題についても検討する。 また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。 最後に、より正確かつ解釈可能なデータ固有の決定木を学習することで、実世界のデータセットに対するアプローチの重要性を実証する。

Decision trees are a popular tool in machine learning and yield easy-to-understand models. Several techniques have been proposed in the literature for learning a decision tree classifier, with different techniques working well for data from different domains. In this work, we develop approaches to design decision tree learning algorithms given repeated access to data from the same domain. We propose novel parameterized classes of node splitting criteria in top-down algorithms, which interpolate between popularly used entropy and Gini impurity based criteria, and provide theoretical bounds on the number of samples needed to learn the splitting function appropriate for the data at hand. We also study the sample complexity of tuning prior parameters in Bayesian decision tree learning, and extend our results to decision tree regression. We further consider the problem of tuning hyperparameters in pruning the decision tree for classical pruning algorithms including min-cost complexity pruning. We also study the interpretability of the learned decision trees and introduce a data-driven approach for optimizing the explainability versus accuracy trade-off using decision trees. Finally, we demonstrate the significance of our approach on real world datasets by learning data-specific decision trees which are simultaneously more accurate and interpretable.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# 構成等角予測によるニューロシンボリックプログラムの不確かさの定量化

Uncertainty Quantification for Neurosymbolic Programs via Compositional Conformal Prediction ( http://arxiv.org/abs/2405.15912v1 )

ライセンス: Link先を確認
Ramya Ramalingam, Sangdon Park, Osbert Bastani, (参考訳) 機械学習は、構造化ラベル(例:オブジェクト検出)で非構造化データ(例:イメージ)を自動的にアノテートする有効なツールになっている。 その結果、ニューロシンボリックプログラミングと呼ばれる新しいプログラミングパラダイムが出現し、ユーザーはこれらの予測されたアノテーションに対してクエリを書く。 しかし、機械学習モデルの本質的な誤認のため、これらのプログラムは現在では正確性の概念を欠いている。 多くのドメインでは、ユーザは、クエリの結果が関連するすべてのインスタンスを含む、ある種の保守的な保証を望んでいるかもしれません。 コンフォーマル予測は、個々のラベルではなくラベルの集合を予測するためにモデルを変更することによって機械学習の不確実性を定量化するための有望な戦略として現れており、予測セットが真のラベルを高い確率で含むという確率論的保証を提供する。 そこで我々は, 抽象的領域の抽象値として予測集合を表現し, 抽象的解釈を用いてプログラムを通して予測集合を伝播させることを戦略として, 共形予測をニューロシンボリックプログラムに適用する新しい枠組みを提案する。 私たちの戦略は3つの重要なデシダータを満たす。 (i)正確性(すなわち、プログラムは、真の出力を高い確率で含む予測セットを出力する) (ii)構成性(つまり、異なる加群に対して別々に不確かさを定量化し、それらを構成することができる)、 (iii)構造化された値(すなわち、リストのような構造化された値に対して不確実な定量化を提供することができる)。 そこで本研究では,中間プログラム点における共形予測を取り入れ,抽象解釈における不正確さを低減する最適化を提案する。 我々は,MNISTとMS-COCOの画像を入力として扱うプログラムに対するアプローチを評価し,カバー範囲の保証を満足しつつ,合理的な大きさの予測セットを生成することを示した。

Machine learning has become an effective tool for automatically annotating unstructured data (e.g., images) with structured labels (e.g., object detections). As a result, a new programming paradigm called neurosymbolic programming has emerged where users write queries against these predicted annotations. However, due to the intrinsic fallibility of machine learning models, these programs currently lack any notion of correctness. In many domains, users may want some kind of conservative guarantee that the results of their queries contain all possibly relevant instances. Conformal prediction has emerged as a promising strategy for quantifying uncertainty in machine learning by modifying models to predict sets of labels instead of individual labels; it provides a probabilistic guarantee that the prediction set contains the true label with high probability. We propose a novel framework for adapting conformal prediction to neurosymbolic programs; our strategy is to represent prediction sets as abstract values in some abstract domain, and then to use abstract interpretation to propagate prediction sets through the program. Our strategy satisfies three key desiderata: (i) correctness (i.e., the program outputs a prediction set that contains the true output with high probability), (ii) compositionality (i.e., we can quantify uncertainty separately for different modules and then compose them together), and (iii) structured values (i.e., we can provide uncertainty quantification for structured values such as lists). When the full program is available ahead-of-time, we propose an optimization that incorporates conformal prediction at intermediate program points to reduce imprecision in abstract interpretation. We evaluate our approach on programs that take MNIST and MS-COCO images as input, demonstrating that it produces reasonably sized prediction sets while satisfying a coverage guarantee.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# ディファレンシャル・プライベート・MLにおける帯域行列分解機構のスケールアップ

Scaling up the Banded Matrix Factorization Mechanism for Differentially Private ML ( http://arxiv.org/abs/2405.15913v1 )

ライセンス: Link先を確認
Ryan McKenna, (参考訳) DP-BandMFは、プライバシー増幅とノイズ相関のバランスをとることで、最適なノイズ低減を実現する。 しかし、そのスケーラビリティは、トレーニングイテレーションの数が10^4$未満の設定に限定されている。 本研究ではDP-BandMFのリーチを大幅に拡張し,10^6ドル以上のトレーニングイテレーションで使用可能な手法を提案する。 拡張実装は、広範な実験と合わせて、最適なバンド数を選択するための明確なガイドラインを提供する。 これらの洞察は、DP-BandMFのパフォーマンスと、プライバシ保護機械学習に対するその有用性を最大化する方法について、実践者に深い理解を与える。

DP-BandMF offers a powerful approach to differentially private machine learning, balancing privacy amplification with noise correlation for optimal noise reduction. However, its scalability has been limited to settings where the number of training iterations is less than $10^4$. In this work, we present techniques that significantly extend DP-BandMF's reach, enabling use in settings with and over $10^6$ training iterations. Our enhanced implementation, coupled with extensive experiments, provides clear guidelines on selecting the optimal number of bands. These insights offer practitioners a deeper understanding of DP-BandMF's performance and how to maximize its utility for privacy-preserving machine learning.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# ExactDreamer: Exact Score Matchingによる高忠実テキストから3Dコンテンツ作成

ExactDreamer: High-Fidelity Text-to-3D Content Creation via Exact Score Matching ( http://arxiv.org/abs/2405.15914v1 )

ライセンス: Link先を確認
Yumin Zhang, Xingyu Miao, Haoran Duan, Bo Wei, Tejal Shah, Yang Long, Rajiv Ranjan, (参考訳) テキストから3Dコンテンツの作成は、急速に発展している研究分野である。 3次元データの不足を考えると、現在のアプローチはしばしば3次元合成のために事前訓練された2次元拡散モデルを適用する。 これらの手法の中で、スコア蒸留サンプリング(SDS)が広く採用されている。 しかし、過度な平滑化の問題は、3Dモデルの高忠実度生成に重大な制限をもたらす。 この課題に対処するため、LucidDreamer は SDS の Denoising Diffusion Probabilistic Model (DDPM) を Denoising Diffusion Implicit Model (DDIM) に置き換え、Interval Score Matching (ISM) を構築する。 しかし、IDMは必然的にDDIMから不整合を継承し、DDIM逆転過程の再構築エラーを引き起こす。 これにより、3Dオブジェクトの詳細な生成やコンテンツの欠落といったパフォーマンスが低下する。 これらの問題を緩和するために,エクササイズスコアマッチング (Exact Score Matching, ESM) という新しい手法を提案する。 具体的には、EDMは補助変数を利用してDDIM逆過程の正確な回復を数学的に保証する。 さらに、元の変数と補助変数の動的変化を効果的に捉えるために、事前学習された拡散モデルのLoRAはこれらの正確な経路を実装している。 テキスト・ツー・3D生成におけるESMの有効性を示す大規模な実験は、特に詳細な生成におけるESMの優位性を強調している。

Text-to-3D content creation is a rapidly evolving research area. Given the scarcity of 3D data, current approaches often adapt pre-trained 2D diffusion models for 3D synthesis. Among these approaches, Score Distillation Sampling (SDS) has been widely adopted. However, the issue of over-smoothing poses a significant limitation on the high-fidelity generation of 3D models. To address this challenge, LucidDreamer replaces the Denoising Diffusion Probabilistic Model (DDPM) in SDS with the Denoising Diffusion Implicit Model (DDIM) to construct Interval Score Matching (ISM). However, ISM inevitably inherits inconsistencies from DDIM, causing reconstruction errors during the DDIM inversion process. This results in poor performance in the detailed generation of 3D objects and loss of content. To alleviate these problems, we propose a novel method named Exact Score Matching (ESM). Specifically, ESM leverages auxiliary variables to mathematically guarantee exact recovery in the DDIM reverse process. Furthermore, to effectively capture the dynamic changes of the original and auxiliary variables, the LoRA of a pre-trained diffusion model implements these exact paths. Extensive experiments demonstrate the effectiveness of ESM in text-to-3D generation, particularly highlighting its superiority in detailed generation.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# 誘導不規則ボース流体の逆カスケードから準拡散動的スケーリングへ

From inverse-cascade to sub-diffusive dynamic scaling in driven disordered Bose fluids ( http://arxiv.org/abs/2405.15915v1 )

ライセンス: Link先を確認
Elisabeth Gliott, Adam Rançon, Nicolas Cherroret, (参考訳) 本研究では, 外部駆動力と空間的障害の複合的影響の下で, 凝縮遷移に伴う相互作用するボースガスの普遍的動的スケーリングの出現について検討する。 時が経つにつれ、ボースガスが3つの異なる力学系を横切ることが分かる。 i) 相互作用が駆動を支配する逆乱流カスケード 二 逆カスケード及び駆動が互いに相反する静止状態 3) 駆動と障害が支配するエネルギー空間のサブ拡散カスケード、これは最近実験的に観察された現象である。 これら3つの力学系はすべて、自己相似スケーリング法則によって記述できることを示す。

We explore the emergence of universal dynamic scaling in an interacting Bose gas around the condensation transition, under the combined influence of an external driving force and spatial disorder. As time progresses, we find that the Bose gas crosses over three distinct dynamical regimes: (i) an inverse turbulent cascade where interactions dominate the drive, (ii) a stationary regime where the inverse cascade and the drive counterbalance one other, and (iii) a sub-diffusive cascade in energy space governed by the drive and disorder, a phenomenon recently observed experimentally. We show that all three dynamical regimes can be described by self-similar scaling laws.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# 操作ポリシーのためのオブジェクト中心シーンエンコーダとしてのジェネリック事前学習型視覚変換器のリキャスト

Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies ( http://arxiv.org/abs/2405.15916v1 )

ライセンス: Link先を確認
Jianing Qian, Anastasios Panagopoulos, Dinesh Jayaraman, (参考訳) 汎用的な再使用可能な事前学習画像表現エンコーダは、多くのコンピュータビジョンタスクのためのメソッドの標準コンポーネントとなっている。 しかし、ロボットの視覚的表現は限られており、ロボット固有のイメージエンコーダを事前訓練する動きが、一般的なロボットよりもロボットに向いている。 我々は、事前訓練された視覚変換器(PVT)モデルを取り巻くラッパーであるSOFT(Scene Objects From Transformers)を提案する。 最終層活性化のみから表現を構成するのではなく、SOFTはPVTの注意からオブジェクトのようなエンティティを識別し、PVTのアクティベーションで記述し、オブジェクト中心の埋め込みを生成する。 汎用的な事前学習型ビジョントランスフォーマーPVTの標準選択は、それぞれのケースにおいて、シミュレーションおよび実環境におけるタスク操作のためのSOFT(PVT)の標準PVT表現に基づいて訓練されたポリシーが、最先端のロボティクス対応の表現に近づいたことを実証する。 コード、付録、ビデオ:https://sites.google.com/view/robot-soft/

Generic re-usable pre-trained image representation encoders have become a standard component of methods for many computer vision tasks. As visual representations for robots however, their utility has been limited, leading to a recent wave of efforts to pre-train robotics-specific image encoders that are better suited to robotic tasks than their generic counterparts. We propose Scene Objects From Transformers, abbreviated as SOFT, a wrapper around pre-trained vision transformer (PVT) models that bridges this gap without any further training. Rather than construct representations out of only the final layer activations, SOFT individuates and locates object-like entities from PVT attentions, and describes them with PVT activations, producing an object-centric embedding. Across standard choices of generic pre-trained vision transformers PVT, we demonstrate in each case that policies trained on SOFT(PVT) far outstrip standard PVT representations for manipulation tasks in simulated and real settings, approaching the state-of-the-art robotics-aware representations. Code, appendix and videos: https://sites.google.com/view/robot-soft/
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# SF-DQN:Deep Reinforcement Learningのための継承機能を用いた確率的知識伝達

SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning ( http://arxiv.org/abs/2405.15920v1 )

ライセンス: Link先を確認
Shuai Zhang, Heshan Devaka Fernando, Miao Liu, Keerthiram Murugesan, Songtao Lu, Pin-Yu Chen, Tianyi Chen, Meng Wang, (参考訳) 本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。 この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピング(前者は遷移ダイナミクスを、後者はタスク固有報酬関数を特徴付ける)に分解することができる。 このQ関数分解は、一般化政策改善(GPI)と呼ばれる政策改善演算子と組み合わせて、最適なQ関数を見つける際のサンプルの複雑さを低減し、SF \& GPIフレームワークは、Q学習のような従来のRL手法と比較して有望な経験的性能を示す。 しかし、その理論的基盤は、特に深層ニューラルネットワーク(SF-DQN)を用いて後継機能を学ぶ際には、ほとんど確立されていない。 本稿では,移動RL問題におけるSFs-DQNを用いた証明可能な知識伝達について検討する。 GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。 この理論は、GPI を持つ SF-DQN が、より高速な収束率とより優れた一般化の両面から、ディープQ-ネットワークのような従来の RL アプローチより優れていることを明らかにしている。 実および合成RLタスクの数値実験により, SF-DQN \& GPIの優れた性能が得られた。

This paper studies the transfer reinforcement learning (RL) problem where multiple RL problems have different reward functions but share the same underlying transition dynamics. In this setting, the Q-function of each RL problem (task) can be decomposed into a successor feature (SF) and a reward mapping: the former characterizes the transition dynamics, and the latter characterizes the task-specific reward function. This Q-function decomposition, coupled with a policy improvement operator known as generalized policy improvement (GPI), reduces the sample complexity of finding the optimal Q-function, and thus the SF \& GPI framework exhibits promising empirical performance compared to traditional RL methods like Q-learning. However, its theoretical foundations remain largely unestablished, especially when learning the successor features using deep neural networks (SF-DQN). This paper studies the provable knowledge transfer using SFs-DQN in transfer RL problems. We establish the first convergence analysis with provable generalization guarantees for SF-DQN with GPI. The theory reveals that SF-DQN with GPI outperforms conventional RL approaches, such as deep Q-network, in terms of both faster convergence rate and better generalization. Numerical experiments on real and synthetic RL tasks support the superior performance of SF-DQN \& GPI, aligning with our theoretical findings.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# Spiketrum: FPGAによるニューロモルフィック・コクランの実装

Spiketrum: An FPGA-based Implementation of a Neuromorphic Cochlea ( http://arxiv.org/abs/2405.15923v1 )

ライセンス: Link先を確認
MHD Anas Alsakkal, Jayawan Wijekoon, (参考訳) 本稿では,汎用スパイク符号化アルゴリズムであるSpketrumを活用するFPGAベースのニューロモルフィック・コクリーを提案する。 本研究の焦点は, 音波振動を生体現実的な音波スパイクトレインに変換することの優れたコチェリーモデルの開発と特性評価である。 これらのスパイク列車は、入ってくる振動の強度とともに、音声の空間的および正確な時間的特性を正確にカプセル化しながら、神経揺らぎやスパイク損失に耐えるように設計されている。 注目すべき機能は、情報損失を最小限に抑えたリアルタイムスパイク列車を生成する機能と、元の信号を再構築する機能である。 この微調整機能により、ユーザーはスパイクレートを最適化し、出力品質と消費電力の最適バランスを達成することができる。 さらに、フィードバックシステムをSpketrumに統合することで、特定の機能を選択的に増幅し、他の機能を減衰させ、アプリケーション要求に基づいた適応電力消費を容易にする。 ハードウェア実装はスパイクベースと非スパイクベースのプロセッサの両方をサポートし、様々なコンピュータシステムに汎用的である。 音波形を超えて様々な感覚情報をエンコードし、現在および将来のスパイクベースのインテリジェントコンピューティングシステムのための有望な感覚入力として位置づけ、コンパクトでリアルタイムなスパイクトレイン生成を提供する。

This paper presents a novel FPGA-based neuromorphic cochlea, leveraging the general-purpose spike-coding algorithm, Spiketrum. The focus of this study is on the development and characterization of this cochlea model, which excels in transforming audio vibrations into biologically realistic auditory spike trains. These spike trains are designed to withstand neural fluctuations and spike losses while accurately encapsulating the spatial and precise temporal characteristics of audio, along with the intensity of incoming vibrations. Noteworthy features include the ability to generate real-time spike trains with minimal information loss and the capacity to reconstruct original signals. This fine-tuning capability allows users to optimize spike rates, achieving an optimal balance between output quality and power consumption. Furthermore, the integration of a feedback system into Spiketrum enables selective amplification of specific features while attenuating others, facilitating adaptive power consumption based on application requirements. The hardware implementation supports both spike-based and non-spike-based processors, making it versatile for various computing systems. The cochlea's ability to encode diverse sensory information, extending beyond sound waveforms, positions it as a promising sensory input for current and future spike-based intelligent computing systems, offering compact and real-time spike train generation.
翻訳日:2024-05-29 02:10:19 公開日:2024-05-24
# SLIDE: オープンドメイン対話評価のための小規模および大規模言語モデルの統合フレームワーク

SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation ( http://arxiv.org/abs/2405.15924v1 )

ライセンス: Link先を確認
Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin, Liang Zhan, (参考訳) オープンドメイン対話システムにおけるゴールド標準応答の長年の課題は,自動評価指標の課題である。 以前の研究は、強力なLarge Language Models (LLMs) を適用することでいくつかの成功を収めたものの、既存のアプローチはまだ1対多の問題に苦戦しており、ドメイン固有のシナリオでサブパーパフォーマンスを示す。 LLM内のコモンセンス推論バイアスは、ドメイン固有の評価においてそれらの性能を阻害する可能性があると仮定する。 両課題に対処するため,オープンドメイン対話の評価に小型特殊化モデル (SLM) と LLM を併用した新しいフレームワークSLIDE (Small and Large Integrated for Dialogue Evaluation) を提案する。 提案手法では,(1)ロバストな応答埋め込みと非ロバストな応答埋め込みを区別するコントラスト学習,(2)ニューラルネットワークで学習した類似性と,(3)SLMとLCMの両方による評価結果を組み込むための,セマンティック・セマンティック・セマンティック・セマンティクスの指標を導入する。 実験の結果,本手法は分類タスクと評価タスクの両方において最先端性能を実現しており,SLIDE評価器は人的判断との相関性も良好であることがわかった。 私たちのコードはhttps:// github.com/hegehongcha/SLIDE-ACL2024.comで公開されています。

The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation metrics. Though prior works have demonstrated some success by applying powerful Large Language Models (LLMs), existing approaches still struggle with the one-to-many problem, and exhibit subpar performance in domain-specific scenarios. We assume the commonsense reasoning biases within LLMs may hinder their performance in domainspecific evaluations. To address both issues, we propose a novel framework SLIDE (Small and Large Integrated for Dialogue Evaluation), that leverages both a small, specialised model (SLM), and LLMs for the evaluation of open domain dialogues. Our approach introduces several techniques: (1) Contrastive learning to differentiate between robust and non-robust response embeddings; (2) A novel metric for semantic sensitivity that combines embedding cosine distances with similarity learned through neural networks, and (3) a strategy for incorporating the evaluation results from both the SLM and LLMs. Our empirical results demonstrate that our approach achieves state-of-the-art performance in both the classification and evaluation tasks, and additionally the SLIDE evaluator exhibits better correlation with human judgements. Our code is available at https:// github.com/hegehongcha/SLIDE-ACL2024.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# MUCM-Net:皮膚損傷セグメンテーションのためのマンバパワーUCM-Net

MUCM-Net: A Mamba Powered UCM-Net for Skin Lesion Segmentation ( http://arxiv.org/abs/2405.15925v1 )

ライセンス: Link先を確認
Chunyu Yuan, Dongfang Zhao, Sos S. Agaian, (参考訳) 皮膚病変のセグメンテーションは早期皮膚がん検出の鍵となる。 皮膚内視鏡画像からの自動セグメンテーションの課題は、色、テクスチャ、および不明瞭な病変境界のアーティファクトのバリエーションである。 CNNやU-Netといったディープラーニング手法は、これらの問題に対処する上で有望であることを示している。 コンピュータ能力に限界があるモバイルデバイスにおいて早期診断をさらに支援するため,MUCM-Netを提案する。 この効率的なモデルは、機能学習とセグメンテーションを改善するために、Mamba State-Space ModelsとUCM-Netアーキテクチャを組み合わせたものです。 MUCM-NetのMamba-UCM Layerはモバイルデプロイメントに最適化されており、計算能力の低い高い精度を提供する。 ISICデータセットでテストされ、他の手法よりも精度と計算効率が優れており、限られたリソースで設定を早期に検出するためのスケーラブルなツールである。 MUCM-Netのソースコードは研究とコラボレーションに利用でき、モバイル健康診断の進歩と皮膚がんとの闘いを支援している。 MUCM-Net のソースコードは https://github.com/chunyuyuan/MUCM-Net である。

Skin lesion segmentation is key for early skin cancer detection. Challenges in automatic segmentation from dermoscopic images include variations in color, texture, and artifacts of indistinct lesion boundaries. Deep learning methods like CNNs and U-Net have shown promise in addressing these issues. To further aid early diagnosis, especially on mobile devices with limited computing power, we present MUCM-Net. This efficient model combines Mamba State-Space Models with our UCM-Net architecture for improved feature learning and segmentation. MUCM-Net's Mamba-UCM Layer is optimized for mobile deployment, offering high accuracy with low computational needs. Tested on ISIC datasets, it outperforms other methods in accuracy and computational efficiency, making it a scalable tool for early detection in settings with limited resources. Our MUCM-Net source code is available for research and collaboration, supporting advances in mobile health diagnostics and the fight against skin cancer. In order to facilitate accessibility and further research in the field, the MUCM-Net source code is https://github.com/chunyuyuan/MUCM-Net
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 変圧器の統計力学理論における注意経路の解釈

Dissecting the Interplay of Attention Paths in a Statistical Mechanics Theory of Transformers ( http://arxiv.org/abs/2405.15926v1 )

ライセンス: Link先を確認
Lorenzo Tiberi, Francesca Mignacco, Kazuki Irie, Haim Sompolinsky, (参考訳) トランスフォーマーの顕著な経験的パフォーマンスにもかかわらず、その理論的理解はいまだ解明されていない。 本稿では,トランスフォーマーと密接な関係を持つ深層多頭部自己注意ネットワークについて考察する。 このモデルでベイズ学習の統計力学理論を開発し、有限幅熱力学極限下でのネットワークの予測値統計の正確な方程式、すなわち$N,P\rightarrow\infty$, $P/N=\mathcal{O}(1)$を導出する。 我々の理論は、予測器の統計が独立したカーネルの和として表現され、それぞれが異なる「注意経路」をペアリングし、異なる注意点を階層にまたがる情報経路として定義されることを示している。 カーネルは、全カーネルとタスクラベルを整列する'タスク関連カーネルの組み合わせ'メカニズムに従って重み付けされる。 その結果、注意経路間のこの相互作用により、一般化性能が向上する。 合成および実世界のシーケンス分類タスクについて,本研究の成果を確認した。 最後に、我々の理論は、カーネル結合機構を学習した重みの性質に明示的に関連付け、その洞察を勾配降下によって訓練されたモデルに定性的に伝達することを可能にする。 実例として、我々の理論にあまり関係がないと考えられるこれらの注目ヘッドを刈り取ることにより、ネットワークの効率的なサイズ縮小を実証する。

Despite the remarkable empirical performance of Transformers, their theoretical understanding remains elusive. Here, we consider a deep multi-head self-attention network, that is closely related to Transformers yet analytically tractable. We develop a statistical mechanics theory of Bayesian learning in this model, deriving exact equations for the network's predictor statistics under the finite-width thermodynamic limit, i.e., $N,P\rightarrow\infty$, $P/N=\mathcal{O}(1)$, where $N$ is the network width and $P$ is the number of training examples. Our theory shows that the predictor statistics are expressed as a sum of independent kernels, each one pairing different 'attention paths', defined as information pathways through different attention heads across layers. The kernels are weighted according to a 'task-relevant kernel combination' mechanism that aligns the total kernel with the task labels. As a consequence, this interplay between attention paths enhances generalization performance. Experiments confirm our findings on both synthetic and real-world sequence classification tasks. Finally, our theory explicitly relates the kernel combination mechanism to properties of the learned weights, allowing for a qualitative transfer of its insights to models trained via gradient descent. As an illustration, we demonstrate an efficient size reduction of the network, by pruning those attention heads that are deemed less relevant by our theory.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 効率的なスパイクエンコーダ"Spiketrum"の応用評価

Application based Evaluation of an Efficient Spike-Encoder, "Spiketrum" ( http://arxiv.org/abs/2405.15927v1 )

ライセンス: Link先を確認
MHD Anas Alsakkal, Runze Wang, Jayawan Wijekoon, Huajin Tang, (参考訳) スパイクベースのエンコーダは、情報をスパイクまたはパルスのシーケンスとして表現し、ニューロン間で伝達される。 一般的なコンセンサスでは、スパイクベースのアプローチは、神経活動の時間的ダイナミクスを捉え、低消費電力アプリケーションにエネルギー効率の高いソリューションを提供する可能性を示す。 Spiketrumエンコーダはスパイクトレインやコードセット(非スパイクアプリケーション)を使って入力データを効率よく圧縮し、ハードウェアとソフトウェアの両方の実装に適応し、ロスレス信号再構成機能を持つ。 本稿では,スパイクレートの異なるハードウェアと,一般的なスパイクおよび非スパイキング分類器による分類性能の評価を行い,情報圧縮とハードウェア資源利用の質を評価する。 この論文は、Spketrumハードウェアとそのソフトウェアの両方を、最先端で生物学的に証明可能なエンコーダに対して広範囲にベンチマークしている。 評価は、分類精度、トレーニング速度、パターン認識におけるエンコーダ出力と、スパイキングおよび非スパイキング分類器の両方を用いた分類におけるスパーシリティなどのベンチマーク基準を含む。 さらに、彼らはエンコードされた出力エントロピーとハードウェアリソースの利用とエンコーダのハードウェアバージョンの消費電力を考慮する。 その結果、ほとんどのベンチマーク基準においてSpketrumが優れていることが示され、様々なアプリケーションにとって有望な選択となった。 低消費電力のハードウェア資源を効率的に利用し、高い分類精度を実現する。 この研究は、スパイクベースの処理におけるエンコーダの可能性を強調し、ニューラルコンピューティングシステムの効率と性能を改善する。

Spike-based encoders represent information as sequences of spikes or pulses, which are transmitted between neurons. A prevailing consensus suggests that spike-based approaches demonstrate exceptional capabilities in capturing the temporal dynamics of neural activity and have the potential to provide energy-efficient solutions for low-power applications. The Spiketrum encoder efficiently compresses input data using spike trains or code sets (for non-spiking applications) and is adaptable to both hardware and software implementations, with lossless signal reconstruction capability. The paper proposes and assesses Spiketrum's hardware, evaluating its output under varying spike rates and its classification performance with popular spiking and non-spiking classifiers, and also assessing the quality of information compression and hardware resource utilization. The paper extensively benchmarks both Spiketrum hardware and its software counterpart against state-of-the-art, biologically-plausible encoders. The evaluations encompass benchmarking criteria, including classification accuracy, training speed, and sparsity when using encoder outputs in pattern recognition and classification with both spiking and non-spiking classifiers. Additionally, they consider encoded output entropy and hardware resource utilization and power consumption of the hardware version of the encoders. Results demonstrate Spiketrum's superiority in most benchmarking criteria, making it a promising choice for various applications. It efficiently utilizes hardware resources with low power consumption, achieving high classification accuracy. This work also emphasizes the potential of encoders in spike-based processing to improve the efficiency and performance of neural computing systems.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# PatchProt:タンパク質基盤モデルを用いた疎水性パッチ予測

PatchProt: Hydrophobic patch prediction using protein foundation models ( http://arxiv.org/abs/2405.15928v1 )

ライセンス: Link先を確認
Dea Gogishvili, Emmanuel Minois-Genin, Jan van Eck, Sanne Abeln, (参考訳) タンパク質表面上の疎水性パッチは、タンパク質-タンパク質とタンパク質-リガンド相互作用において重要な機能的役割を担っている。 大規模な疎水性表面も凝集病の進行に関与している。 タンパク質配列からの疎水性パッチの露出を予測することは難しい課題であることが示されている。 ファインチューニング基盤モデルは、はるかに小さなデータセットを使用して、新しいタスクの特定のニュアンスにモデルを適応することができる。 さらに、マルチタスクのディープラーニングは、データのギャップに対処する上で有望なソリューションであり、同時にシングルタスクメソッドよりも優れています。 本研究では,最近リリースされた主要な言語モデルESM-2を利用した。 ESM-2の効率的な微調整は、最近開発されたパラメータ効率の良い微調整法を利用して達成された。 このアプローチにより、過剰なパラメータを伴わず、計算コストのかかる多重シーケンス分析を含まない、包括的なモデルレイヤのトレーニングが可能になった。 そこで我々は, モデル表現を改善するために, 局所的(残留) と大域的(タンパク質) のレベルでいくつかの関連タスクを探索した。 その結果、細調整されたESM-2モデルであるPatchProtは、疎水性パッチ領域の予測だけでなく、二次構造や表面アクセシビリティ予測など、既存の手法よりも優れていることがわかった。 重要なことは、我々の分析は、関連するローカルタスクを含めることで、より困難なグローバルタスクの予測を改善することができることを示している。 本研究は、配列に基づくタンパク質特性予測の新しい標準を設定し、関連するタスクのトレーニングによってモデル表現を豊かにする微調整基盤モデルの顕著な可能性を強調する。

Hydrophobic patches on protein surfaces play important functional roles in protein-protein and protein-ligand interactions. Large hydrophobic surfaces are also involved in the progression of aggregation diseases. Predicting exposed hydrophobic patches from a protein sequence has been shown to be a difficult task. Fine-tuning foundation models allows for adapting a model to the specific nuances of a new task using a much smaller dataset. Additionally, multi-task deep learning offers a promising solution for addressing data gaps, simultaneously outperforming single-task methods. In this study, we harnessed a recently released leading large language model ESM-2. Efficient fine-tuning of ESM-2 was achieved by leveraging a recently developed parameter-efficient fine-tuning method. This approach enabled comprehensive training of model layers without excessive parameters and without the need to include a computationally expensive multiple sequence analysis. We explored several related tasks, at local (residue) and global (protein) levels, to improve the representation of the model. As a result, our fine-tuned ESM-2 model, PatchProt, cannot only predict hydrophobic patch areas but also outperforms existing methods at predicting primary tasks, including secondary structure and surface accessibility predictions. Importantly, our analysis shows that including related local tasks can improve predictions on more difficult global tasks. This research sets a new standard for sequence-based protein property prediction and highlights the remarkable potential of fine-tuning foundation models enriching the model representation by training over related tasks.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# CUゲートの実装と遠隔制御量子演算への応用

Implementation of CU gates and its application in a remote-controlled quantum operation ( http://arxiv.org/abs/2405.15931v1 )

ライセンス: Link先を確認
Byungjoo Kim, Seongjin Hong, Yong-Su Kim, Kyunghwan Oh, Hyang-Tag Lim, (参考訳) 近年,セキュアな量子処理プロトコルや分散量子ネットワークへの応用のために,遠隔制御型量子情報処理が提案されている。 遠隔制御量子ゲートでは、任意の量子ゲート間の制御ユニタリゲート(CU)の実験的な実現が不可欠である。 本稿では、単一光子の偏光度と時間2自由度を用いて、任意のユニタリゲート間でCUゲートを実装する手法を実験的に提案する。 そこで我々は,制御キュービットの状態準備や測定を高プロセス忠実度で制御することにより,遠隔制御単一キュービットのユニタリゲートを実験的に実装した。 提案した遠隔制御量子ゲートモデルは、セキュアで効率的な量子情報処理の道を開くことができると考えている。

Recently, remote-controlled quantum information processing has been proposed for its applications in secure quantum processing protocols and distributed quantum networks. For remote-controlled quantum gates, the experimental realization of controlled unitary (CU) gates between any quantum gates is an essential task. Here, we propose and experimentally demonstrate a scheme for implementing CU gates between arbitrary pairs of unitary gates using the polarization and time-bin degrees of freedom of single-photons. Then, we experimentally implement remote-controlled single-qubit unitary gates by controlling either the state preparation or measurement of the control qubit with high process fidelities. We believe that the proposed remote-controlled quantum gate model can pave the way for secure and efficient quantum information processing.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# ステアブルトランス

Steerable Transformers ( http://arxiv.org/abs/2405.15932v1 )

ライセンス: Link先を確認
Soumyabrata Kundu, Risi Kondor, (参考訳) 本研究では、特殊ユークリッド群 $\mathrm{SE}(d)$ に同値を維持するビジョン変換器機構の拡張であるステアブル変換器を導入する。 本稿では, ステアブル・コンボリューションによって抽出された特徴に作用する同変アテンション機構を提案する。 フーリエ空間で動作するネットワークは、フーリエ空間の非線形性を利用する。 2次元と3次元の両方の実験では、ステアブルトランスフォーマーエンコーダ層をステアブル畳み込みネットワークに付加することで、性能が向上することが示された。

In this work we introduce Steerable Transformers, an extension of the Vision Transformer mechanism that maintains equivariance to the special Euclidean group $\mathrm{SE}(d)$. We propose an equivariant attention mechanism that operates on features extracted by steerable convolutions. Operating in Fourier space, our network utilizes Fourier space non-linearities. Our experiments in both two and three dimensions show that adding a steerable transformer encoder layer to a steerable convolution network enhances performance.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 非パラメトリックエキスパートの混合による生存データのクラスタリング

Clustering Survival Data using a Mixture of Non-parametric Experts ( http://arxiv.org/abs/2405.15934v1 )

ライセンス: Link先を確認
Gabriel Buginga, Edmundo de Souza e Silva, (参考訳) サバイバル分析は、医療結果から顧客の混乱に至るまで、様々な分野における将来の出来事のタイミングを予測することを目的としている。 しかし、クラスタリングのサバイバル分析への統合、特に精密医療については、未発見のままである。 本研究では,SurvMixClustを提案する。SurvMixClustは,クラスタリングとサバイバル関数予測を統合した,サバイバル解析のための新しいアルゴリズムである。 SurvMixClustはクラスタリングのための潜在表現を学習し、非パラメトリックの専門家の混合を用いて個々の生存関数を予測する。 5つの公開データセットで評価したところ,SurvMixClust は生存曲線の異なる平衡クラスタを生成し,クラスタリングベースラインを上回り,時間依存のc-index と log-rank の指標で測定されるように,クラスタリングサバイバルモデルと予測精度で競合することがわかった。

Survival analysis aims to predict the timing of future events across various fields, from medical outcomes to customer churn. However, the integration of clustering into survival analysis, particularly for precision medicine, remains underexplored. This study introduces SurvMixClust, a novel algorithm for survival analysis that integrates clustering with survival function prediction within a unified framework. SurvMixClust learns latent representations for clustering while also predicting individual survival functions using a mixture of non-parametric experts. Our evaluations on five public datasets show that SurvMixClust creates balanced clusters with distinct survival curves, outperforms clustering baselines, and competes with non-clustering survival models in predictive accuracy, as measured by the time-dependent c-index and log-rank metrics.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 事前学習大言語モデルを用いたゼロショットスパムメール分類

Zero-Shot Spam Email Classification Using Pre-trained Large Language Models ( http://arxiv.org/abs/2405.15936v1 )

ライセンス: Link先を確認
Sergio Rojas-Galeano, (参考訳) 本稿では,ゼロショットプロンプトを用いたスパムメール分類における事前学習型大規模言語モデル(LLM)の適用について検討する。 オープンソース (Flan-T5) とプロプライエタリ LLM (ChatGPT, GPT-4) の両方の性能をよく知られた SpamAssassin データセット上で評価した。 2つの分類手法について検討した。(1)メールの主題と身体から生の内容を抽出し,(2)ChatGPTが生成した要約に基づいて分類する。 私たちの経験的分析では、さらなるトレーニングをせずにデータセット全体を評価に活用することで、有望な結果が明らかになりました。 Flan-T5はtruncatedコンテンツアプローチで90%のF1スコアを達成する一方、GPT-4はサマリーを使用して95%F1スコアに達する。 これらの最初の発見は、LLMベースのサブタスク(例えば、要約と分類)の分類パイプラインの可能性を示しているが、多様なデータセットに対するさらなる検証が必要である。 プロプライエタリなモデルの高い運用コストとLLMの一般的な推論コストは、スパムフィルタリングの現実的な展開を著しく妨げる可能性がある。

This paper investigates the application of pre-trained large language models (LLMs) for spam email classification using zero-shot prompting. We evaluate the performance of both open-source (Flan-T5) and proprietary LLMs (ChatGPT, GPT-4) on the well-known SpamAssassin dataset. Two classification approaches are explored: (1) truncated raw content from email subject and body, and (2) classification based on summaries generated by ChatGPT. Our empirical analysis, leveraging the entire dataset for evaluation without further training, reveals promising results. Flan-T5 achieves a 90% F1-score on the truncated content approach, while GPT-4 reaches a 95% F1-score using summaries. While these initial findings on a single dataset suggest the potential for classification pipelines of LLM-based subtasks (e.g., summarisation and classification), further validation on diverse datasets is necessary. The high operational costs of proprietary models, coupled with the general inference costs of LLMs, could significantly hinder real-world deployment for spam filtering.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 航空ビュー人間検出のための合成データにおける人文の多様性

Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection ( http://arxiv.org/abs/2405.15939v1 )

ライセンス: Link先を確認
Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra S. Bhattacharyya, (参考訳) 本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。 提案手法は,まずポーズ生成器を用いて新規ポーズのセットを構築し,次に既存の合成データセットの画像を変更して,画像トランスレータを用いてオリジナルスタイルを維持しながら新規ポーズを仮定する。 新規ポーズに対応する画像はトレーニングでは利用できないため、入力とターゲットポーズが類似している場合にのみ、画像翻訳者が適用するように訓練されるので、新規ポーズとその対応する画像を必要としない。 次に、ダイクストラのアルゴリズムを用いて、新しいポーズセットから標的となる新規ポーズのシーケンスを選択し、そのシーケンス内に互いに近いポーズが配置されていることを確かめる。 最後に,画像トランスレータを各ターゲットポーズに連続して適用し,ソースポーズから様々な制限された身体の動きを表す新しいポーズ画像群を生成する。 実験により, 合成データがトレーニングにどのように使用されるか, あるいはデータサイズによらず, ポーズの異なる合成データセットをトレーニングに利用する場合, 従来の合成データセットを, 3つの航空ビュー人間検出ベンチマーク(VisDrone, Okutama-Action, ICG)で使用した場合よりも, 極めて精度が高いことが示された。

We present a framework for diversifying human poses in a synthetic dataset for aerial-view human detection. Our method firstly constructs a set of novel poses using a pose generator and then alters images in the existing synthetic dataset to assume the novel poses while maintaining the original style using an image translator. Since images corresponding to the novel poses are not available in training, the image translator is trained to be applicable only when the input and target poses are similar, thus training does not require the novel poses and their corresponding images. Next, we select a sequence of target novel poses from the novel pose set, using Dijkstra's algorithm to ensure that poses closer to each other are located adjacently in the sequence. Finally, we repeatedly apply the image translator to each target pose in sequence to produce a group of novel pose images representing a variety of different limited body movements from the source pose. Experiments demonstrate that, regardless of how the synthetic data is used for training or the data size, leveraging the pose-diversified synthetic dataset in training generally presents remarkably better accuracy than using the original synthetic dataset on three aerial-view human detection benchmarks (VisDrone, Okutama-Action, and ICG) in the few-shot regime.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 滑らか性のない確率的近点法の統一理論

A Unified Theory of Stochastic Proximal Point Methods without Smoothness ( http://arxiv.org/abs/2405.15941v1 )

ライセンス: Link先を確認
Peter Richtárik, Abdurakhmon Sadiev, Yury Demidovich, (参考訳) 本稿では,確率的近位点法(SPPM)の幅広いバリエーションを包括的に分析する。 近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めており、これは支配的確率勾配勾配(SGD)アルゴリズムでは共有されない特徴である。 本稿では,分散還元法や任意のサンプリング法などの手法を取り入れた仮定の枠組みについて述べる。 我々の一般的な理論的アプローチの土台は、反復、補正、制御ベクトルに関するパラメトリックな仮定である。 この仮定の下で線型収束と損失関数の$\mu$-strong凸性を保証する単一の定理を確立する。 この積分定理は、我々のアプローチの堅牢性を示すいくつかの既存の方法に対して、最もよく知られた複雑性と収束を保証することを再主張する。 我々はSPPMの3つの新しい変種を開発することで研究を拡張し、数値実験を通じてそれらの性質を解明する。

This paper presents a comprehensive analysis of a broad range of variations of the stochastic proximal point method (SPPM). Proximal point methods have attracted considerable interest owing to their numerical stability and robustness against imperfect tuning, a trait not shared by the dominant stochastic gradient descent (SGD) algorithm. A framework of assumptions that we introduce encompasses methods employing techniques such as variance reduction and arbitrary sampling. A cornerstone of our general theoretical approach is a parametric assumption on the iterates, correction and control vectors. We establish a single theorem that ensures linear convergence under this assumption and the $\mu$-strong convexity of the loss function, and without the need to invoke smoothness. This integral theorem reinstates best known complexity and convergence guarantees for several existing methods which demonstrates the robustness of our approach. We expand our study by developing three new variants of SPPM, and through numerical experiments we elucidate various properties inherent to them.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# インプシットバイアスは逆行性ロバスト性を引き起こすか?

Can Implicit Bias Imply Adversarial Robustness? ( http://arxiv.org/abs/2405.15942v1 )

ライセンス: Link先を確認
Hancheng Min, René Vidal, (参考訳) 勾配に基づくトレーニングアルゴリズムの暗黙のバイアスは、しばしばよく一般化されるトレーニングネットワークにつながるため、主に有益であると考えられている。 しかし、Frei et al (2023) はそのような暗黙の偏見が敵の頑健さを損なうことを示した。 具体的には、クラスタ間相関が小さいクラスタからなる場合、勾配流によって訓練された浅層(二層)のReLUネットワークはよく一般化するが、浅層ネットワークから明示的に構築できるより堅牢な分類器が存在するにもかかわらず、小半径の敵攻撃には堅牢ではない。 本稿では,近年のニューロンアライメント解析を拡張し,勾配流によってトレーニングされた多項式ReLU活性化(pReLU)の浅いネットワークが一般化するだけでなく,敵の攻撃に対して堅牢であることを示す。 本結果は,学習ネットワークの暗黙的バイアスとロバスト性において,データ構造とアーキテクチャ設計の相互作用の重要性を強調した。

The implicit bias of gradient-based training algorithms has been considered mostly beneficial as it leads to trained networks that often generalize well. However, Frei et al. (2023) show that such implicit bias can harm adversarial robustness. Specifically, when the data consists of clusters with small inter-cluster correlation, a shallow (two-layer) ReLU network trained by gradient flow generalizes well, but it is not robust to adversarial attacks of small radius, despite the existence of a much more robust classifier that can be explicitly constructed from a shallow network. In this paper, we extend recent analyses of neuron alignment to show that a shallow network with a polynomial ReLU activation (pReLU) trained by gradient flow not only generalizes well but is also robust to adversarial attacks. Our results highlight the importance of the interplay between data structure and architecture design in the implicit bias and robustness of trained networks.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 変圧器は残流における信念状態の幾何学を表現する

Transformers represent belief state geometry in their residual stream ( http://arxiv.org/abs/2405.15943v1 )

ライセンス: Link先を確認
Adam S. Shai, Sarah E. Marzen, Lucas Teixeira, Alexander Gietelink Oldenziel, Paul M. Riechers, (参考訳) 次世代の予測をトレーニングする際に、どんな計算構造を大規模言語モデルに組み込むのか? 本稿では、この構造が、データ生成過程の隠蔽状態を更新する信念のメタ力学によって与えられることを示す。 最適予測理論を応用して、予測された信念状態幾何が非常に非自明なフラクタル構造を持つ場合であっても、信念状態が変圧器の残留ストリームに線形に表現されることを予想し、発見する。 本研究では, 状態幾何学が最終残差ストリームに表現される場合や, 複数層の残差ストリームに分散する場合について検討し, それらの観察の枠組みを提供する。 さらに、推論された信念状態には、トランスフォーマーが明示的に訓練されているという局所的な次なる予測以上の、未来に関する情報が含まれていることを実証する。 我々の研究は、トレーニングデータの構造と、トランスフォーマーがそれらの振る舞いを実行するために使用する計算構造と表現を結びつけるフレームワークを提供する。

What computational structure are we building into large language models when we train them on next-token prediction? Here, we present evidence that this structure is given by the meta-dynamics of belief updating over hidden states of the data-generating process. Leveraging the theory of optimal prediction, we anticipate and then find that belief states are linearly represented in the residual stream of transformers, even in cases where the predicted belief state geometry has highly nontrivial fractal structure. We investigate cases where the belief state geometry is represented in the final residual stream or distributed across the residual streams of multiple layers, providing a framework to explain these observations. Furthermore we demonstrate that the inferred belief states contain information about the entire future, beyond the local next-token prediction that the transformers are explicitly trained on. Our work provides a framework connecting the structure of training data to the computational structure and representations that transformers use to carry out their behavior.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 積分球のみを用いた量子系における緩和散乱

Mitigating scattering in a quantum system using only an integrating sphere ( http://arxiv.org/abs/2405.15947v1 )

ライセンス: Link先を確認
Zhenfei Jiang, Tian Li, Matthew L. Boone, Zhenhuan Yi, Alexei V. Sokolov, Girish S. Agarwal, Marlan O. Scully, (参考訳) 強い量子関連ソースは、量子情報科学とエンジニアリングプロトコルにとって必須だが繊細なリソースである。 デコヒーレンスと損失は、量子相関における非古典的挙動の喪失につながる2つの主要な破壊過程である。 量子系では、散乱はデコヒーレンスと損失の両方に寄与する。 本研究では,量子系における散乱の悪影響を著しく軽減できる実験手法を提案する。 我々の量子系は、熱ルビジウム蒸気中の4波混合過程で発生する2モードの励起光から構成されており、この2つのモードのうちの1つに散乱器が導入された。 その後、散乱器の後に集積球が配置され、散乱した光子を再構成する。 量子相関の尺度として2つのモード間の相互情報を使用し、85%以上の光子損失にもかかわらず、散乱による47.5%の相互情報回復を示す。 我々の手法は、破壊的なランダムプロセスから量子相関を回復するための先駆的なステップであり、量子プロトコルの実証と実際の実世界の展開のギャップを埋める可能性を持っている。

Strong quantum-correlated sources are essential but delicate resources for quantum information science and engineering protocols. Decoherence and loss are the two main disruptive processes that lead to the loss of nonclassical behavior in quantum correlations. In quantum systems, scattering can contribute to both decoherence and loss. In this work, we present an experimental scheme capable of significantly mitigating the adverse impact of scattering in quantum systems. Our quantum system is composed of a two-mode squeezed light generated with the four-wave mixing process in hot rubidium vapor, and a scatterer is introduced to one of the two modes. An integrating sphere is then placed after the scatterer to recollect the scattered photons. We use mutual information between the two modes as the measure of quantum correlations, and demonstrate a 47.5% mutual information recovery from scattering, despite an enormous photon loss of greater than 85%. Our scheme is a pioneering step towards recovering quantum correlations from disruptive random processes, thus has the potential to bridge the gap between proof-of-principle demonstrations and practical real-world deployments of quantum protocols.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 熱化により帯電するデーモン量子電池

Daemonic quantum battery charged by thermalization ( http://arxiv.org/abs/2405.15949v1 )

ライセンス: Link先を確認
Matias Araya Satriani, Felipe Barra, (参考訳) 熱平衡における充電器に強く結合した小型システムの還元状態は熱的であり、一度切断された小さな電池として用いられる。 電池と充電器の相関を利用して、電池の抽出可能なエネルギーはエルゴトロピー以上に増加する。 我々は、量子システムをメモリとして使用し、充電器を計測し、充電状態に電池をそのまま残すプロトコルを導入する。 測定から得られた情報を用いて、電池のデイモンエルゴトロピーを抽出する。 その後、バッテリーを充電器に再接続し、加熱して充電する。 しかし、メモリは熱力学サイクルを閉じるために最初の標準状態に戻るべきである。 このように、サイクルの作業コストは、バッテリーチャージャー作業と測定・消去作業の合計である。 一方、抽出されたエネルギーは、バッテリのデイモンエルゴトロピーとメモリのエルゴトロピーである。 これらの量の割合はサイクルの効率を定義する。 このプロトコルは、バッテリとして機能する1つのスピンと充電器として機能する1つの横スピン1/2イジングチェーンによって例示される。 メモリは別の補助スピン1/2である。 我々は,電池から同じエゴトロピーを抽出し,同じ量のエネルギーを放出し,一方がアクティブな状態に,もう一方がパッシブな状態に残すような測定方法を発見した。 記憶のエルゴトロピーと,バッテリのデイモン的エルゴトロピーについて検討した。 測定により, 温度, 結合, 選択条件を考慮し, 測定不能なプロトコルよりも効率が優れていることがわかった。

The reduced state of a small system strongly coupled to a charger in thermal equilibrium may be athermal and used as a small battery once disconnected. By harnessing the battery-charger correlations, the battery's extractable energy can increase above the ergotropy. We introduce a protocol that uses a quantum system as a memory that measures the charger and leaves the battery intact in its charged state. Using the information gained from the measurement, the daemonic ergotropy of the battery is extracted. Then the battery is reconnected to the charger, thermalizing and charging it. However, the memory should return to its initial standard state to close the thermodynamic cycle. Thus, on the one hand, the work cost of the cycle is the sum of the disconnecting and reconnecting battery-charger work plus the measurement and erasure work. On the other hand, the extracted energy is the daemonic ergotropy of the battery plus the ergotropy of the memory. The ratio of these quantities defines the efficiency of the cycle. The protocol is exemplified by a modified transverse spin 1/2 Ising chain, one spin functioning as the battery and the others as the charger. The memory is another auxiliary spin 1/2. We found pairs of measurement schemes from which we extract the same daemonic ergotropy from the battery, they dissipate the same amount of energy, and one leaves the memory in an active state, the other in a passive state. We study the memory's ergotropy and the daemonic ergotropy of the battery. We find that with measurements, the efficiency can surpass that of the unmeasured protocol, given conditions on temperature, coupling, and choice of the measurement operators.
翻訳日:2024-05-29 01:58:51 公開日:2024-05-24
# 機械学習回帰モデルの体系的バイアスとその補正:イメージングに基づく脳年齢予測への応用

A Systematic Bias of Machine Learning Regression Models and Its Correction: an Application to Imaging-based Brain Age Prediction ( http://arxiv.org/abs/2405.15950v1 )

ライセンス: Link先を確認
Hwiyoung Lee, Shuo Chen, (参考訳) 継続的成果のための機械学習モデルは、しばしば体系的にバイアスのある予測をもたらし、特に平均から大きく逸脱する値に対してである。 特に、大評価結果の予測は負のバイアスを受ける傾向にあり、小評価結果の予測は正のバイアスを受ける傾向にある。 この線形中心傾向のバイアスを「機械学習回帰のシステムバイアス」と呼ぶ。 本稿では,この問題が様々な機械学習モデルにまたがって持続することを示すとともに,その理論的基盤を掘り下げる。 このバイアスを補正し,提案手法を実装するための計算効率の良いアルゴリズムを開発するために,一般化された制約付き最適化手法を提案する。 シミュレーションの結果,提案手法は予測結果のバイアスを効果的に除去することを示した。 提案手法を神経画像データを用いた脳年齢予測に適用する。 競合する機械学習モデルと比較して、脳年齢計算における「機械学習回帰の体系的バイアス」の長年の問題に効果的に対処し、脳年齢の偏りのない予測を導出する。

Machine learning models for continuous outcomes often yield systematically biased predictions, particularly for values that largely deviate from the mean. Specifically, predictions for large-valued outcomes tend to be negatively biased, while those for small-valued outcomes are positively biased. We refer to this linear central tendency warped bias as the "systematic bias of machine learning regression". In this paper, we first demonstrate that this issue persists across various machine learning models, and then delve into its theoretical underpinnings. We propose a general constrained optimization approach designed to correct this bias and develop a computationally efficient algorithm to implement our method. Our simulation results indicate that our correction method effectively eliminates the bias from the predicted outcomes. We apply the proposed approach to the prediction of brain age using neuroimaging data. In comparison to competing machine learning models, our method effectively addresses the longstanding issue of "systematic bias of machine learning regression" in neuroimaging-based brain age calculation, yielding unbiased predictions of brain age.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 非可逆SPT, ゲージングおよび対称性分数化

Non-invertible SPT, gauging and symmetry fractionalization ( http://arxiv.org/abs/2405.15951v1 )

ライセンス: Link先を確認
Yabo Li, Mikhail Litvinov, (参考訳) 量子ビットのテンソル積ヒルベルト空間上の1+1dクラスタ状態として、Rep($Q_8$)非可逆対称性保護位相状態(SPT)を明示的に認識する。 クラマース・ワニエ作用素を用いて、Rep($Q_8$)双対性Webにおけるすべての対称性の位相の格子モデルを構築する。 さらに、二重異常アーベル対称性を持つような非可逆SPT相を含むRep($G$)対称性を持つ格子モデルのクラスを構築することができることを示す。 双対化すると、オンサイト対称性、非オンサイト対称性、非アーベル対称性、および非可逆対称性の間にリッチな相互作用が存在する。 これらの相互作用は、2+1dバルクSETの対称性分数化を用いて説明できることを示す。

We explicitly realize the Rep($Q_8$) non-invertible symmetry-protected topological (SPT) state as a 1+1d cluster state on a tensor product Hilbert space of qubits. Using the Kramers-Wannier operator, we construct the lattice models for the phases of all the symmetries in the Rep($Q_8$) duality web. We further show that we can construct a class of lattice models with Rep($G$) symmetry including non-invertible SPT phases if they have a dual anomalous abelian symmetry. Upon dualizing, there is a rich interplay between onsite symmetries, non-onsite symmetries, non-abelian symmetries, and non-invertible symmetries. We show that these interplay can be explained using the symmetry fractionalization in the 2+1d bulk SET.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# Activator: ビジョントランスのコア機能としてのGLUアクティベーション

Activator: GLU Activations as The Core Functions of a Vision Transformer ( http://arxiv.org/abs/2405.15953v1 )

ライセンス: Link先を確認
Abdullah Nazhat Abdullah, Tarkan Aydin, (参考訳) トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処される様々なタスク、特に大規模言語モデル(LLM)で終わる自然言語処理(NLP)の最近の進歩において、多くの成功の要因となっている。 さらに、トランスフォーマーアーキテクチャはコンピュータビジョン(CV)の研究者や実践者から幅広い関心を集めており、視覚関連タスクの多くの進歩を可能にし、同じ操作原理を共有するマルチタスクおよびマルチモーダルディープラーニングアーキテクチャの扉を開くことができる。 これらのアーキテクチャの欠点の1つは、ソフトマックスアクティベーション機能を備えたスケールドドット製品アテンション機構に依存している点である。 本稿では,従来の変圧器設計に組み込まれたデフォルトMLPと合わせて,多層パーセプトロン(MLP)構造にゲート線形単位(GLU)の活性化を組み込んだアーキテクチャを用いて,変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。 本稿では,2番目の非ゲート型MLPを除去し,計算コストをさらに削減する。 本研究により, 提案した改良と縮小は, ベースラインアーキテクチャと競合する性能を示し, トランスフォーマーアーキテクチャ設計のコアコンポーネントとして, 従来の注目機構に代わる, より効率的かつ有能な代替手段を確立することを目的としている。

Transformer architecture currently represents the main driver behind many successes in a variety of tasks addressed by deep learning, especially the recent advances in natural language processing (NLP) culminating with large language models (LLM). In addition, transformer architecture has found a wide spread of interest from computer vision (CV) researchers and practitioners, allowing for many advancements in vision-related tasks and opening the door for multi-task and multi-modal deep learning architectures that share the same principle of operation. One drawback to these architectures is their reliance on the scaled dot product attention mechanism with the softmax activation function, which is computationally expensive and requires large compute capabilities both for training and inference. This paper investigates substituting the attention mechanism usually adopted for transformer architecture with an architecture incorporating gated linear unit (GLU) activation within a multi-layer perceptron (MLP) structure in conjunction with the default MLP incorporated in the traditional transformer design. Another step forward taken by this paper is to eliminate the second non-gated MLP to further reduce the computational cost. Experimental assessments conducted by this research show that both proposed modifications and reductions offer competitive performance in relation to baseline architectures, in support of the aims of this work in establishing a more efficient yet capable alternative to the traditional attention mechanism as the core component in designing transformer architectures.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# CFGs:ゴール指向ASP.NETを使用した因果制約のある非現実的説明

CFGs: Causality Constrained Counterfactual Explanations using goal-directed ASP ( http://arxiv.org/abs/2405.15956v1 )

ライセンス: Link先を確認
Sopam Dasgupta, Joaquín Arias, Elmer Salazar, Gopal Gupta, (参考訳) 意思決定を自動化する機械学習モデルは、ローンの承認、プレトライアルの保釈承認、雇用など、連続した分野でますます使われている。 残念なことに、これらのモデルのほとんどはブラックボックスである。 このような予測を正当化する透明性の必要性。 影響を受けた個人は、なぜ決定が下されたのかを理解するために説明を求めるかもしれない。 倫理的および法的考察は、望ましい結果をもたらすことができる入力属性(s)の変化の個人に通知する必要がある。 本研究は,特徴間の因果関係を考慮し,反実的説明を生成する後者の問題に焦点をあてる。 本稿では,ルールベース機械学習アルゴリズムで生成したモデルから,目標指向型Answer Set Programming(ASP)システムs(CASP)を利用したCFG, CounterFactual Generation with s(CASP)を提案する。 CFGをFOLD-SEモデルでベンチマークする。 カウンターファクトの状態を初期状態から切り離すことは計画されており、一連の介入によって達成される。 提案手法を検証するために, 事実的仮定が変更/変更された世界を想像することで, 事実的説明がどう計算され, 正当化されるかを示す。 さらに重要なことは、CFGがこれらの世界の間をいかにナビゲートするかを示し、すなわち、望ましくない結果が得られる最初の状態から、望まれる決定が得られ、特徴間の因果関係を考慮に入れられる、想像された目標状態へと向かう。

Machine learning models that automate decision-making are increasingly used in consequential areas such as loan approvals, pretrial bail approval, and hiring. Unfortunately, most of these models are black boxes, i.e., they are unable to reveal how they reach these prediction decisions. A need for transparency demands justification for such predictions. An affected individual might also desire explanations to understand why a decision was made. Ethical and legal considerations require informing the individual of changes in the input attribute (s) that could be made to produce a desirable outcome. Our work focuses on the latter problem of generating counterfactual explanations by considering the causal dependencies between features. In this paper, we present the framework CFGs, CounterFactual Generation with s(CASP), which utilizes the goal-directed Answer Set Programming (ASP) system s(CASP) to automatically generate counterfactual explanations from models generated by rule-based machine learning algorithms in particular. We benchmark CFGs with the FOLD-SE model. Reaching the counterfactual state from the initial state is planned and achieved using a series of interventions. To validate our proposal, we show how counterfactual explanations are computed and justified by imagining worlds where some or all factual assumptions are altered/changed. More importantly, we show how CFGs navigates between these worlds, namely, go from our initial state where we obtain an undesired outcome to the imagined goal state where we obtain the desired decision, taking into account the causal relationships among features.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 人間中心の自動化

Human-Centered Automation ( http://arxiv.org/abs/2405.15960v1 )

ライセンス: Link先を確認
Carlos Toxtli, (参考訳) LLM(Large Language Models)やMLLM(Multimodal Large Language Models)といったAI(Generative Artificial Intelligence)の急速な進歩は、さまざまな産業におけるデジタルシステムの働き方やインタラクションに革命をもたらす可能性がある。 しかしながら、Robotic Process Automation (RPA)フレームワークのようなソフトウェア自動化の現状は、しばしばドメインの専門知識を必要とし、可視性と直感的なインターフェースが欠如しているため、ユーザがこれらの技術を完全に活用することは困難である。 本稿では,自動化システムの設計・開発におけるユーザニーズと嗜好を優先するHCA(Human-Centered Automation)の新たな領域について論じる。 人-コンピュータインタラクション研究とケーススタディの実証的証拠に基づいて、自動化におけるユーザ視点を考慮することの重要性を強調し、人間中心の自動化ソリューションを設計するための枠組みを提案する。 本稿は、既存の自動化アプローチの限界、AIとRPAの統合の課題、生産性、イノベーション、そしてこれらの技術へのアクセスを民主化するための人間中心の自動化の利点について論じる。 我々は、オープンソースソリューションの重要性を強調し、急速に進歩するAIの時代において、HCAが個人や組織にどのように力を与えるかを例示し、競争力を維持するのに役立ちます。 また、より先進的でコンテキスト対応の自動化ソリューションを実現するための経路についても検討する。 私たちは、研究者や実践者がユーザーのニーズに適応し、直感的なインターフェースを提供し、ハイエンドAIの能力を活用して、よりアクセシブルでユーザフレンドリな自動化の未来を作る自動化テクノロジの開発に注力する、という行動を呼び掛けて締めくくります。

The rapid advancement of Generative Artificial Intelligence (AI), such as Large Language Models (LLMs) and Multimodal Large Language Models (MLLM), has the potential to revolutionize the way we work and interact with digital systems across various industries. However, the current state of software automation, such as Robotic Process Automation (RPA) frameworks, often requires domain expertise and lacks visibility and intuitive interfaces, making it challenging for users to fully leverage these technologies. This position paper argues for the emerging area of Human-Centered Automation (HCA), which prioritizes user needs and preferences in the design and development of automation systems. Drawing on empirical evidence from human-computer interaction research and case studies, we highlight the importance of considering user perspectives in automation and propose a framework for designing human-centric automation solutions. The paper discusses the limitations of existing automation approaches, the challenges in integrating AI and RPA, and the benefits of human-centered automation for productivity, innovation, and democratizing access to these technologies. We emphasize the importance of open-source solutions and provide examples of how HCA can empower individuals and organizations in the era of rapidly progressing AI, helping them remain competitive. The paper also explores pathways to achieve more advanced and context-aware automation solutions. We conclude with a call to action for researchers and practitioners to focus on developing automation technologies that adapt to user needs, provide intuitive interfaces, and leverage the capabilities of high-end AI to create a more accessible and user-friendly future of automation.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 定量的領域シフト対策と合成シーン画像を用いたグラウンドディング・スティリスティック・ドメインの一般化

Grounding Stylistic Domain Generalization with Quantitative Domain Shift Measures and Synthetic Scene Images ( http://arxiv.org/abs/2405.15961v1 )

ライセンス: Link先を確認
Yiran Luo, Joshua Feinglass, Tejas Gokhale, Kuan-Cheng Lee, Chitta Baral, Yezhou Yang, (参考訳) ドメイン一般化(Domain Generalization, DG)は、ドメイン不変の特徴の抽出を通じて、さまざまなドメイン間のシフトを理解するコヒーレントな能力を必要とする機械学習の課題である。 DG性能は、通常、様々な画像スタイルの領域で画像分類を行うことによって評価される。 しかし、現在の手法では、スタイリスティックなドメインのシフトに関する定量的な理解が欠如しており、ImageNet1Kのような大量の事前学習データに依存している。 このようなデータ駆動のプラクティスは、DGベンチマーク上での急激な相関とインフレーションパフォーマンスをもたらす可能性がある。 本稿では,これらのリスクに対処する新しいDGパラダイムを提案する。 まず1つのドメイン内のクラスの一貫性と2つのスタイリスティックなドメイン間の類似性の観点から、ドメインシフトを記述するための2つの新しい量的尺度 ICV と IDD を導入する。 次に、より一貫したクラスと、ImageNet1Kと比較して十分な相同性を持つ、ビデオゲームシーンからサンプリングされた新しい合成マルチドメインデータセットであるSuperMarioDomains(SMD)を提示する。 DG法SMOSを実証する。 SMOSはまずSMDを使用して前駆体モデルをトレーニングし、その後DGベンチマークでトレーニングを行う。 SMOSは5つのDGベンチマークにまたがって最先端のパフォーマンスに寄与し、抽象領域における性能を大幅に改善し、写真リアリスティック領域における性能をわずかに改善する。 我々の定性的分析は、これらの改善は、もともとの遠い領域間の分布のばらつきの減少に起因する可能性があることを示唆している。 私たちのデータはhttps://github.com/fpsluozi/SMD-SMOSで公開されています。

Domain Generalization (DG) is a challenging task in machine learning that requires a coherent ability to comprehend shifts across various domains through extraction of domain-invariant features. DG performance is typically evaluated by performing image classification in domains of various image styles. However, current methodology lacks quantitative understanding about shifts in stylistic domain, and relies on a vast amount of pre-training data, such as ImageNet1K, which are predominantly in photo-realistic style with weakly supervised class labels. Such a data-driven practice could potentially result in spurious correlation and inflated performance on DG benchmarks. In this paper, we introduce a new DG paradigm to address these risks. We first introduce two new quantitative measures ICV and IDD to describe domain shifts in terms of consistency of classes within one domain and similarity between two stylistic domains. We then present SuperMarioDomains (SMD), a novel synthetic multi-domain dataset sampled from video game scenes with more consistent classes and sufficient dissimilarity compared to ImageNet1K. We demonstrate our DG method SMOS. SMOS first uses SMD to train a precursor model, which is then used to ground the training on a DG benchmark. We observe that SMOS contributes to state-of-the-art performance across five DG benchmarks, gaining large improvements to performances on abstract domains along with on-par or slight improvements to those on photo-realistic domains. Our qualitative analysis suggests that these improvements can be attributed to reduced distributional divergence between originally distant domains. Our data are available at https://github.com/fpsluozi/SMD-SMOS .
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 半教師付き人間行動認識のためのウェアラブルに基づく行動補間

Wearable-based behaviour interpolation for semi-supervised human activity recognition ( http://arxiv.org/abs/2405.15962v1 )

ライセンス: Link先を確認
Haoran Duan, Shidong Wang, Varun Ojha, Shizheng Wang, Yawen Huang, Yang Long, Rajiv Ranjan, Yefeng Zheng, (参考訳) HAR(Human Activity Recognition)の伝統的な特徴工学は、試行錯誤のプロセスを含むが、ディープラーニングは、センサーに基づく人間の活動の高レベルな表現の方法として好まれている。 しかし、ほとんどのディープラーニングベースのHARは、大量のラベル付きデータを必要とし、効果的なディープラーニングトレーニングを行うために、未学習データからHAR特徴を抽出するのは難しいままである。 そこで我々は,ラベル付きアクティビティと非ラベル付きアクティビティを同時に使用する深層半教師付きHARアプローチであるMixHARを導入する。 われわれのMixHARは線形補間機構を用いてラベル付きおよび非ラベル付き活性をブレンドし, 活性間および活性内変動に対処する。 そこで我々は, 混合キャリブレーション機構を提案し, 特徴埋め込み空間内でのミキシングキャリブレーションを緩和する手法を提案する。 さらに, 従来の5つの半教師技術について, HARのベンチマークとして, 厳密に検討し, 評価を行った。 以上の結果から,MixHARはHARにおける深層半教師技術の可能性を示すとともに,性能を著しく向上させることが示された。

While traditional feature engineering for Human Activity Recognition (HAR) involves a trial-anderror process, deep learning has emerged as a preferred method for high-level representations of sensor-based human activities. However, most deep learning-based HAR requires a large amount of labelled data and extracting HAR features from unlabelled data for effective deep learning training remains challenging. We, therefore, introduce a deep semi-supervised HAR approach, MixHAR, which concurrently uses labelled and unlabelled activities. Our MixHAR employs a linear interpolation mechanism to blend labelled and unlabelled activities while addressing both inter- and intra-activity variability. A unique challenge identified is the activityintrusion problem during mixing, for which we propose a mixing calibration mechanism to mitigate it in the feature embedding space. Additionally, we rigorously explored and evaluated the five conventional/popular deep semi-supervised technologies on HAR, acting as the benchmark of deep semi-supervised HAR. Our results demonstrate that MixHAR significantly improves performance, underscoring the potential of deep semi-supervised techniques in HAR.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 構文的プライミングのための階層的ベイズモデル

A hierarchical Bayesian model for syntactic priming ( http://arxiv.org/abs/2405.15964v1 )

ライセンス: Link先を確認
Weijie Xu, Richard Futrell, (参考訳) シンタクティックプライミングの効果は、語彙の隆起、逆周波数効果、非対称崩壊の3つのよく文書化された経験的性質を示す。 本稿では,これら3つの経験的現象を,階層的ベイズモデル (HBM) の一般学習枠組みにおいてどのように解釈できるかを示すことを目的とする。 このモデルは構文統計の階層構造における構文知識を表し、下層は構文決定の動詞固有のバイアスを表し、上層は動詞固有のバイアスの集合として抽象的バイアスを表す。 この知識はベイズ推定による経験に応じて更新される。 シミュレーションでは,HBMが合成プライミングの上記の特性を捉える。 その結果、通常、残余のアクティベーションアカウントによって説明されるプライミングの特性は、暗黙の学習アカウントでも説明できることがわかった。 また,構文プライミングの語彙的基礎に対するモデルの影響についても論じる。

The effect of syntactic priming exhibits three well-documented empirical properties: the lexical boost, the inverse frequency effect, and the asymmetrical decay. We aim to show how these three empirical phenomena can be reconciled in a general learning framework, the hierarchical Bayesian model (HBM). The model represents syntactic knowledge in a hierarchical structure of syntactic statistics, where a lower level represents the verb-specific biases of syntactic decisions, and a higher level represents the abstract bias as an aggregation of verb-specific biases. This knowledge is updated in response to experience by Bayesian inference. In simulations, we show that the HBM captures the above-mentioned properties of syntactic priming. The results indicate that some properties of priming which are usually explained by a residual activation account can also be explained by an implicit learning account. We also discuss the model's implications for the lexical basis of syntactic priming.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# ゴールドロックの顔認証テストセットって何?

What is a Goldilocks Face Verification Test Set? ( http://arxiv.org/abs/2405.15965v1 )

ライセンス: Link先を確認
Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer, (参考訳) 顔認識モデルは、何百万もの画像を含むWebスクラッドデータセットでトレーニングされ、ポーズ、年齢、混合属性を強調するテストセットで評価される。 ウェブスクラッド画像から収集された列車とテストセットの両方により、列車とテストセット間の不整合性の集合を保証することが重要である。 しかし、既存の列車や試験機はこれを考慮していない。 さらに、LFW $>99.8\%$のような精度レベルが飽和するにつれて、より困難なテストセットが必要になる。 現在の列車とテストセットは、一般的にアイデンティティやイメージの不一致ではなく、その結果、推定精度に楽観的なバイアスが生じることを示す。 さらに, 検証精度の10倍のクロスバリデーション推定において, 個人差分が重要であることを示す。 顔認識の継続的な進歩をサポートするため、私たちは2つの"Goldilocks"テストセット、HadrianとEclipseを紹介します。 前者は挑戦的な顔の髪型を強調し、後者は過度な露光条件と過度な露光条件を強調している。 両方のデータセットのイメージは、大きくて制御された(Webスクラッドではない)データセットから取得される。 これらの新しいテストセットの正確性は、LFW、CPLFW、CALFW、CFP-FP、 AgeDB-30で観測されたものよりも低く、これらのデータセットが顔認識を改善するための重要な次元を表していることを示している。 データセットは以下の通りである。 \url{https://github.com/HaiyuWu/SOTA-Face-Recognition-Train-and-Test}

Face Recognition models are commonly trained with web-scraped datasets containing millions of images and evaluated on test sets emphasizing pose, age and mixed attributes. With train and test sets both assembled from web-scraped images, it is critical to ensure disjoint sets of identities between train and test sets. However, existing train and test sets have not considered this. Moreover, as accuracy levels become saturated, such as LFW $>99.8\%$, more challenging test sets are needed. We show that current train and test sets are generally not identity- or even image-disjoint, and that this results in an optimistic bias in the estimated accuracy. In addition, we show that identity-disjoint folds are important in the 10-fold cross-validation estimate of test accuracy. To better support continued advances in face recognition, we introduce two "Goldilocks" test sets, Hadrian and Eclipse. The former emphasizes challenging facial hairstyles and latter emphasizes challenging over- and under-exposure conditions. Images in both datasets are from a large, controlled-acquisition (not web-scraped) dataset, so they are identity- and image-disjoint with all popular training sets. Accuracy for these new test sets generally falls below that observed on LFW, CPLFW, CALFW, CFP-FP and AgeDB-30, showing that these datasets represent important dimensions for improvement of face recognition. The datasets are available at: \url{https://github.com/HaiyuWu/SOTA-Face-Recognition-Train-and-Test}
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# ロバスト幅:軽量で認証可能な敵防衛

Robust width: A lightweight and certifiable adversarial defense ( http://arxiv.org/abs/2405.15971v1 )

ライセンス: Link先を確認
Jonathan Peck, Bart Goossens, (参考訳) ディープニューラルネットワークは、モデルが誤った予測や分類を行うように意図的に構築された入力という、いわゆる逆例に対して脆弱である。 敵対的な例は、多くの場合、自然のデータサンプルと視覚的に区別できないため、検出が困難である。 そのため、深層学習システムの信頼性に重大な脅威が生じる。 本研究では,最近圧縮センシングに導入されたロバスト幅特性(RWP)に基づく対角防御について検討する。 本稿では、RWPに基づく特定の入力浄化方式により、ほぼスパースな画像に対して理論的ロバスト性を保証することを示す。 ディフェンスは実装が容易で、追加のトレーニングや微調整なしに既存のモデルに適用できる。 摂動予算(4/255ドルから32/255ドルまで)における$L^\infty$摂動に対するImageNetの防御を実証的に検証する。 ブラックボックス設定では,本手法は特に大きな摂動に対して,最先端の手法よりも優れていた。 ホワイトボックス設定では、ベース分類器の選択に応じて、高機能なImageNet分類における最先端の状況と密に一致し、追加データ、より大きなモデル、高価な敵の訓練ルーチンを回避します。 私たちのコードはhttps://github.com/peck94/robust-width-defense.comで利用可能です。

Deep neural networks are vulnerable to so-called adversarial examples: inputs which are intentionally constructed to cause the model to make incorrect predictions or classifications. Adversarial examples are often visually indistinguishable from natural data samples, making them hard to detect. As such, they pose significant threats to the reliability of deep learning systems. In this work, we study an adversarial defense based on the robust width property (RWP), which was recently introduced for compressed sensing. We show that a specific input purification scheme based on the RWP gives theoretical robustness guarantees for images that are approximately sparse. The defense is easy to implement and can be applied to any existing model without additional training or finetuning. We empirically validate the defense on ImageNet against $L^\infty$ perturbations at perturbation budgets ranging from $4/255$ to $32/255$. In the black-box setting, our method significantly outperforms the state-of-the-art, especially for large perturbations. In the white-box setting, depending on the choice of base classifier, we closely match the state of the art in robust ImageNet classification while avoiding the need for additional data, larger models or expensive adversarial training routines. Our code is available at https://github.com/peck94/robust-width-defense.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 自己改善による大規模視覚言語モデルにおける視覚言語モダリティアライメントの強化

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement ( http://arxiv.org/abs/2405.15973v1 )

ライセンス: Link先を確認
Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao, (参考訳) 大規模視覚言語モデル(LVLM)は、特定のデータセットに対する視覚指導による様々な視覚的質問応答および推論タスクにおいて印象的な結果を得た。 しかし、視覚的モダリティと言語的モダリティの整合性を改善する余地は依然として大きい。 このアライメントを強化するには、通常、その能力と品質に大きく依存する外部モデルやデータが必要である。 本稿では,自己改善による視覚的・言語的モダリティの整合性を向上し,外部モデルやデータの必要性を解消するフレームワークであるSIMAを提案する。 SIMAは、既存のビジョンインストラクションチューニングデータセットからのプロンプトを活用して、自己生成応答を生成し、コンテキスト内自己批判機構を使用して、優先順位調整のためのレスポンスペアを選択する。 重要なイノベーションは、コンテキスト内自己批判プロセス中に3つの視覚メトリクスを導入し、画像の理解を深める応答の選択においてLVLMを導くことである。 14の幻覚と総合的なベンチマークの実験を通して、SIMAは全てのベンチマークでモデル性能を向上するだけでなく、過去のアプローチよりも優れたモダリティアライメントを実現することを示した。

Large vision-language models (LVLMs) have achieved impressive results in various visual question-answering and reasoning tasks through vision instruction tuning on specific datasets. However, there is still significant room for improvement in the alignment between visual and language modalities. Previous methods to enhance this alignment typically require external models or data, heavily depending on their capabilities and quality, which inevitably sets an upper bound on performance. In this paper, we propose SIMA, a framework that enhances visual and language modality alignment through self-improvement, eliminating the needs for external models or data. SIMA leverages prompts from existing vision instruction tuning datasets to self-generate responses and employs an in-context self-critic mechanism to select response pairs for preference tuning. The key innovation is the introduction of three vision metrics during the in-context self-critic process, which can guide the LVLM in selecting responses that enhance image comprehension. Through experiments across 14 hallucination and comprehensive benchmarks, we demonstrate that SIMA not only improves model performance across all benchmarks but also achieves superior modality alignment, outperforming previous approaches.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# シークエンシャル意思決定におけるユーティリティと時間優先の推論

Inference of Utilities and Time Preference in Sequential Decision-Making ( http://arxiv.org/abs/2405.15975v1 )

ライセンス: Link先を確認
Haoyang Cao, Zhengqi Wu, Renyuan Xu, (参考訳) 本稿では,過去の業務からクライアントの投資嗜好を正確に推測することで,自動投資管理者やロボアドバイザの能力を高めるための,新しい確率制御フレームワークを提案する。 提案手法は,各クライアントのリスク許容度,日々の消費評価,重要な生活目標に合わせた,実用機能と時間変化率の一般的な割引スキームを組み込んだ連続時間モデルを活用する。 我々は、状態拡張と動的プログラミング原理の確立と検証定理の確立を通じて、結果の時間的矛盾問題に対処する。 また、顧客投資嗜好の特定可能性について十分な条件を提供する。 理論的発展を補完するために,エントロピー正則化を付加した離散時間マルコフ決定プロセスフレームワーク内での最大推定に基づく学習アルゴリズムを提案する。 ログのような関数が局所的に凹凸であることが証明され,提案アルゴリズムの高速収束が促進される。 実効性と効率性は、メルトンの問題と、未解決のリスクを伴う投資問題を含む2つの数値的な例を通して示される。 提案する枠組みは、個別の投資アドバイスを改善することで金融技術を発展させるだけでなく、個別の嗜好を理解することが不可欠である医療、経済学、人工知能など他の分野にも広く貢献する。

This paper introduces a novel stochastic control framework to enhance the capabilities of automated investment managers, or robo-advisors, by accurately inferring clients' investment preferences from past activities. Our approach leverages a continuous-time model that incorporates utility functions and a generic discounting scheme of a time-varying rate, tailored to each client's risk tolerance, valuation of daily consumption, and significant life goals. We address the resulting time inconsistency issue through state augmentation and the establishment of the dynamic programming principle and the verification theorem. Additionally, we provide sufficient conditions for the identifiability of client investment preferences. To complement our theoretical developments, we propose a learning algorithm based on maximum likelihood estimation within a discrete-time Markov Decision Process framework, augmented with entropy regularization. We prove that the log-likelihood function is locally concave, facilitating the fast convergence of our proposed algorithm. Practical effectiveness and efficiency are showcased through two numerical examples, including Merton's problem and an investment problem with unhedgeable risks. Our proposed framework not only advances financial technology by improving personalized investment advice but also contributes broadly to other fields such as healthcare, economics, and artificial intelligence, where understanding individual preferences is crucial.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# トレーニングセットのサイズが動物の再識別に及ぼす影響を理解する

Understanding the Impact of Training Set Size on Animal Re-identification ( http://arxiv.org/abs/2405.15976v1 )

ライセンス: Link先を確認
Aleksandr Algasov, Ekaterina Nepovinnykh, Tuomas Eerola, Heikki Kälviäinen, Charles V. Stewart, Lasha Otarashvili, Jason A. Holmberg, (参考訳) 近年、画像から動物を自動識別する技術が進歩し、カメラトラップや市民科学プロジェクトを通じて野生生物を研究する新たな可能性が高まっている。 既存の手法では、毛皮の模様や傷跡などの視覚的な特徴を区別し、通常、局所的な特徴とエンドツーエンドの学習という2つの戦略の1つを用いる。 本研究では,6つの異なる方法と5種の動物に対して総合的な実験を行うことで,トレーニングセットサイズの影響を調査した。 高品質な訓練データが得られると、エンド・ツー・エンドの学習ベースの手法が局所的特徴ベース手法を上回ることはよく知られているが、そのようなデータセットを野生動物に集めることの難しさは、多くの種にとって、局所的特徴ベース手法がより実践的なアプローチであることを意味している。 地域特徴とエンド・ツー・エンドの学習に基づくアプローチの利点を実証し,種特異的な特徴,特に個人内変異が,データ要求の訓練に顕著な影響を及ぼすことを示す。

Recent advancements in the automatic re-identification of animal individuals from images have opened up new possibilities for studying wildlife through camera traps and citizen science projects. Existing methods leverage distinct and permanent visual body markings, such as fur patterns or scars, and typically employ one of two strategies: local features or end-to-end learning. In this study, we delve into the impact of training set size by conducting comprehensive experiments across six different methods and five animal species. While it is well known that end-to-end learning-based methods surpass local feature-based methods given a sufficient amount of good-quality training data, the challenge of gathering such datasets for wildlife animals means that local feature-based methods remain a more practical approach for many species. We demonstrate the benefits of both local feature and end-to-end learning-based approaches and show that species-specific characteristics, particularly intra-individual variance, have a notable effect on training data requirements.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# BadGD: 勾配降下脆弱性を識別するための統合データ中心フレームワーク

BadGD: A unified data-centric framework to identify gradient descent vulnerabilities ( http://arxiv.org/abs/2405.15979v1 )

ライセンス: Link先を確認
Chi-Hua Wang, Guang Cheng, (参考訳) 我々は,戦略的バックドア攻撃による勾配降下アルゴリズムの脆弱性を明らかにする統一理論フレームワークであるBadGDを提案する。 バックドア攻撃では、悪意のあるトリガーをトレーニングデータセットに埋め込んで、モデルの学習プロセスを妨害する。 我々のフレームワークでは, 最大リスクワープ・トリガー, Max GradWarp Trigger, Max GradDistWarp Triggerの3つの新しい構造を導入している。 クリーンでバックドアのデータセットを厳格に定義し、悪質なバックドアトリガーによる歪みを評価する数学的定式化を提供する。 これらのトリガがモデルトレーニング手順に与える影響を計測することにより、我々のフレームワークは既存の経験的知見を理論的知見で橋渡しし、悪意ある者が勾配降下ハイパーパラメータをいかに活用して攻撃効果を最大化できるかを実証する。 特に,これらの手法により損失景観や勾配の計算が大幅に変化し,モデルの整合性と性能が損なわれることを示す。 この研究は、このようなデータ中心の攻撃によって引き起こされる深刻な脅威を強調し、機械学習における堅牢な防御の必要性を強調している。 BadGDは、AIシステムの信頼性とセキュリティを確保するために、敵の操作を理解し緩和するための新しい標準を設定している。

We present BadGD, a unified theoretical framework that exposes the vulnerabilities of gradient descent algorithms through strategic backdoor attacks. Backdoor attacks involve embedding malicious triggers into a training dataset to disrupt the model's learning process. Our framework introduces three novel constructs: Max RiskWarp Trigger, Max GradWarp Trigger, and Max GradDistWarp Trigger, each designed to exploit specific aspects of gradient descent by distorting empirical risk, deterministic gradients, and stochastic gradients respectively. We rigorously define clean and backdoored datasets and provide mathematical formulations for assessing the distortions caused by these malicious backdoor triggers. By measuring the impact of these triggers on the model training procedure, our framework bridges existing empirical findings with theoretical insights, demonstrating how a malicious party can exploit gradient descent hyperparameters to maximize attack effectiveness. In particular, we show that these exploitations can significantly alter the loss landscape and gradient calculations, leading to compromised model integrity and performance. This research underscores the severe threats posed by such data-centric attacks and highlights the urgent need for robust defenses in machine learning. BadGD sets a new standard for understanding and mitigating adversarial manipulations, ensuring the reliability and security of AI systems.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 局所探索による階層クラスタリング

Hierarchical Clustering via Local Search ( http://arxiv.org/abs/2405.15983v1 )

ライセンス: Link先を確認
Hossein Jowhari, (参考訳) 本稿では階層クラスタリングのための局所探索アルゴリズムを提案する。 局所的なステップでは、木階層内で密に位置付けられた2つのサブツリーをスワップする木再配置操作を {\emchange} と呼ぶ。 インターチェンジ操作は、以前は系統樹の文脈で用いられてきた。 得られた階層を客観的に評価する関数として、Moseley and Wang (NIPS 2017) が提案した収益関数を利用する: 主な結果として、任意の局所最適木が少なくとも$\frac{n-2}{3}\sum_{i <j}w(i,j)$の収益を保証していることを示す: [n] \times [n] \rightarrow \mathbb{R}^+$ は、関連した類似性関数である。 この発見は、Moseley と Wang が分析した平均リンクアルゴリズムの既定境界を反映している。 このアライメントは、平均リンクツリーが、インターチェンジ操作に関して局所的に最適である性質を享受しているため、一致しないことを示す。 その結果,本研究では,平均リンクアルゴリズムに対する代替的な知見を提供し,比較的高い収益を得られる幅広い階層の存在を,局所探索アルゴリズムにより明らかにした。 さらに、各ローカルステップが$O(n)$計算時間を必要とするローカル検索フレームワークの実装を提案する。 実験の結果,提案手法は後処理のステップとして利用され,実質的な収益を伴う階層的クラスタリングを効果的に生成できることが示唆された。

In this paper, we introduce a local search algorithm for hierarchical clustering. For the local step, we consider a tree re-arrangement operation, known as the {\em interchange}, which involves swapping two closely positioned sub-trees within a tree hierarchy. The interchange operation has been previously used in the context of phylogenetic trees. As the objective function for evaluating the resulting hierarchies, we utilize the revenue function proposed by Moseley and Wang (NIPS 2017.) In our main result, we show that any locally optimal tree guarantees a revenue of at least $\frac{n-2}{3}\sum_{i < j}w(i,j)$ where is $n$ the number of objects and $w: [n] \times [n] \rightarrow \mathbb{R}^+$ is the associated similarity function. This finding echoes the previously established bound for the average link algorithm as analyzed by Moseley and Wang. We demonstrate that this alignment is not coincidental, as the average link trees enjoy the property of being locally optimal with respect to the interchange operation. Consequently, our study provides an alternative insight into the average link algorithm and reveals the existence of a broader range of hierarchies with relatively high revenue achievable through a straightforward local search algorithm. Furthermore, we present an implementation of the local search framework, where each local step requires $O(n)$ computation time. Our empirical results indicate that the proposed method, used as post-processing step, can effectively generate a hierarchical clustering with substantial revenue.
翻訳日:2024-05-29 01:49:07 公開日:2024-05-24
# 大規模言語モデルに対する検索型インコンテキスト学習の逆ロバスト性の評価

Evaluating the Adversarial Robustness of Retrieval-Based In-Context Learning for Large Language Models ( http://arxiv.org/abs/2405.15984v1 )

ライセンス: Link先を確認
Simon Chi Lok Yu, Jie He, Pasquale Minervini, Jeff Z. Pan, (参考訳) LLaMAやOpenAI GPT-3といった大規模言語モデルの出現に伴い、ICL(In-Context Learning)はその有効性と効率性から大きな注目を集めた。 しかし、ICLはプロンプトのデモをエンコードするために使われる選択、順序、動詞に非常に敏感である。 Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。 このアプローチはより正確な結果をもたらすが、テストサンプルの摂動、デモ、検索されたデータなど、様々な種類の敵攻撃に対する堅牢性は未調査のままである。 本研究は,バニラICLが4.87%のアタック成功率(ASR)を低下させることで,検索強化モデルがテストサンプル攻撃に対する堅牢性を向上することを明らかにする。 敵の訓練は、敵の攻撃に対するICL法の堅牢性を改善するのに役立つが、そのような訓練スキームはLLMの文脈ではコストがかかりすぎる。 代替として、攻撃されたサンプルをサンプルプールに濃縮する効果的な訓練自由敵防衛手法であるDARDを導入する。 DARDは性能とロバスト性を向上し,ベースラインよりもASRの15%削減を実現している。 コードとデータは、さらなる研究を促進するためにリリースされている。

With the emergence of large language models, such as LLaMA and OpenAI GPT-3, In-Context Learning (ICL) gained significant attention due to its effectiveness and efficiency. However, ICL is very sensitive to the choice, order, and verbaliser used to encode the demonstrations in the prompt. Retrieval-Augmented ICL methods try to address this problem by leveraging retrievers to extract semantically related examples as demonstrations. While this approach yields more accurate results, its robustness against various types of adversarial attacks, including perturbations on test samples, demonstrations, and retrieved data, remains under-explored. Our study reveals that retrieval-augmented models can enhance robustness against test sample attacks, outperforming vanilla ICL with a 4.87% reduction in Attack Success Rate (ASR); however, they exhibit overconfidence in the demonstrations, leading to a 2% increase in ASR for demonstration attacks. Adversarial training can help improve the robustness of ICL methods to adversarial attacks; however, such a training scheme can be too costly in the context of LLMs. As an alternative, we introduce an effective training-free adversarial defence method, DARD, which enriches the example pool with those attacked samples. We show that DARD yields improvements in performance and robustness, achieving a 15% reduction in ASR over the baselines. Code and data are released to encourage further research: https://github.com/simonucl/adv-retreival-icl
翻訳日:2024-05-29 01:39:22 公開日:2024-05-24
# Fact-Checkingにおける生成AIの影響と可能性

The Impact and Opportunities of Generative AI in Fact-Checking ( http://arxiv.org/abs/2405.15985v1 )

ライセンス: Link先を確認
Robert Wolfe, Tanushree Mitra, (参考訳) フォーチュン500企業の90%以上がOpenAIのフラッグシップGPTモデルを使用しており、経済の画期的な変化に影響を及ぼす「汎用技術」として特徴付けられている。 しかし、そのような技術は、事実情報を検証し報告し、情報エコシステムの健全性を確保するという仕事を持つ組織にどのように影響しますか? この問題を調査するため、6大陸29のファクトチェック組織で働くN=38参加者を対象に30回のインタビューを行い、生成AIをどのように利用するのか、テクノロジーで見る機会と課題について質問した。 その結果, ファクトチェッカーが想定する生成AIの利用は, 組織インフラ, 編集における品質保証, 調査における傾向分析, アドボカシーにおける情報リテラシーなどによって異なることがわかった。 我々はTOEフレームワークを用いて、技術(透明性の欠如)から組織(リソース制約)、環境(不確実で進化する政策)まで、関係者の関心事を記述した。 参加者の洞察に基づいて、ファクトチェックと生成AIの間に価値の緊張関係を記述し、情報検証作業のための生成モデルの設計空間に新しい検証ディメンションを提案する。 最後に、ファクトチェックにおける生成AIの責任ある使用を支援するために、公正性、説明責任、透明性研究に関する議題を概説する。 全体として、AIと協調して検証された情報を生成する上で、人間のインフラと労働の重要性を強調します。 この研究は、事実確認に関する科学的文献だけでなく、強力で信頼性の低い新しい技術への組織的適応の理解にも貢献することを期待している。

Generative AI appears poised to transform white collar professions, with more than 90% of Fortune 500 companies using OpenAI's flagship GPT models, which have been characterized as "general purpose technologies" capable of effecting epochal changes in the economy. But how will such technologies impact organizations whose job is to verify and report factual information, and to ensure the health of the information ecosystem? To investigate this question, we conducted 30 interviews with N=38 participants working at 29 fact-checking organizations across six continents, asking about how they use generative AI and the opportunities and challenges they see in the technology. We found that uses of generative AI envisioned by fact-checkers differ based on organizational infrastructure, with applications for quality assurance in Editing, for trend analysis in Investigation, and for information literacy in Advocacy. We used the TOE framework to describe participant concerns ranging from the Technological (lack of transparency), to the Organizational (resource constraints), to the Environmental (uncertain and evolving policy). Building on the insights of our participants, we describe value tensions between fact-checking and generative AI, and propose a novel Verification dimension to the design space of generative models for information verification work. Finally, we outline an agenda for fairness, accountability, and transparency research to support the responsible use of generative AI in fact-checking. Throughout, we highlight the importance of human infrastructure and labor in producing verified information in collaboration with AI. We expect that this work will inform not only the scientific literature on fact-checking, but also contribute to understanding of organizational adaptation to a powerful but unreliable new technology.
翻訳日:2024-05-29 01:39:22 公開日:2024-05-24
# 並列サンプリングによる拡散モデルの高速化:準線形時間複雑度での推論

Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity ( http://arxiv.org/abs/2405.15986v1 )

ライセンス: Link先を確認
Haoxuan Chen, Yinuo Ren, Lexing Ying, Grant M. Rotskoff, (参考訳) 拡散モデルは、画像データと科学データの両方を生成モデリングする主要な方法となっている。 これらのモデルは訓練と評価に費用がかかるため、拡散モデルの推論コストの削減は依然として大きな目標である。 並列サンプリング手法~\cite{shih2024parallel} による拡散モデルの高速化に関する最近の実証的な成功から着想を得て、サンプリングプロセスを各ブロック内に並列化可能なPicard繰り返しを持つ$\mathcal{O}(1)$ブロックに分割することを提案する。 厳密な理論解析により、我々のアルゴリズムが$\widetilde{\mathcal{O}}(\mathrm{poly} \log d)$全体の時間複雑性を達成し、証明可能なサブ線形複雑性を持つ最初の実装であるデータ次元$d$をマークする。 我々の分析は、Girsanovの定理の一般化版に基づいており、SDEと確率フローODEの実装の両方と互換性がある。 我々の結果は、高速で効率的な高次元データサンプリングの可能性に光を当てた。

Diffusion models have become a leading method for generative modeling of both image and scientific data. As these models are costly to train and evaluate, reducing the inference cost for diffusion models remains a major goal. Inspired by the recent empirical success in accelerating diffusion models via the parallel sampling technique~\cite{shih2024parallel}, we propose to divide the sampling process into $\mathcal{O}(1)$ blocks with parallelizable Picard iterations within each block. Rigorous theoretical analysis reveals that our algorithm achieves $\widetilde{\mathcal{O}}(\mathrm{poly} \log d)$ overall time complexity, marking the first implementation with provable sub-linear complexity w.r.t. the data dimension $d$. Our analysis is based on a generalized version of Girsanov's theorem and is compatible with both the SDE and probability flow ODE implementations. Our results shed light on the potential of fast and efficient sampling of high-dimensional data on fast-evolving modern large-memory GPU clusters.
翻訳日:2024-05-29 01:39:22 公開日:2024-05-24
# 深部逆ダイナミクスモデル学習による安全制御器の移動

Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model ( http://arxiv.org/abs/2405.13735v2 )

ライセンス: Link先を確認
Alireza Nadali, Ashutosh Trivedi, Majid Zamani, (参考訳) 制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。 しかし、制御障壁証明書を設計することは、ドメイン知識と数学的成熟という形で専門家の入力を必要とする、時間と計算コストのかかる取り組みである。 さらに、システムが若干の変更を加えると、新しいコントローラとその正当性証明書を再計算し、元のコントローラの設計時に直面したものと同じような計算課題を発生させる必要がある。 従来のアプローチでは、制御不変性を保ちながら、バリア証明書の形で安全保証を転送するために転送学習を利用してきた。 残念なことに、現実的な環境では、ソースとターゲット環境は、制御入力において著しく逸脱し、前述のアプローチは実用的ではない。 この課題に対処するために、ターゲットシステムの所望の後継者状態に対して必要なアクションを提案するニューラルネットワークである「emph{inverse dynamics}」を、ソースコードのバリア証明書と統合して、安全性の正式な証明を提供することを提案する。 さらに,制御器の正しさを保証できる妥当性条件を提案する。 3つのケーススタディを通じて,本手法の有効性を実証した。

Control barrier certificates have proven effective in formally guaranteeing the safety of the control systems. However, designing a control barrier certificate is a time-consuming and computationally expensive endeavor that requires expert input in the form of domain knowledge and mathematical maturity. Additionally, when a system undergoes slight changes, the new controller and its correctness certificate need to be recomputed, incurring similar computational challenges as those faced during the design of the original controller. Prior approaches have utilized transfer learning to transfer safety guarantees in the form of a barrier certificate while maintaining the control invariant. Unfortunately, in practical settings, the source and the target environments often deviate substantially in their control inputs, rendering the aforementioned approach impractical. To address this challenge, we propose integrating \emph{inverse dynamics} -- a neural network that suggests required action given a desired successor state -- of the target system with the barrier certificate of the source system to provide formal proof of safety. In addition, we propose a validity condition that, when met, guarantees correctness of the controller. We demonstrate the effectiveness of our approach through three case studies.
翻訳日:2024-05-28 11:47:21 公開日:2024-05-24
# 物理AIハイブリッドモデリングによる天気予報の微粒化

Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling ( http://arxiv.org/abs/2405.13796v2 )

ライセンス: Link先を確認
Wanghan Xu, Fenghua Ling, Wenlong Zhang, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai, (参考訳) データ駆動人工知能(AI)モデルは、特に中距離や近距離での天気予報において大きな進歩を遂げている。 しかし、ほとんどのデータ駆動の天気予報モデルは、時間次元の微細な物理的進化ではなく、データマッピングの学習に焦点を当てたブラックボックスシステムである。 その結果、データセットの時間スケールの制限により、これらのモデルはより詳細な時間スケールでの予測を妨げている。 本稿では,天気予報をトレーニングデータセットを超える細粒度テンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。 具体的には、小さな時間スケール(例えば300秒)で物理進化をシミュレートするために慎重に設計されたPDEカーネルを使用し、学習可能なルータと並列ニューラルネットワークを用いてバイアス補正を行う。 さらに、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。 物理AIモジュールの重み解析は、物理学が大きな進化をし、AIが適応的に修正を行うことを示している。 大規模な実験により、WeatherGFTは時間単位のデータセットでトレーニングされ、複数のリードタイムで最先端のパフォーマンスを達成し、30分間の予測を一般化する能力を示している。

Data-driven artificial intelligence (AI) models have made significant advancements in weather forecasting, particularly in medium-range and nowcasting. However, most data-driven weather forecasting models are black-box systems that focus on learning data mapping rather than fine-grained physical evolution in the time dimension. Consequently, the limitations in the temporal scale of datasets prevent these models from forecasting at finer time scales. This paper proposes a physics-AI hybrid model (i.e., WeatherGFT) which Generalizes weather forecasts to Finer-grained Temporal scales beyond training dataset. Specifically, we employ a carefully designed PDE kernel to simulate physical evolution on a small time scale (e.g., 300 seconds) and use a parallel neural networks with a learnable router for bias correction. Furthermore, we introduce a lead time-aware training framework to promote the generalization of the model at different lead times. The weight analysis of physics-AI modules indicates that physics conducts major evolution while AI performs corrections adaptively. Extensive experiments show that WeatherGFT trained on an hourly dataset, achieves state-of-the-art performance across multiple lead times and exhibits the capability to generalize 30-minute forecasts.
翻訳日:2024-05-28 11:47:21 公開日:2024-05-24
# BrainMorph: ロバストでフレキシブルな脳MRI登録のための基礎的キーポイントモデル

BrainMorph: A Foundational Keypoint Model for Robust and Flexible Brain MRI Registration ( http://arxiv.org/abs/2405.14019v2 )

ライセンス: Link先を確認
Alan Q. Wang, Rachit Saluja, Heejong Kim, Xinzi He, Adrian Dalca, Mert R. Sabuncu, (参考訳) 本稿では,最近提案されたKeyMorphフレームワークに基づく汎用脳MRI登録のためのキーポイントベース基礎モデルを提案する。 BrainMorphと呼ばれる私たちのモデルは、マルチモーダル、ペアワイド、スケーラブルなグループワイド登録をサポートするツールとして機能します。 BrainMorphは、頭蓋骨と非頭蓋骨の巨大なデータセットで訓練されている。 BrainMorphは、大きなミスアライメントに対して堅牢であり、自動的に抽出されたキーポイントを問うことによって解釈可能であり、異なるアライメントタイプと異なる非線形性の異なる多くの可算変換を、迅速かつ制御可能な生成を可能にする。 健常者および疾患者の脳MRIにおける3次元剛性,アフィン,非線形登録の解法におけるBrainMorphの優位性について検討した。 特に,現在最先端の手法を超越した登録精度と速度を示す。 すべてのコードとモデルはhttps://github.com/alanqrwang/brainmorph.comで入手できる。

We present a keypoint-based foundation model for general purpose brain MRI registration, based on the recently-proposed KeyMorph framework. Our model, called BrainMorph, serves as a tool that supports multi-modal, pairwise, and scalable groupwise registration. BrainMorph is trained on a massive dataset of over 100,000 3D volumes, skull-stripped and non-skull-stripped, from nearly 16,000 unique healthy and diseased subjects. BrainMorph is robust to large misalignments, interpretable via interrogating automatically-extracted keypoints, and enables rapid and controllable generation of many plausible transformations with different alignment types and different degrees of nonlinearity at test-time. We demonstrate the superiority of BrainMorph in solving 3D rigid, affine, and nonlinear registration on a variety of multi-modal brain MRI scans of healthy and diseased subjects, in both the pairwise and groupwise setting. In particular, we show registration accuracy and speeds that surpass current state-of-the-art methods, especially in the context of large initial misalignments and large group settings. All code and models are available at https://github.com/alanqrwang/brainmorph.
翻訳日:2024-05-28 11:47:21 公開日:2024-05-24
# 離散データを用いた生成モデルのための魚のフローマッチング

Fisher Flow Matching for Generative Modeling over Discrete Data ( http://arxiv.org/abs/2405.14664v2 )

ライセンス: Link先を確認
Oscar Davis, Samuel Kessler, Mircea Petrache, İsmail İlkan Ceylan, Avishek Joey Bose, (参考訳) 離散データに対する生成的モデリングは、言語モデリング、生物学的シーケンス設計、グラフ構造化された分子データなど、最近多くの成功談を目にしている。 離散データに対する主要な生成的モデリングパラダイムは、依然として自己回帰的であり、最近では拡散やフローマッチングに基づく代替手段が、画像やビデオ生成のような連続的なデータ設定における印象的なパフォーマンスを欠いている。 本稿では,離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。 Fisher-Flow は離散データ上のカテゴリー分布を、その自然なリーマン計量を持つ統計多様体上の点として考えることで、明らかな幾何学的視点を採っている: $\textit{Fisher-Rao metric}$。 その結果、離散データ自体は、$d$-hypersphere $\mathbb{S}^d_+$ の正のorthantに連続的に再パラメータ化され、$\mathbb{S}^d_+$ の(閉形式の)測地線に沿って質量を輸送することで、任意のソース分布をターゲットにマッピングするフローを原則的に定義できることを示した。 さらに、Fisher-Flowの学習フローは、Riemannの最適輸送を活用して、トレーニングダイナミクスを改善することで、さらにブートストラップすることができる。 Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。 我々は,DNAプロモーターやDNAエンハンサー配列の設計を含む,合成および多種多様な実世界のベンチマークに基づいてFisher-Flowを評価する。 実験的に、これらのベンチマーク上で、Fisher-Flowは事前拡散およびフローマッチングモデルよりも改善されていることが判明した。

Generative modeling over discrete data has recently seen numerous success stories, with applications spanning language modeling, biological sequence design, and graph-structured molecular data. The predominant generative modeling paradigm for discrete data is still autoregressive, with more recent alternatives based on diffusion or flow-matching falling short of their impressive performance in continuous data settings, such as image or video generation. In this work, we introduce Fisher-Flow, a novel flow-matching model for discrete data. Fisher-Flow takes a manifestly geometric perspective by considering categorical distributions over discrete data as points residing on a statistical manifold equipped with its natural Riemannian metric: the $\textit{Fisher-Rao metric}$. As a result, we demonstrate discrete data itself can be continuously reparameterised to points on the positive orthant of the $d$-hypersphere $\mathbb{S}^d_+$, which allows us to define flows that map any source distribution to target in a principled manner by transporting mass along (closed-form) geodesics of $\mathbb{S}^d_+$. Furthermore, the learned flows in Fisher-Flow can be further bootstrapped by leveraging Riemannian optimal transport leading to improved training dynamics. We prove that the gradient flow induced by Fisher-Flow is optimal in reducing the forward KL divergence. We evaluate Fisher-Flow on an array of synthetic and diverse real-world benchmarks, including designing DNA Promoter, and DNA Enhancer sequences. Empirically, we find that Fisher-Flow improves over prior diffusion and flow-matching models on these benchmarks.
翻訳日:2024-05-28 11:47:21 公開日:2024-05-24
# 対向ロバスト重み付きフーバー回帰

Adversarial robust weighted Huber regression ( http://arxiv.org/abs/2102.11120v4 )

ライセンス: Link先を確認
Takeyuki Sasai, Hironori Fujisawa, (参考訳) 線形回帰係数のロバストな推定を考察する。 本稿では,未知の共分散を持つ$L$-subGaussian分布から共変分がサンプリングされた場合,有界絶対モーメントを持つ分布からノイズがサンプリングされ,共変分と雑音の両方が敵によって汚染される場合に焦点を当てる。 推定の多項式計算複雑性を伴う共変量共分散行列の安定ランクと条件数に依存する推定誤差境界を導出する。

We consider a robust estimation of linear regression coefficients. In this note, we focus on the case where the covariates are sampled from an $L$-subGaussian distribution with unknown covariance, the noises are sampled from a distribution with a bounded absolute moment and both covariates and noises may be contaminated by an adversary. We derive an estimation error bound, which depends on the stable rank and the condition number of the covariance matrix of covariates with a polynomial computational complexity of estimation.
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# 電磁双対性と$\mathbb{Z}_2$対称性を持つアベリア格子ゲージ理論

Electric-magnetic duality and $\mathbb{Z}_2$ symmetry enriched Abelian lattice gauge theory ( http://arxiv.org/abs/2201.12361v3 )

ライセンス: Link先を確認
Zhian Jia, Dagomir Kaszlikowski, Sheng Tan, (参考訳) キータエフの量子二重モデル(英: Kitaev's quantum double model)は、Dijkgraaf-Witten 位相量子場理論 (TQFT) の格子ゲージ理論による実現であり、その位相的に保護された基底状態空間は、位相量子計算と位相量子メモリに広く応用されている。 我々は、圏的枠組みにおいて巡回アーベル群に対するモデルのよりリッチな一般化を$\mathbb{Z}_2$対称性で検討し、明示的なハミルトン構成を示す。 このモデルは、$\mathbb{Z}_2$対称性リッチトポロジカル位相(SET)の格子実現を提供する。 我々は、電磁(EM)双対性対称性が特別な場合である位相のカテゴリー対称性について詳細に論じる。 対称性欠陥の側面を, UBFC ($G$-crossed Unitary Braided fusion category) を用いて検討した。 また, 対応するいずれの凝縮も決定し, ギャップ付き境界と境界バルク双対性についても検討した。 そして、これらのSET相に対するEM双対性の明示的な格子実現を慎重に構築する。

Kitaev's quantum double model is a lattice gauge theoretic realization of Dijkgraaf-Witten topological quantum field theory (TQFT), its topologically protected ground state space has broad applications for topological quantum computation and topological quantum memory. We investigate the $\mathbb{Z}_2$ symmetry enriched generalization of the model for the cyclic Abelian group in a categorical framework and present an explicit Hamiltonian construction. This model provides a lattice realization of the $\mathbb{Z}_2$ symmetry enriched topological (SET) phase. We discuss in detail the categorical symmetry of the phase, for which the electric-magnetic (EM) duality symmetry is a special case. The aspects of symmetry defects are investigated using the $G$-crossed unitary braided fusion category (UBFC). By determining the corresponding anyon condensation, the gapped boundaries and boundary-bulk duality are also investigated. Then we carefully construct the explicit lattice realization of EM duality for these SET phases.
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# 共変量と概念シフトによる物体検出のための領域一般化

Domain Generalisation for Object Detection under Covariate and Concept Shift ( http://arxiv.org/abs/2203.05294v4 )

ライセンス: Link先を確認
Karthik Seemakurthy, Erchan Aptoula, Charles Fox, Petra Bosilj, (参考訳) ドメイン一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変機能の学習を促進することを目的としている。 オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。 厳密な数学的解析に基づいて、画像レベルでの領域間の限界特徴分布の整合に加えて、インスタンスレベルでクラス条件アライメントを行うための新しいコンポーネントとの特徴アライメントに基づくアプローチを拡張する。 これにより、ドメインシフトのコンポーネント、すなわち共変量と概念シフトの両方に完全に対処し、ドメインに依存しない特徴表現を学ぶことができます。 我々は,一段式(FCOS,YOLO)と二段式(FRCNN)の両検出器を用いて,自律走行用(Cityscapes, BDD10K, ACDC, IDD)の異なるデータセットと,精密農業用GWHDデータセットからなる新しいベンチマークを行い,ベースラインと最先端技術による一般化とローカライゼーション性能の整合性向上を示す。

Domain generalisation aims to promote the learning of domain-invariant features while suppressing domain-specific features, so that a model can generalise better to previously unseen target domains. An approach to domain generalisation for object detection is proposed, the first such approach applicable to any object detection architecture. Based on a rigorous mathematical analysis, we extend approaches based on feature alignment with a novel component for performing class conditional alignment at the instance level, in addition to aligning the marginal feature distributions across domains at the image level. This allows us to fully address both components of domain shift, i.e. covariate and concept shift, and learn a domain agnostic feature representation. We perform extensive evaluation with both one-stage (FCOS, YOLO) and two-stage (FRCNN) detectors, on a newly proposed benchmark comprising several different datasets for autonomous driving applications (Cityscapes, BDD10K, ACDC, IDD) as well as the GWHD dataset for precision agriculture, and show consistent improvements to the generalisation and localisation performance over baselines and state-of-the-art.
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# Causal de Finetti:交換可能なデータにおける不変因果構造の同定について

Causal de Finetti: On the Identification of Invariant Causal Structure in Exchangeable Data ( http://arxiv.org/abs/2203.15756v3 )

ライセンス: Link先を確認
Siyuan Guo, Viktor Tóth, Bernhard Schölkopf, Ferenc Huszár, (参考訳) 制約に基づく因果探索法は、条件付き独立試験を利用して、様々な応用において因果関係を推定する。 機械学習の手法の大部分がそうであるように、既存の研究は$\textit{independent and samely distributed}$データの研究に重点を置いている。 しかし、無限の i.i.d.$\ のデータであっても、制約ベースの手法は広いマルコフ同値クラスまでの因果構造を識別することができ、因果発見の基本的な制限を課すことが知られている。 本研究では、交換可能なデータには、i.d.$\ $データよりもリッチな条件付き独立構造が含まれており、よりリッチな構造が因果発見にどのように活用できるかを示す。 この定理は、ある非自明な条件付き独立性を持つ交換可能な分布は、常に$\textit{independent causal mechanism (ICM)$generative processとして表すことができるというものである。 そこで本論では, ICM生成過程から得られたデータから, 条件付き独立性試験により, その特異な因果構造を同定できることを示す。 最終的に因果探索アルゴリズムを開発し,その多環境データから因果関係を推定できることを示す。 私たちのコードとモデルは、https://github.com/syguo96/Causal-de-Finettiで公開されています。

Constraint-based causal discovery methods leverage conditional independence tests to infer causal relationships in a wide variety of applications. Just as the majority of machine learning methods, existing work focuses on studying $\textit{independent and identically distributed}$ data. However, it is known that even with infinite i.i.d.$\ $ data, constraint-based methods can only identify causal structures up to broad Markov equivalence classes, posing a fundamental limitation for causal discovery. In this work, we observe that exchangeable data contains richer conditional independence structure than i.i.d.$\ $ data, and show how the richer structure can be leveraged for causal discovery. We first present causal de Finetti theorems, which state that exchangeable distributions with certain non-trivial conditional independences can always be represented as $\textit{independent causal mechanism (ICM)}$ generative processes. We then present our main identifiability theorem, which shows that given data from an ICM generative process, its unique causal structure can be identified through performing conditional independence tests. We finally develop a causal discovery algorithm and demonstrate its applicability to inferring causal relationships from multi-environment data. Our code and models are publicly available at: https://github.com/syguo96/Causal-de-Finetti
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# HLDC:Hindi Legal Documents Corpus

HLDC: Hindi Legal Documents Corpus ( http://arxiv.org/abs/2204.00806v2 )

ライセンス: Link先を確認
Arnav Kapoor, Mudit Dhawan, Anmol Goel, T. H. Arjun, Akshala Bhatnagar, Vibhu Agrawal, Amul Agrawal, Arnab Bhattacharya, Ponnurangam Kumaraguru, Ashutosh Modi, (参考訳) インドを含む多くの人口は、訴訟のかなりの記録に悩まされている。 法律文書を処理し、法律実務者を強化する自動化システムの開発は、これを緩和することができる。 しかし、このようなデータ駆動システムを開発するのに必要な高品質なコーパスが数多く存在する。 この問題は、ヒンディー語のような低リソース言語の場合、さらに顕著になる。 本資料では,ヒンディー語法文書コーパス (HLDC) について紹介する。 ドキュメントは、ダウンストリームアプリケーションの開発を可能にするために、クリーンで構造化されている。 さらに,コーパスのユースケースとして,保釈予測の課題を紹介する。 本稿では,モデルのバッテリを実験し,Multi-Task Learning(MTL)に基づくモデルを提案する。 MTLモデルは、補助タスクとして要約を使用し、保釈予測を主タスクとして使用する。 異なるモデルを用いた実験は、この分野におけるさらなる研究の必要性を示している。 本論文でコーパスとモデル実装のコードを公開します。

Many populous countries including India are burdened with a considerable backlog of legal cases. Development of automated systems that could process legal documents and augment legal practitioners can mitigate this. However, there is a dearth of high-quality corpora that is needed to develop such data-driven systems. The problem gets even more pronounced in the case of low resource languages such as Hindi. In this resource paper, we introduce the Hindi Legal Documents Corpus (HLDC), a corpus of more than 900K legal documents in Hindi. Documents are cleaned and structured to enable the development of downstream applications. Further, as a use-case for the corpus, we introduce the task of bail prediction. We experiment with a battery of models and propose a Multi-Task Learning (MTL) based model for the same. MTL models use summarization as an auxiliary task along with bail prediction as the main task. Experiments with different models are indicative of the need for further research in this area. We release the corpus and model implementation code with this paper: https://github.com/Exploration-Lab/HLDC
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# クロスリンガル・トランスファー学習におけるMarvelous Agglutinative Languageの効果

Marvelous Agglutinative Language Effect on Cross Lingual Transfer Learning ( http://arxiv.org/abs/2204.03831v3 )

ライセンス: Link先を確認
Wooyoung Kim, Chaerin Jo, Minjung Kim, Wooju Kim, (参考訳) 多言語言語モデルについては、多言語性の呪いのため、訓練用言語を選択することが重要である。 類似言語構造を持つ言語を使用することは,言語間移動学習に有効であることが知られている。 しかし,韓国語などの凝集言語の使用は,言語間移動学習においてより効果的であることを示す。 これは、言語間移行学習のトレーニング戦略を変える素晴らしい発見です。

As for multilingual language models, it is important to select languages for training because of the curse of multilinguality. It is known that using languages with similar language structures is effective for cross lingual transfer learning. However, we demonstrate that using agglutinative languages such as Korean is more effective in cross lingual transfer learning. This is a great discovery that will change the training strategy of cross lingual transfer learning.
翻訳日:2024-05-28 00:41:01 公開日:2024-05-24
# 2+1)次元ミンコフスキー時空における円軌道上の単一および絡み合った検出器の放射過程

Radiative processes of single and entangled detectors on circular trajectories in (2+1) dimensional Minkowski spacetime ( http://arxiv.org/abs/2205.01305v2 )

ライセンス: Link先を確認
Subhajit Barman, Bibhas Ranjan Majhi, L. Sriramkumar, (参考訳) 本研究では,2次元ミンコフスキー時空において円軌道上を移動する2つの絡み合ったウンルー・デウィット検出器の放射過程について検討する。 検出器は、質量のない量子スカラー場に結合し、ミンコフスキー真空中および熱浴中における検出器の遷移確率を計算していると仮定する。 また、ガウススイッチング関数の助けを借りて有限時間間隔でスイッチオンした場合の検出器の遷移確率率を評価する。 2つの絡み合った検出器の場合を考える前に、1つの検出器の応答を調べることから始めます。 このように、$(2+1)$の時空次元で作業することで、検出器の遷移確率率の計算が比較的簡単になる。 2つの絡み合った検出器のクロストランジション確率は、個々の検出器のオートトランジション確率率に匹敵する可能性がある。 本稿では, 係り受け検出器の応答特性について, パラメータの異なる値について検討し, 温度浴の影響と, 有限時間間隔での検出器の切替について述べる。

We investigate the radiative processes involving two entangled Unruh-DeWitt detectors that are moving on circular trajectories in $(2+1)$-dimensional Minkowski spacetime. We assume that the detectors are coupled to a massless, quantum scalar field, and calculate the transition probability rates of the detectors in the Minkowski vacuum as well as in a thermal bath. We also evaluate the transition probability rates of the detectors when they are switched on for a finite time interval with the aid of a Gaussian switching function. We begin by examining the response of a single detector before we go on to consider the case of two entangled detectors. As we shall see, working in $(2+1)$ spacetime dimensions makes the computations of the transition probability rates of the detectors relatively simpler. We find that the cross transition probability rates of the two entangled detectors can be comparable to the auto transition probability rates of the individual detectors. We discuss specific characteristics of the response of the entangled detectors for different values of the parameters involved and highlight the effects of the thermal bath as well as switching on the detector for a finite time interval.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# Ask-AC:イニシアティブ・アドバイザリ・ザ・ループのアクター・クリティカル・フレームワーク

Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework ( http://arxiv.org/abs/2207.01955v5 )

ライセンス: Link先を確認
Shunyu Liu, Kaixuan Chen, Na Yu, Jie Song, Zunlei Feng, Mingli Song, (参考訳) 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存しており、必然的に面倒で高価な学習プロセスをもたらす。 本稿では,Ask-ACと呼ばれる新たなアドバイザ・イン・ループ・アクタ・クリティカル・フレームワークを提案する。このフレームワークは,一方的なアドバイザ・ガイダンス機構を双方向学習者主導のものに置き換えることで,学習者とアドバイザ間のメッセージ交換をカスタマイズし,効果的に行うことができる。 Ask-ACの中心には、アクションレシーバーとアダプティブステートセレクタという2つの補完的なコンポーネントがある。 前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。 静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# 線形回帰係数の外部ロバストとスパース推定

Outlier Robust and Sparse Estimation of Linear Regression Coefficients ( http://arxiv.org/abs/2208.11592v5 )

ライセンス: Link先を確認
Takeyuki Sasai, Hironori Fujisawa, (参考訳) 重み付き分布から, 共変量と雑音が逆の外れ値によって汚染され, ノイズがサンプリングされる場合, 線形回帰係数の外れ値とスパース推定を考察する。 本研究は,本研究と類似の関心を共有できる先行研究よりも,仮説の弱い誤差境界を示す。 我々の分析は、ジェネリックチェインによるいくつかの鋭い濃度の不等式に依存している。

We consider outlier-robust and sparse estimation of linear regression coefficients, when the covariates and the noises are contaminated by adversarial outliers and noises are sampled from a heavy-tailed distribution. Our results present sharper error bounds under weaker assumptions than prior studies that share similar interests with this study. Our analysis relies on some sharp concentration inequalities resulting from generic chaining.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# CAP-UDF: 一貫性を考慮したフィールド最適化による生点雲からの非符号距離関数の学習

CAP-UDF: Learning Unsigned Distance Functions Progressively from Raw Point Clouds with Consistency-Aware Field Optimization ( http://arxiv.org/abs/2210.02757v3 )

ライセンス: Link先を確認
Junsheng Zhou, Baorui Ma, Shujuan Li, Yu-Shen Liu, Yi Fang, Zhizhong Han, (参考訳) 点雲の表面再構成は3次元コンピュータビジョンにおいて重要な課題である。 最新の手法のほとんどは、閉曲面の再構成に限られる点雲から符号付き距離関数を学習することでこの問題を解決する。 他のいくつかの方法は、接地真実距離から学習した符号なし距離関数(UDF)を用いて開曲面を表現しようとした。 しかし、点雲の不連続性により、学習されたUDFは滑らかな距離場の提供が困難である。 本稿では,生の点雲から一貫したUDFを学習する新しい手法であるCAP-UDFを提案する。 我々は、フィールド整合性制約でクエリを表面に移動させることでこれを達成し、より正確な曲面を段階的に推定することを可能にする。 具体的には,クエリの移動対象を動的に探索することにより,クエリと近似曲面の関係を徐々に推測するようにニューラルネットワークを訓練する。 一方,学習されたUDFの勾配を用いて表面を抽出する多角化アルゴリズムを提案する。 我々は, 点雲, 実スキャン, 深度マップの表面再構成における総合的な実験を行い, さらに教師なし点正規推定において, CAP-UDFの最先端手法に対する非自明な改善を示す。

Surface reconstruction for point clouds is an important task in 3D computer vision. Most of the latest methods resolve this problem by learning signed distance functions from point clouds, which are limited to reconstructing closed surfaces. Some other methods tried to represent open surfaces using unsigned distance functions (UDF) which are learned from ground truth distances. However, the learned UDF is hard to provide smooth distance fields due to the discontinuous character of point clouds. In this paper, we propose CAP-UDF, a novel method to learn consistency-aware UDF from raw point clouds. We achieve this by learning to move queries onto the surface with a field consistency constraint, where we also enable to progressively estimate a more accurate surface. Specifically, we train a neural network to gradually infer the relationship between queries and the approximated surface by searching for the moving target of queries in a dynamic way. Meanwhile, we introduce a polygonization algorithm to extract surfaces using the gradients of the learned UDF. We conduct comprehensive experiments in surface reconstruction for point clouds, real scans or depth maps, and further explore our performance in unsupervised point normal estimation, which demonstrate non-trivial improvements of CAP-UDF over the state-of-the-art methods.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# ノイズシナリオにおける測定精度の回復量子的優位性

Restoring metrological quantum advantage of measurement precision in noisy scenario ( http://arxiv.org/abs/2211.05537v3 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen, (参考訳) 局所的および非相関的なデファーシングノイズの存在下では、ハミルトニアン系のパラメータを推定する際の最小不確かさのフィッシャー情報に基づく下界において量子的優位性が得られることを示す。 ここでの量子優位性は、積ではなく最大に絡み合った状態で開始する利点である。 この量子的優位性は、周波数推定プロトコルの同じノイズシナリオで消えることが知られている。 システム粒子間の相互作用を組み込むことにより、最大絡み合ったプローブによる周波数推定の精度向上を図ることができる。 ここで調べられた相互作用は自然界におけるイジングであり、横磁場の有無にかかわらず考慮されている。 例えば、横磁場の存在下での周波数推定を考慮し、量子的優位性を回復しない例もある。 一方、非相関プローブを用いた場合、Ising相互作用の結合パラメーターを測定するのがよい。 また,初期状態の最大値ではない絡み合い量に対する測定精度の依存性についても検討した。 結合定数の推定精度は、初期状態の絡みコンテンツの増加に伴って単調に低下するが、周波数推定の精度は入力の絡みコンテンツとは無関係である。

We show that in presence of a local and uncorrelated dephasing noise, quantum advantage can be obtained in the Fisher information-based lower bound of the minimum uncertainty in estimating parameters of the system Hamiltonian. The quantum advantage refers here to the benefit of initiating with a maximally entangled state instead of a product one. This quantum advantage was known to vanish in the same noisy scenario for a frequency estimation protocol. Restoration of the better precision in frequency estimation with maximally entangled probes can be obtained by incorporating an interaction between the system particles. The interaction examined here is Ising in nature, and is considered with or without a transverse magnetic field. There are instances, e.g. where frequency estimation in presence of a transverse field is considered and quantum advantage is not restored. A quantum advantage can also be obtained while estimating the strength of the introduced magnetic field along the transverse direction, whereas for the instances considered, using uncorrelated probes is better in measuring the coupling parameter of the Ising interaction. We also investigate the dependence of measurement precision on the entanglement content, which is not necessarily maximal, of the initial state. The precision in estimation of coupling constant decreases monotonically with the increase of entanglement content of the initial state, while the same for frequency estimation is independent of the entanglement content of the inputs.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# オーバー・ザ・エア・フェデレーション学習における逆可能性

Inverse Feasibility in Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.14115v6 )

ライセンス: Link先を確認
Tomasz Piotrowski, Rafail Ismayilov, Matthias Frey, Renato L. G. Cavalcante, (参考訳) 線形フォワードモデルに対する逆実現可能性の概念をOTA FLアルゴリズムの強化ツールとして導入する。 逆実現可能性 (inverse fiasibility) は、フォワード演算子の条件数上の上限として、そのパラメータの関数として定義される。 この定義を用いて既存のOTA FLモデルを解析し、改善すべき領域を特定し、新しいOTA FLモデルを提案する。 数値実験は、理論結果の主な意味を説明している。 提案フレームワークは逆問題理論に基づいており,ネットワークに望ましい特徴を付加することにより,既存のセキュリティとプライバシの概念を補完する可能性がある。

We introduce the concept of inverse feasibility for linear forward models as a tool to enhance OTA FL algorithms. Inverse feasibility is defined as an upper bound on the condition number of the forward operator as a function of its parameters. We analyze an existing OTA FL model using this definition, identify areas for improvement, and propose a new OTA FL model. Numerical experiments illustrate the main implications of the theoretical results. The proposed framework, which is based on inverse problem theory, can potentially complement existing notions of security and privacy by providing additional desirable characteristics to networks.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# 視覚障害者のためのSLAM:調査

SLAM for Visually Impaired People: a Survey ( http://arxiv.org/abs/2212.04745v4 )

ライセンス: Link先を確認
Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy, (参考訳) 近年では、視覚障害者が独立して安全に移動できる能力を向上させるために、いくつかの補助技術が開発されている。 同時に、同時ローカライゼーションとマッピング(SLAM)技術は、これらの補助技術の開発において十分に堅牢で効率的なものになっている。 視力障害および視覚障害のある人々に対するSLAMに基づくソリューションに関する最近の54の体系的文献レビューを,2017年以降の文献に焦点をあてて紹介する。 本稿では、この文脈で用いられる様々なローカライゼーションとマッピング技術について概説する。 様々なSLAM手法を体系的に同定し分類し,そのローカライゼーションとマッピング手法,センサタイプ,コンピュータリソース,機械学習手法を解析した。 視覚障害者のナビゲーションにおけるこれらの手法の利点と限界について論じる。 さらに,ユーザビリティや採用に影響を及ぼす実践的考察を含む,研究全体にわたる主要な課題について検討する。 また、現実シナリオにおけるSLAMベースのソリューションの有効性とユーザ満足度を評価し、BVIモビリティに対する実践的影響について考察した。 このレビューから得られた知見は、特に動的で複雑な環境がもたらす課題に対処する上で、将来の研究活動における重要なギャップと機会を明らかにしている。 SLAM技術は、視覚障害者が効果的にナビゲートできる能力を改善する可能性を秘めている。 最後に、この領域における今後の機会と課題を提示します。

In recent decades, several assistive technologies have been developed to improve the ability of blind and visually impaired individuals to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in developing these assistive technologies. We present the first systematic literature review of 54 recent studies on SLAM-based solutions for blind and visually impaired people, focusing on literature published from 2017 onward. This review explores various localization and mapping techniques employed in this context. We systematically identified and categorized diverse SLAM approaches and analyzed their localization and mapping techniques, sensor types, computing resources, and machine-learning methods. We discuss the advantages and limitations of these techniques for blind and visually impaired navigation. Moreover, we examine the major challenges described across studies, including practical considerations that affect usability and adoption. Our analysis also evaluates the effectiveness of these SLAM-based solutions in real-world scenarios and user satisfaction, providing insights into their practical impact on BVI mobility. The insights derived from this review identify critical gaps and opportunities for future research activities, particularly in addressing the challenges presented by dynamic and complex environments. We explain how SLAM technology offers the potential to improve the ability of visually impaired individuals to navigate effectively. Finally, we present future opportunities and challenges in this domain.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# 人間の画像生成: 総合的な調査

Human Image Generation: A Comprehensive Survey ( http://arxiv.org/abs/2212.08896v3 )

ライセンス: Link先を確認
Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan, (参考訳) 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。 多くの研究者は、多種多様なモデル、タスク設定、応用に基づいて多数の研究が行われる、日常生活で最もよく見られる対象カテゴリの1つとして、高忠実な人間の画像の合成に熱心に取り組んできた。 したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。 各パラダイムについて、最も代表的なモデルと対応する変種を示し、異なる手法の利点と特徴をモデルアーキテクチャの観点で要約する。 さらに、文献における主要な人体画像データセットと評価指標を要約する。 さらに、広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。 最後に、人間の画像生成の課題と可能性について論じ、今後の研究に光を当てる。

Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each paradigm, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures. Besides, the main public human image datasets and evaluation metrics in the literature are summarized. Furthermore, due to the wide application potentials, the typical downstream usages of synthesized human images are covered. Finally, the challenges and potential opportunities of human image generation are discussed to shed light on future research.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# RFold:脱結合最適化によるRNA二次構造予測

RFold: RNA Secondary Structure Prediction with Decoupled Optimization ( http://arxiv.org/abs/2212.14041v3 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Hanqun Cao, Xingran Chen, Ge Wang, Lirong Wu, Jun Xia, Jiangbin Zheng, Stan Z. Li, (参考訳) リボ核酸(RNA)の二次構造は、その第3次構造よりも安定しており、細胞内でアクセスしやすく、機能的な予測に不可欠である。 ディープラーニングはこの分野で有望な結果を示しているが、現在の手法は一般化の貧弱さと複雑さに悩まされている。 本研究では,RNA二次構造予測をK-Rook問題として再構成し,その予測プロセスを有限解空間内での確率的マッチングに単純化する。 この革新的な観点から、与えられたシーケンスから最も一致するK-Rook解を予測するための、単純で効果的な方法であるRFoldを導入する。 RFoldは、確率的マッチング問題を行ワイドおよび列ワイドのコンポーネントに分解して、マッチングの複雑さを低減し、出力の有効性を保証しながら解決プロセスを簡素化する2次元最適化戦略を採用している。 RFoldは最先端の手法よりも競争性能と推論効率を約8倍に向上することを示した。 コードとColabのデモは \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold} で公開されている。

The secondary structure of ribonucleic acid (RNA) is more stable and accessible in the cell than its tertiary structure, making it essential for functional prediction. Although deep learning has shown promising results in this field, current methods suffer from poor generalization and high complexity. In this work, we reformulate the RNA secondary structure prediction as a K-Rook problem, thereby simplifying the prediction process into probabilistic matching within a finite solution space. Building on this innovative perspective, we introduce RFold, a simple yet effective method that learns to predict the most matching K-Rook solution from the given sequence. RFold employs a bi-dimensional optimization strategy that decomposes the probabilistic matching problem into row-wise and column-wise components to reduce the matching complexity, simplifying the solving process while guaranteeing the validity of the output. Extensive experiments demonstrate that RFold achieves competitive performance and about eight times faster inference efficiency than the state-of-the-art approaches. The code and Colab demo are available in \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold}.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# 腫瘍性臨床診断支援システムのための人工知能モデル

Artificial Intelligence Model for Tumoral Clinical Decision Support Systems ( http://arxiv.org/abs/2301.03701v3 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera, Jesús Troya Garcìa, Alberto Díaz-Álvarez, Miguel Gracía-Remesal, (参考訳) 脳腫瘍評価における比較診断は、新しい患者を評価する際に、医療センターの利用可能な情報を用いて類似の症例を比較することができる。 人工知能モデルを活用することで、提案システムは、与えられたクエリに対して最も類似した脳腫瘍を検索することができる。 主な目的は、患者固有の正常な特徴や病理に焦点をあてて、医療画像のより正確な表現を生成することにより、診断プロセスを強化することである。 提案したモデルは、人工知能を使用して患者の特徴を検出し、データベースから最も類似したケースを推奨する。 このシステムは、類似したケースを示唆するだけでなく、その設計における健全な特徴と異常な特徴の表現のバランスもとっている。 これは、その使用の一般化を奨励するだけでなく、意思決定プロセスにおける臨床医の助けにもなる。 同様の研究に関して,我々のアプローチの比較分析を行った。 提案アーキテクチャでは, 腫瘍および健常領域のDice係数が0.474であり, 過去の文献より優れていた。 提案モデルでは,脳から解剖学的特徴と病理学的特徴を抽出・結合し,安価なラベル情報に依存しつつ最先端の結果を得る。 これにより、トレーニングプロセス全体のコストが大幅に削減される。 本論文は, 臨床診断の精度を高めるため, 提案したアーキテクチャの適用性および最適化のさらなる検討のための重要な根拠を提供する。 この研究で提示された新しいアプローチは、特に人工知能支援画像検索の文脈において医療診断の分野で大きな進歩を示し、ブラックボックスシステムの代わりに人工知能を用いてコストを削減し、患者のケアの質を向上させることを約束する。

Comparative diagnostic in brain tumor evaluation makes possible to use the available information of a medical center to compare similar cases when a new patient is evaluated. By leveraging Artificial Intelligence models, the proposed system is able of retrieving the most similar cases of brain tumors for a given query. The primary objective is to enhance the diagnostic process by generating more accurate representations of medical images, with a particular focus on patient-specific normal features and pathologies. The proposed model uses Artificial Intelligence to detect patient features to recommend the most similar cases from a database. The system not only suggests similar cases but also balances the representation of healthy and abnormal features in its design. This not only encourages the generalization of its use but also aids clinicians in their decision-making processes. We conducted a comparative analysis of our approach in relation to similar studies. The proposed architecture obtains a Dice coefficient of 0.474 in both tumoral and healthy regions of the patients, which outperforms previous literature. Our proposed model excels at extracting and combining anatomical and pathological features from brain \glspl{mr}, achieving state-of-the-art results while relying on less expensive label information. This substantially reduces the overall cost of the training process. This paper provides substantial grounds for further exploration of the broader applicability and optimization of the proposed architecture to enhance clinical decision-making. The novel approach presented in this work marks a significant advancement in the field of medical diagnosis, particularly in the context of Artificial Intelligence-assisted image retrieval, and promises to reduce costs and improve the quality of patient care using Artificial Intelligence as a support tool instead of a black box system.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# 四面体-PT対称性:雑音のゆらぎにおける古典的-量子遷移

Quadrature-PT symmetry: Classical-to-quantum transition in noise fluctuations ( http://arxiv.org/abs/2301.05511v2 )

ライセンス: Link先を確認
Wencong Wang, Yanhua Zhai, Dongmei Liu, Xiaoshun Jiang, Saeid Vashahri Ghamsari, Jianming Wen, (参考訳) ゲインロス結合フォトニックプラットフォームは古典パリティ時間(PT)対称性の研究において大きな成功を収めてきたが、不整合作用素変換とランゲヴィンノイズによる純粋量子効果の証明に苦慮している。 ここでは,通常の固有値関連PT相転移を観測できるだけでなく,古典的 NH やエルミート量子シナリオに欠如する特徴として,二次PT対称性,異常損失による二次的スクイーズ,ノイズ変動の動的および定常的古典的-量子遷移を包含する,非エルミート系(NH)双対ビーム系(PSA)の位相依存性増幅(PSA)と平衡損失(英語版)の観測が可能であることを示す。 さらに,提案したバイパーティイトオープンシステムでは,量子Cram\'{e}r-Rao境界あるいはフィッシャー情報によって制約された信号対雑音比と感度の向上が期待できる。 これらの知見は、利得と損失の両方を含む真正量子光学PT対称性の理解を深め、論争的な問題に対処し、被験者の新しい面を照らす。

While gain-loss-coupled photonic platforms have achieved significant success in studying classical parity-time (PT) symmetry, they encounter challenges in demonstrating pure quantum effects due to incompatible operator transformations and Langevin noise. Here, we present compelling evidence that a non-Hermitian (NH) twin-beam system, undergoing phase-sensitive amplification (PSA) and balanced loss, not only enables observing the usual eigenvalue-associated PT phase transition but also exhibits distinctive features absent in classical NH or Hermitian quantum scenarios, encompassing quadrature PT symmetry, anomalous loss-induced quadrature squeezing, and dynamical and stationary classical-to-quantum transitions in noise fluctuations. Furthermore, our proposed bipartite open system promises optimal sensing, showcasing an improved signal-to-noise ratio and sensitivity, constrained by quantum Cram\'{e}r-Rao bound or Fisher information. These findings deepen the comprehension of authentic quantum optical PT symmetry involving both gain and loss, addressing contentious issues and illuminating new facets of the subject.
翻訳日:2024-05-28 00:35:17 公開日:2024-05-24
# ACPO:制約付き平均MDPのポリシー最適化アルゴリズム

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints ( http://arxiv.org/abs/2302.00808v4 )

ライセンス: Link先を確認
Akhil Agnihotri, Rahul Jain, Haipeng Luo, (参考訳) 制約付きMDP(CMDP)のための強化学習(RL)は、様々なアプリケーションにおいてますます重要な問題となっている。 平均基準は割引基準よりも適していることが多い。 しかし、平均CMDP(ACMDP)のRLは依然として難しい問題である。 割引制約付きRL問題のために設計されたアルゴリズムは、平均的なCMDP設定ではうまく機能しないことが多い。 本稿では,制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。 平均制約ポリシ最適化(ACPO)アルゴリズムは、信頼された地域ベースのポリシ最適化アルゴリズムにインスパイアされている。 我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。 我々はその性能に関する理論的保証を提供し、様々な挑戦的なOpenAI Gym環境における広範な実験を通して、ACMDPに適合する他の最先端アルゴリズムと比較して、その優れた経験的性能を示す。

Reinforcement Learning (RL) for constrained MDPs (CMDPs) is an increasingly important problem for various applications. Often, the average criterion is more suitable than the discounted criterion. Yet, RL for average-CMDPs (ACMDPs) remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new policy optimization with function approximation algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by trust region-based policy optimization algorithms. We develop basic sensitivity theory for average CMDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging OpenAI Gym environments, show its superior empirical performance when compared to other state-of-the-art algorithms adapted for the ACMDPs.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 類似システムからのデータの活用による動的システム学習

Learning Dynamical Systems by Leveraging Data from Similar Systems ( http://arxiv.org/abs/2302.04344v2 )

ライセンス: Link先を確認
Lei Xin, Lintao Ye, George Chiu, Shreyas Sundaram, (参考訳) 本論文は, 線形系の力学を学習する際の問題として, 類似した(同一ではない)ダイナミックスを共有する補助システムによって生成されたデータに, 真のシステムからのデータに加えてアクセス可能であることを考察する。 重み付き最小二乗法を用いて、学習したモデルの有限標本誤差境界を、2つのシステムからのサンプル数と様々なシステムパラメータの関数として、補助データに割り当てられた重みとして提供する。 本研究では,2つのシステムモデルの違いによる誤差の一部を付加することで,ノイズによる本質的なシステム識別誤差を低減できることを示す。 さらに、ノイズレベルの上限やモデル差など、システムに関する事前知識が利用できる場合、計算可能なデータ依存境界を提供する。 このバウンダリは、モデルのトレーニング段階で補助データに割り当てられるべき重量を決定するためにも使用できる。

We consider the problem of learning the dynamics of a linear system when one has access to data generated by an auxiliary system that shares similar (but not identical) dynamics, in addition to data from the true system. We use a weighted least squares approach, and provide finite sample error bounds of the learned model as a function of the number of samples and various system parameters from the two systems as well as the weight assigned to the auxiliary data. We show that the auxiliary data can help to reduce the intrinsic system identification error due to noise, at the price of adding a portion of error that is due to the differences between the two system models. We further provide a data-dependent bound that is computable when some prior knowledge about the systems, such as upper bounds on noise levels and model difference, is available. This bound can also be used to determine the weight that should be assigned to the auxiliary data during the model training stage.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 長距離フェルミオン系の基底状態における絡み合いエントロピー

Entanglement Entropy in Ground States of Long-Range Fermionic Systems ( http://arxiv.org/abs/2302.06743v2 )

ライセンス: Link先を確認
Debarghya Chakraborty, Nikolaos Angelinos, (参考訳) 一次元格子上での様々な自由フェルミオンモデルの基底状態絡み合いエントロピーのスケーリングについて検討し、ホッピング項とペアリング項はパワー則として崩壊する。 我々は、一般モデルにおける絡み合いエントロピーのスケーリングを理解することを模索する。 ローカルシステムで見られる領域法スケーリングへの移行を管理する様々なシステムに共通する$\alpha_{c}$が存在するかどうかを問う。 いくつかの例を数値的に検討し、適用すれば、長距離モデルにおける絡み合いエントロピーのスケーリングは、低エネルギー理論からの予測によって制約される、と論じる。 対照的に、連続極限のない無秩序なモデルやモデルは、ボリューム・ローの振る舞いに近づくエンタングルメントのフラクタルスケーリングを示し、$\alpha$が0に近づく。 これらの一般的な機能は、相互作用をオンにし続けることが期待されている。

We study the scaling of ground state entanglement entropy of various free fermionic models on one dimensional lattices, where the hopping and pairing terms decay as a power law. We seek to understand the scaling of entanglement entropy in generic models as the exponent of the power law $\alpha$ is varied. We ask if there exists a common $\alpha_{c}$ across different systems governing the transition to area law scaling found in local systems. We explore several examples numerically and argue that when applicable, the scaling of entanglement entropy in long-range models is constrained by predictions from the low-energy theory. In contrast, disordered models and models without a continuum limit show fractal scaling of entanglement approaching volume-law behavior as $\alpha$ approaches zero. These general features are expected to persist on turning on interactions.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 光不均衡最適輸送

Light Unbalanced Optimal Transport ( http://arxiv.org/abs/2303.07988v3 )

ライセンス: Link先を確認
Milena Gazdieva, Arip Asadulaev, Alexander Korotin, Evgeny Burnaev, (参考訳) 近年, 連続的エントロピー最適輸送(EOT)分野が活発に発展してきたが, 古典的EOT問題は, アウトレーヤに対する感受性や, ソースおよびターゲット尺度におけるクラスの不均衡など, 様々な問題を引き起こしていることが明らかとなった。 この事実は、未均衡の EOT (UEOT) 問題に対処する解法の開発にインスピレーションを与えた。 驚いたことに、既存の解法はヒューリスティックな原理に基づいているか、あるいは複数のニューラルネットワークを含む複雑な最適化目標を重み付けしている。 この課題に対処し、理論的に修正され、軽量で、バランスの取れないEOTソルバを提案する。 我々の進歩は、トラクタブルと非ミニマックス最適化の目的をもたらすUEOT問題の最適化に関する新しい視点の開発である。 我々は、最近提案された光パラメトリゼーションと組み合わせることで、CPU上での連続UEOT問題を数分で解ける高速でシンプルで効果的な解法が得られることを示す。 我々は、我々の解法がUEOT解の普遍近似を提供し、その一般化境界が得られることを証明した。 問題解決者の業績を例証する。

While the continuous Entropic Optimal Transport (EOT) field has been actively developing in recent years, it became evident that the classic EOT problem is prone to different issues like the sensitivity to outliers and imbalance of classes in the source and target measures. This fact inspired the development of solvers that deal with the unbalanced EOT (UEOT) problem $-$ the generalization of EOT allowing for mitigating the mentioned issues by relaxing the marginal constraints. Surprisingly, it turns out that the existing solvers are either based on heuristic principles or heavy-weighted with complex optimization objectives involving several neural networks. We address this challenge and propose a novel theoretically-justified, lightweight, unbalanced EOT solver. Our advancement consists of developing a novel view on the optimization of the UEOT problem yielding tractable and a non-minimax optimization objective. We show that combined with a light parametrization recently proposed in the field our objective leads to a fast, simple, and effective solver which allows solving the continuous UEOT problem in minutes on CPU. We prove that our solver provides a universal approximation of UEOT solutions and obtain its generalization bounds. We give illustrative examples of the solver's performance.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# クロスバリデーションリスク推定を用いたモデル選択による学習における分布自由逸脱境界とドメイン知識の役割

Distribution-free Deviation Bounds and The Role of Domain Knowledge in Learning via Model Selection with Cross-validation Risk Estimation ( http://arxiv.org/abs/2303.08777v2 )

ライセンス: Link先を確認
Diego Marcondes, Cláudia Peixoto, (参考訳) リスク推定とモデル選択のためのクロスバリデーション技術は、統計学や機械学習で広く利用されている。 しかし, クロスバリデーションリスク推定を用いたモデル選択による学習の理論的特性の理解は, 広く利用されている中では極めて低い。 本稿では,古典的統計学習理論における一般的な体系的学習フレームワークとしてのクロスバリデーションリスク推定を用いたモデル選択による学習について述べるとともに,VC次元の観点から分布自由な偏差境界を確立し,結果の詳細な証明と有界・非有界損失関数の検討を行う。 特に,モデル選択による学習の一般化が,候補モデルの集合をモデル化することによってどのように向上するかを検討する。 我々は、学習空間を、包含による部分順序がモデルの複雑さを反映する候補モデルのクラスとして定義し、ドメイン知識に基づいてそれらを定義する方法を定式化する。 このモデリングは、有限領域の分類器を学習する最悪のシナリオと、線形回帰の典型的なシナリオで説明する。 理論的な洞察と具体例を通して,ドメイン知識に基づく候補モデルのファミリー選択のガイダンスを提供し,一般化を促進することを目的とする。

Cross-validation techniques for risk estimation and model selection are widely used in statistics and machine learning. However, the understanding of the theoretical properties of learning via model selection with cross-validation risk estimation is quite low in face of its widespread use. In this context, this paper presents learning via model selection with cross-validation risk estimation as a general systematic learning framework within classical statistical learning theory and establishes distribution-free deviation bounds in terms of VC dimension, giving detailed proofs of the results and considering both bounded and unbounded loss functions. In particular, we investigate how the generalization of learning via model selection may be increased by modeling the collection of candidate models. We define the Learning Spaces as a class of candidate models in which the partial order by inclusion reflects the models complexities, and we formalize a manner of defining them based on domain knowledge. We illustrate this modeling in a worst-case scenario of learning a classifier with finite domain and a typical scenario of linear regression. Through theoretical insights and concrete examples, we aim to provide guidance on selecting the family of candidate models based on domain knowledge to increase generalization.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# Wavelet Scattering Transformと1D-CNNによる心室および異常PCGの検出

Heart Murmur and Abnormal PCG Detection via Wavelet Scattering Transform & a 1D-CNN ( http://arxiv.org/abs/2303.11423v2 )

ライセンス: Link先を確認
Ahmed Patwa, Muhammad Mahboob Ur Rahman, Tareq Y. Al-Naffouri, (参考訳) 心臓の大腿骨は心臓の機械的活動に関する貴重な情報を提供し、様々な心臓弁疾患の診断に役立つ。 この研究は、心電図(PCG)記録から自動的かつ正確な心臓外傷検出を行う。 Physionetオンラインデータベースからの2つのパブリックPCGデータセット(CirCor Digiscope 2022データセットとPCG 2016データセット)を使用して、3つのカスタムニューラルネットワーク(NN)をトレーニングし、テストする。 まず, ノイズのみのセグメントの再ラベル化, データ正規化, ウェーブレット散乱変換を用いたPCGセグメントの時間周波数解析を行う。 次に,PCG 2022データセットを用いた第1実験(E1-E3)とPCG 2016データセットを用いた第4実験(E4)の4つの実験を行った。 私たちのカスタム1D-CNNは、他の2つのNN(LSTM-RNNとC-RNN)より優れています。 さらに、1D-CNNモデルは、E3(PCG 2022データセットのクリーン化とリラベル化)の実験において、精度、重み付け精度、F1スコア、AUROCにおいて、関連する作業よりも優れています。 実験E1(元のPCG 2022データセットを利用する)では、重み付け精度とF1スコアの点で、我々のモデルは関連する作業に非常に近い。

Heart murmurs provide valuable information about mechanical activity of the heart, which aids in diagnosis of various heart valve diseases. This work does automatic and accurate heart murmur detection from phonocardiogram (PCG) recordings. Two public PCG datasets (CirCor Digiscope 2022 dataset and PCG 2016 dataset) from Physionet online database are utilized to train and test three custom neural networks (NN): a 1D convolutional neural network (CNN), a long short-term memory (LSTM) recurrent neural network (RNN), and a convolutional RNN (C-RNN). We first do pre-processing which includes the following key steps: denoising, segmentation, re-labeling of noise-only segments, data normalization, and time-frequency analysis of the PCG segments using wavelet scattering transform. We then conduct four experiments, first three (E1-E3) using PCG 2022 dataset, and fourth (E4) using PCG 2016 dataset. It turns out that our custom 1D-CNN outperforms other two NNs (LSTM-RNN and C-RNN). Further, our 1D-CNN model outperforms the related work in terms of accuracy, weighted accuracy, F1-score and AUROC, for experiment E3 (that utilizes the cleaned and re-labeled PCG 2022 dataset). As for experiment E1 (that utilizes the original PCG 2022 dataset), our model performs quite close to the related work in terms of weighted accuracy and F1-score.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 階層的ベイズ学習における結合空間の活用

Leveraging joint sparsity in hierarchical Bayesian learning ( http://arxiv.org/abs/2303.16954v2 )

ライセンス: Link先を確認
Jan Glaubitz, Anne Gelb, (参考訳) 複数の測定ベクトルから連続的にスパースなパラメータベクトルを推定するための階層的ベイズ学習手法を提案する。 本モデルでは,各パラメータベクトルと共通ガンマ分布ハイパーパラメータに対して,それぞれ異なる条件付きガウス先行値を用いて関節の間隔を強制する。 その結果,従来のベイズ推論手法と組み合わせて新しいアルゴリズム群を生成する。 マルチコイル磁気共鳴イメージングアプリケーションを含む数値実験により、我々の新しい手法は階層的ベイズ法よりも一貫して優れていることが示された。

We present a hierarchical Bayesian learning approach to infer jointly sparse parameter vectors from multiple measurement vectors. Our model uses separate conditionally Gaussian priors for each parameter vector and common gamma-distributed hyper-parameters to enforce joint sparsity. The resulting joint-sparsity-promoting priors are combined with existing Bayesian inference methods to generate a new family of algorithms. Our numerical experiments, which include a multi-coil magnetic resonance imaging application, demonstrate that our new approach consistently outperforms commonly used hierarchical Bayesian methods.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 関数制約付き確率的変分不等式問題の1次解法

First-order methods for Stochastic Variational Inequality problems with Function Constraints ( http://arxiv.org/abs/2304.04778v3 )

ライセンス: Link先を確認
Digvijay Boob, Qi Deng, Mohammad Khalafi, (参考訳) モノトン変分不等式(モノトン変分不等式、英: monotone variational Inequality、VI)は、様々な工学および科学分野において重要な応用を持つ一般モデルである。 多くの場合、VI問題はデータ駆動の関数制約を伴うため、通常の射影演算子では計算が難しい。 本稿では,関数制約付き変分不等式(FCVI)問題に対して,確率演算子や制約のある滑らかあるいは非滑らかな設定で新しい一階法を提案する。 本稿では,FCVIのKKT演算子をスムーズな決定論的設定で外挿するAdOpEx法を提案する。 この演算子はラグランジュ乗算器において一様リプシッツ連続ではないので、有界乗算器に導かれる適応2時間スケールのアルゴリズムを用い、最適な$O(1/T)$収束率を達成する。 非滑らかで確率的な VI に対して,AdOpEx 法の設計変更を導入し,部分補間を行う新しい P-OpEx 法を提案する。 O(1/\sqrt{T})$ の速度で収束する(演算子と制約の両方が確率的あるいは非滑らかである)。 この方法は関数制約の雑音とリプシッツ定数に準最適依存を持つ。 本稿では,OpConEx法に導かれる制約外挿法を提案し,その依存性を桁違いに改善する。 すべてのアルゴリズムは, 基本変数と双対変数を結合する関数制約を持つサドル点問題に容易に拡張でき, 同じ複雑性結果を維持することができる。 私たちの知識を最大限に活用するために、複雑性の結果はすべて文献で新しくなっています。

The monotone Variational Inequality (VI) is a general model with important applications in various engineering and scientific domains. In numerous instances, the VI problems are accompanied by function constraints that can be data-driven, making the usual projection operator challenging to compute. This paper presents novel first-order methods for the function-constrained Variational Inequality (FCVI) problem in smooth or nonsmooth settings with possibly stochastic operators and constraints. We introduce the AdOpEx method, which employs an operator extrapolation on the KKT operator of the FCVI in a smooth deterministic setting. Since this operator is not uniformly Lipschitz continuous in the Lagrange multipliers, we employ an adaptive two-timescale algorithm leading to bounded multipliers and achieving the optimal $O(1/T)$ convergence rate. For the nonsmooth and stochastic VIs, we introduce design changes to the AdOpEx method and propose a novel P-OpEx method that takes partial extrapolation. It converges at the rate of $O(1/\sqrt{T})$ when both the operator and constraints are stochastic or nonsmooth. This method has suboptimal dependence on the noise and Lipschitz constants of function constraints. We propose a constraint extrapolation approach leading to the OpConEx method that improves this dependence by an order of magnitude. All our algorithms easily extend to saddle point problems with function constraints that couple the primal and dual variables while maintaining the same complexity results. To the best of our knowledge, all our complexity results are new in the literature
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# ベイズ最適化における関連する文脈変数の学習

Learning Relevant Contextual Variables Within Bayesian Optimization ( http://arxiv.org/abs/2305.14120v4 )

ライセンス: Link先を確認
Julien Martinelli, Ayush Bharti, Armi Tiihonen, S. T. John, Louis Filstroff, Sabina J. Sloman, Patrick Rinke, Samuel Kaski, (参考訳) 文脈ベイズ最適化(CBO)は、設計変数に関してブラックボックス関数を効率的に最適化し、実験条件などの環境に関するコンテキスト情報を同時に統合する。 しかし、文脈変数の関連性は必ずしも事前に分かっていない。 さらに、コンテクスト変数は、現在のCBOアルゴリズムによって見落とされ、追加のコストで最適化されることもある。 コストに敏感なCBOは、設計変数の一部として、そのコストに基づいて最適化可能なコンテキスト変数を含める。 その代わりに、それらの妥当性と追加コストとの間のトレードオフに基づいて、最適化に含まれるコンテキスト変数のサブセットを適応的に選択します。 我々は,BOの早期停止に関する最近の進展を活用して,最適化コストを最小化しつつ,後続サロゲートモデルの感度解析により文脈変数の妥当性を学習する。 今回提案した感性分析駆動型コンテクストBO(SADCBO)法を,合成実験と実世界実験の両方の代替品に対して,広範囲なアブレーション研究とともに実証的に評価し,実例間で一貫した改善を実証した。

Contextual Bayesian Optimization (CBO) efficiently optimizes black-box functions with respect to design variables, while simultaneously integrating contextual information regarding the environment, such as experimental conditions. However, the relevance of contextual variables is not necessarily known beforehand. Moreover, contextual variables can sometimes be optimized themselves at an additional cost, a setting overlooked by current CBO algorithms. Cost-sensitive CBO would simply include optimizable contextual variables as part of the design variables based on their cost. Instead, we adaptively select a subset of contextual variables to include in the optimization, based on the trade-off between their relevance and the additional cost incurred by optimizing them compared to leaving them to be determined by the environment. We learn the relevance of contextual variables by sensitivity analysis of the posterior surrogate model while minimizing the cost of optimization by leveraging recent developments on early stopping for BO. We empirically evaluate our proposed Sensitivity-Analysis-Driven Contextual BO (SADCBO) method against alternatives on both synthetic and real-world experiments, together with extensive ablation studies, and demonstrate a consistent improvement across examples.
翻訳日:2024-05-28 00:25:27 公開日:2024-05-24
# 故障した信頼度推定器の修正方法:ディープニューラルネットワークを用いた選択分類のためのポストホック法の評価

How to Fix a Broken Confidence Estimator: Evaluating Post-hoc Methods for Selective Classification with Deep Neural Networks ( http://arxiv.org/abs/2305.15508v4 )

ライセンス: Link先を確認
Luís Felipe P. Cattelan, Danilo Silva, (参考訳) 本稿では、モデルが低信頼度予測を棄却して潜在的な誤りを避けることができるディープニューラルネットワークの選択的分類の問題に対処する。 分類器の信頼度を変更・再訓練することなく置き換えるいわゆるポストホック手法に着目し、実質的に魅力的である。 ソフトマックス出力を持つニューラルネットワークを考えると、我々のゴールは、正規化されていないロジットから直接計算できる最高の信頼度推定器を特定することである。 この問題は、多くの分類器が「壊れた」信頼推定器を持っているように見える最近の研究における興味深い観察によって動機付けられている。 我々は,84の事前学習済みイメージネット分類器に適用された,既存および提案された信頼度推定器の広範な実験を行った。 その結果、ロジットの単純な$p$-norm正規化に続いて、最大ロジットを信頼度推定器とすることで、選択的な分類性能が向上し、多くの分類器で観察される病理学的挙動を完全に修正できることがわかった。 その結果、任意の分類器の選択的分類性能はその対応する精度でほぼ完全に決定される。 さらに、これらの結果は分布シフトの下で一貫していることが示されている。 私たちのコードはhttps://github.com/lfpc/FixSelectiveClassification.comで利用可能です。

This paper addresses the problem of selective classification for deep neural networks, where a model is allowed to abstain from low-confidence predictions to avoid potential errors. We focus on so-called post-hoc methods, which replace the confidence estimator of a given classifier without modifying or retraining it, thus being practically appealing. Considering neural networks with softmax outputs, our goal is to identify the best confidence estimator that can be computed directly from the unnormalized logits. This problem is motivated by the intriguing observation in recent work that many classifiers appear to have a "broken" confidence estimator, in the sense that their selective classification performance is much worse than what could be expected by their corresponding accuracies. We perform an extensive experimental study of many existing and proposed confidence estimators applied to 84 pretrained ImageNet classifiers available from popular repositories. Our results show that a simple $p$-norm normalization of the logits, followed by taking the maximum logit as the confidence estimator, can lead to considerable gains in selective classification performance, completely fixing the pathological behavior observed in many classifiers. As a consequence, the selective classification performance of any classifier becomes almost entirely determined by its corresponding accuracy. Moreover, these results are shown to be consistent under distribution shift. Our code is available at https://github.com/lfpc/FixSelectiveClassification.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# 英語ニュース記事における文レベル主観性検出コーパス

A Corpus for Sentence-level Subjectivity Detection on English News Articles ( http://arxiv.org/abs/2305.18034v3 )

ライセンス: Link先を確認
Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barrón-Cedeño, (参考訳) 我々は,言語固有の手がかりに限らず,文レベルの主観性検出のための新しいガイドラインを開発した。 我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。 我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語や他の言語で主観的検出を行う方法を舗装している。 単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語 この目的のために、既存のイタリアのコーパスを再注釈する。 マルチ言語設定で訓練されたモデルがタスク上で最高のパフォーマンスを達成するのを観察する。

We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# 深部正規化ネットワークのウェイトダイナミクスについて

On the Weight Dynamics of Deep Normalized Networks ( http://arxiv.org/abs/2306.00700v3 )

ライセンス: Link先を確認
Christian H. X. Ali Mehmeti-Göpel, Michael Wand, (参考訳) 近年の研究では、ディープニューラルネットワークの層間での効果的な学習率(ELR)の差がトレーニング可能性に悪影響を及ぼすことが示されている。 正規化層を持つネットワークの重み力学(期待勾配と重みノルムの進化)をモデル化し、層ワイドELR比の進化を予測することにより、これらの相違が時間とともにどのように進化するかを定式化する。 一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。 ELRの格差が広がる「臨界学習率」は、現在のELRにのみ依存する。 そこで本研究では,ELRの拡散を迅速に抑えるための超パラメータフリーウォームアップ法を考案した。 実験では,ELRの拡散とトレーニング可能性の関係について検討した。

Recent studies have shown that high disparities in effective learning rates (ELRs) across layers in deep neural networks can negatively affect trainability. We formalize how these disparities evolve over time by modeling weight dynamics (evolution of expected gradient and weight norms) of networks with normalization layers, predicting the evolution of layer-wise ELR ratios. We prove that when training with any constant learning rate, ELR ratios converge to 1, despite initial gradient explosion. We identify a ``critical learning rate" beyond which ELR disparities widen, which only depends on current ELRs. To validate our findings, we devise a hyper-parameter-free warm-up method that successfully minimizes ELR spread quickly in theory and practice. Our experiments link ELR spread with trainability, a relationship that is most evident in very deep networks with significant gradient magnitude excursions.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# 標的外代謝データの自動アライメントのための最適輸送

Optimal transport for automatic alignment of untargeted metabolomic data ( http://arxiv.org/abs/2306.03218v4 )

ライセンス: Link先を確認
Marie Breeur, George Stepaniants, Pekka Keski-Rahkonen, Philippe Rigollet, Vivian Viallon, (参考訳) 液体クロマトグラフィー質量分析法(LC-MS)による未標的代謝プロファイリング(英語版)は、生体内に存在する大量の代謝物を測定し、薬物開発、疾患の診断、リスク予測を行う。 しかし、LC-MSの低スループットは、バイオマーカー発見、アノテーション、実験的な比較において大きな課題となり、複数のデータセットのマージが必要になる。 現在のデータプーリング手法は、データバリエーションやハイパーパラメータ依存に対する脆弱性のため、実用的な制限に直面している。 本稿では,LC-MSデータセットを最適なトランスポートで自動的に組み合わせる,フレキシブルでユーザフレンドリなアルゴリズムであるGromovMatcherを紹介する。 特徴強度相関構造を利用することで、GromovMatcherは既存のアプローチよりも優れたアライメント精度とロバスト性を提供する。 このアルゴリズムは、最小限のハイパーパラメータチューニングを必要とする何千もの機能にスケールする。 そこで我々は,GromovMatcher などの手法によるアライメントを検証するための検証データセットのペアを生成するデータセット分割手順を開発した。 本手法を肝癌および膵癌の実験的研究に適用することにより,患者アルコール摂取に関連する代謝学的特徴の共有が発見され,GromovMatcherが,いくつかのがんタイプに関連するライフスタイルリスク因子に関連するバイオマーカーの探索をいかに促進するかを実証した。

Untargeted metabolomic profiling through liquid chromatography-mass spectrometry (LC-MS) measures a vast array of metabolites within biospecimens, advancing drug development, disease diagnosis, and risk prediction. However, the low throughput of LC-MS poses a major challenge for biomarker discovery, annotation, and experimental comparison, necessitating the merging of multiple datasets. Current data pooling methods encounter practical limitations due to their vulnerability to data variations and hyperparameter dependence. Here we introduce GromovMatcher, a flexible and user-friendly algorithm that automatically combines LC-MS datasets using optimal transport. By capitalizing on feature intensity correlation structures, GromovMatcher delivers superior alignment accuracy and robustness compared to existing approaches. This algorithm scales to thousands of features requiring minimal hyperparameter tuning. Manually curated datasets for validating alignment algorithms are limited in the field of untargeted metabolomics, and hence we develop a dataset split procedure to generate pairs of validation datasets to test the alignments produced by GromovMatcher and other methods. Applying our method to experimental patient studies of liver and pancreatic cancer, we discover shared metabolic features related to patient alcohol intake, demonstrating how GromovMatcher facilitates the search for biomarkers associated with lifestyle risk factors linked to several cancer types.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# PandaLM: LLM命令チューニング最適化のための自動評価ベンチマーク

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization ( http://arxiv.org/abs/2306.05087v2 )

ライセンス: Link先を確認
Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang, (参考訳) 大規模言語モデル(LLM)のチューニングは、ハイパーパラメータ選択の複雑さと調整モデルの評価の難しさのため、依然として難しい課題である。 最適なハイパーパラメータを決定するためには、自動的、堅牢で信頼性の高い評価ベンチマークが不可欠である。 しかし、評価精度とプライバシ保護に関わる課題のため、そのようなベンチマークを確立することは簡単な作業ではない。 これらの課題に応えて,複数のLLMが与えられた優れたモデルを識別する訓練を施した,PandaLMという判断用大言語モデルを導入する。 PandaLMの焦点は、従来の評価データセットの主な焦点である応答の客観的な正しさに留まらない。 相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。 PandaLMの信頼性を確保するために、我々は、人間によって生成されたすべてのコンテキストとラベルが人間の嗜好に合致する多様な人間アノテーションテストデータセットを収集する。 PandaLM-7BはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。 PandaLMは、デフォルトのアルパカのハイパーパラメーターで訓練されたモデルと比較して、PandaLMによって調整されたモデルによって達成された顕著な改善により、LCMの評価をより公平に、低コストで行えるようにした。 さらに、PandaLMはAPIベースの評価に依存しないので、潜在的なデータ漏洩を回避することができる。 PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されている。

Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする

Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v5 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang, (参考訳) 金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。 このデータの効率的な管理、処理、表示には専門的な専門知識が必要です。 自動化ワークフローの開発に大規模言語モデル(LLM)を活用することは、非常に有望なソリューションである。 しかし、LLMは複雑な数値計算やテーブル操作に不適であり、文脈予算の制限もある。 そこで本研究では,データ分析エージェントであるData-Copilotを提案する。 まず、人間のリクエストを受け取り、大量のデータを処理する仲介役としてコードを生成するコード中心のエージェントで、大規模なデータ処理タスクに非常に柔軟です。 第2に、Data-Copilotには事前にデータ探索フェーズが含まれており、リアルタイム応答のためのより普遍的でエラーのないインターフェースを設計する方法を探っている。 具体的には、データソースを積極的に探索し、多くの共通要求を発見し、それらを日々の呼び出しのために多くのユニバーサルインターフェースに抽象化する。 リアルタイムリクエストにデプロイする場合、Data-Copilotは事前に設計されたインターフェースを呼び出すだけで、生データを視覚化された出力(例えば、チャート、テーブル)に変換し、ユーザの意図に最もよくマッチする。 スクラッチからコードを生成するのに比べ、事前に設計され、コンパイラに検証されたインターフェイスを呼び出すことで、リアルタイムリクエスト時のエラーを大幅に削減できる。 さらに、インターフェースワークフローはより効率的で、コードよりも解釈性が高い。 当社はData-Copilotをオープンソース化し、株式、ファンド、ニュースなどの大規模な中国金融データを公開し、将来有望なアプリケーションの見通しを示した。

Industries such as finance, meteorology, and energy generate vast amounts of data daily. Efficiently managing, processing, and displaying this data requires specialized expertise and is often tedious and repetitive. Leveraging large language models (LLMs) to develop an automated workflow presents a highly promising solution. However, LLMs are not adept at handling complex numerical computations and table manipulations and are also constrained by a limited context budget. Based on this, we propose Data-Copilot, a data analysis agent that autonomously performs querying, processing, and visualization of massive data tailored to diverse human requests. The advancements are twofold: First, it is a code-centric agent that receives human requests and generates code as an intermediary to handle massive data, which is quite flexible for large-scale data processing tasks. Second, Data-Copilot involves a data exploration phase in advance, which explores how to design more universal and error-free interfaces for real-time response. Specifically, it actively explores data sources, discovers numerous common requests, and abstracts them into many universal interfaces for daily invocation. When deployed in real-time requests, Data-Copilot only needs to invoke these pre-designed interfaces, transforming raw data into visualized outputs (e.g., charts, tables) that best match the user's intent. Compared to generating code from scratch, invoking these pre-designed and compiler-validated interfaces can significantly reduce errors during real-time requests. Additionally, interface workflows are more efficient and offer greater interpretability than code. We open-sourced Data-Copilot with massive Chinese financial data, such as stocks, funds, and news, demonstrating promising application prospects.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# ソフトロバストMDPとリスク感性MDP--等価性、政策グラディエント、サンプル複雑度

Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity ( http://arxiv.org/abs/2306.11626v4 )

ライセンス: Link先を確認
Runyu Zhang, Yang Hu, Na Li, (参考訳) ロバスト・マルコフ決定プロセス(MDP)とリスクに敏感なMDPは、不確実性の存在下で意思決定を行うための強力なツールである。 それまでの努力は、それらの関係を確立することを目的としており、特定の定式化における同値性を明らかにしている。 本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度(Ruszczy\'nski 2010)と若干異なる方法でリスクを評価するとともに,標準的なRMDPを含むソフトロバストMDP(RMDP)問題と等価性を確立する。 この等価性を生かして、直接パラメタライゼーションを伴う表層環境下での厳密なポリシー勾配法の勾配支配と大域収束を証明し、両問題に対するポリシー勾配定理を導出する。 これはマルコフリスク測度(Huang et al 2021)と鋭い対比を形成する。 また、KL分割正規化項を持つ特定のソフトRMDP問題に対して、サンプルベースのオフライン学習アルゴリズム、すなわち、ロバスト適合Z反復(RFZI)を提案する。 我々はその合理化設計と同値性による制約の少ない仮定を示し、サンプルの複雑さを解析する。

Robust Markov Decision Processes (MDPs) and risk-sensitive MDPs are both powerful tools for making decisions in the presence of uncertainties. Previous efforts have aimed to establish their connections, revealing equivalences in specific formulations. This paper introduces a new formulation for risk-sensitive MDPs, which assesses risk in a slightly different manner compared to the classical Markov risk measure (Ruszczy\'nski 2010), and establishes its equivalence with a class of soft robust MDP (RMDP) problems, including the standard RMDP as a special case. Leveraging this equivalence, we further derive the policy gradient theorem for both problems, proving gradient domination and global convergence of the exact policy gradient method under the tabular setting with direct parameterization. This forms a sharp contrast to the Markov risk measure, known to be potentially non-gradient-dominant (Huang et al. 2021). We also propose a sample-based offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a specific soft RMDP problem with a KL-divergence regularization term (or equivalently the risk-sensitive MDP with an entropy risk measure). We showcase its streamlined design and less stringent assumptions due to the equivalence and analyze its sample complexity
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# TACO:視覚強化学習のための時間遅延行動駆動型コントラスト損失

TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning ( http://arxiv.org/abs/2306.13229v3 )

ライセンス: Link先を確認
Ruijie Zheng, Xiyao Wang, Yanchao Sun, Shuang Ma, Jieyu Zhao, Huazhe Xu, Hal Daumé III, Furong Huang, (参考訳) 近年, 原画素データからの強化学習(RL)の進歩にもかかわらず, 試料の非効率性はかなりの障害を呈し続けている。 先行研究は、エージェントの学習した表現を、将来の状態予測のための制御関連情報で強化することを目的として、自己教師付き補助タスクを作成することで、この問題に対処しようとしている。 しかし、これらの目的はしばしば最適なポリシーや値関数を表現できる表現を学ぶのに不十分であり、小さな抽象的な行動空間を持つタスクをよく考慮し、連続的な制御における行動表現学習の重要性を見落としている。 本稿では,エージェントの潜伏状態と行動表現の同時獲得を容易にする,シンプルながら強力な時間的コントラスト学習手法であるTACOを紹介する。 TACOは、動作シーケンスと組み合わせた現在の状態の表現と、対応する将来の状態の表現との相互情報を最適化することにより、状態と行動表現を同時に学習する。 理論的には、TACOは制御に十分な情報を含む状態と行動表現を学習し、サンプル効率を向上させることができる。 オンラインRLでは、Deepmind Control Suiteの9つの挑戦的な視覚的連続制御タスクに対して、平均100万の環境インタラクションステップを経て、TACOは40%のパフォーマンス向上を達成した。 さらに、TACOは、既存のオフライン視覚RLメソッドに追加するプラグイン・アンド・プレイモジュールとしても機能し、さまざまな品質のオフラインデータセットに対して、オフライン視覚RLのための新しい最先端パフォーマンスを確立することができることを示す。

Despite recent progress in reinforcement learning (RL) from raw pixel data, sample inefficiency continues to present a substantial obstacle. Prior works have attempted to address this challenge by creating self-supervised auxiliary tasks, aiming to enrich the agent's learned representations with control-relevant information for future state prediction. However, these objectives are often insufficient to learn representations that can represent the optimal policy or value function, and they often consider tasks with small, abstract discrete action spaces and thus overlook the importance of action representation learning in continuous control. In this paper, we introduce TACO: Temporal Action-driven Contrastive Learning, a simple yet powerful temporal contrastive learning approach that facilitates the concurrent acquisition of latent state and action representations for agents. TACO simultaneously learns a state and an action representation by optimizing the mutual information between representations of current states paired with action sequences and representations of the corresponding future states. Theoretically, TACO can be shown to learn state and action representations that encompass sufficient information for control, thereby improving sample efficiency. For online RL, TACO achieves 40% performance boost after one million environment interaction steps on average across nine challenging visual continuous control tasks from Deepmind Control Suite. In addition, we show that TACO can also serve as a plug-and-play module adding to existing offline visual RL methods to establish the new state-of-the-art performance for offline visual RL across offline datasets with varying quality.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# MindDial: 仮定型ニューラルダイアログ生成のためのMind-of-Mindモデルによる信念ダイナミクスの追跡

MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation ( http://arxiv.org/abs/2306.15253v4 )

ライセンス: Link先を確認
Shuwen Qiu, Mingdian Liu, Hengli Li, Song-Chun Zhu, Zilong Zheng, (参考訳) 人間は、表現された意味や共通の根拠を調整し、交渉しながら日々の会話で話す。 大規模生成言語モデルの印象的な会話能力にもかかわらず、共用環境における文脈的理解の個人差を考慮しない。 本研究では,MindDialを提案する。MindDialは,理論・オブ・ミンド・モデリングを用いて,位置自由な応答を生成できる対話型フレームワークである。 本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。 次に次の応答を生成し、信念の違いを解消し、タスク関連のアクションを取る。 筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。 実験により,マインドモデリングを用いたモデルでは,共通基盤の整列や交渉において,より高いタスク結果が得られることが示された。 アブレーション研究は,3段階の信念設計が情報を集約し,協調的・交渉的な環境下での課題成果を改善することをさらに検証した。

Humans talk in daily conversations while aligning and negotiating the expressed meanings or common ground. Despite the impressive conversational abilities of the large generative language models, they do not consider the individual differences in contextual understanding in a shared situated environment. In this work, we propose MindDial, a novel conversational framework that can generate situated free-form responses with theory-of-mind modeling. We introduce an explicit mind module that can track the speaker's belief and the speaker's prediction of the listener's belief. Then the next response is generated to resolve the belief difference and take task-related action. Our framework is applied to both prompting and fine-tuning-based models, and is evaluated across scenarios involving both common ground alignment and negotiation. Experiments show that models with mind modeling can achieve higher task outcomes when aligning and negotiating common ground. The ablation study further validates the three-level belief design can aggregate information and improve task outcomes in both cooperative and negotiating settings.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# マルチサブルーチン量子プログラムのテスト: 単体テストから統合テストへ

Testing Multi-Subroutine Quantum Programs: From Unit Testing to Integration Testing ( http://arxiv.org/abs/2306.17407v2 )

ライセンス: Link先を確認
Peixun Long, Jianjun Zhao, (参考訳) 量子コンピューティングは、量子力学の原理を生かして様々な領域に革命をもたらす可能性を持つ、有望な分野として現れてきた。 量子ハードウェアとアルゴリズムが進歩を続けるにつれ、高品質な量子ソフトウェアの開発が重要になっている。 しかし、量子プログラムのテストは、量子システムの特徴的な特徴とマルチサブルーチンプログラムの複雑さのために、ユニークな課題を生んでいる。 本稿では,マルチサブルーチン量子プログラムの特定のテスト要件について述べる。 まず、既存の量子ライブラリを調査し、これらのプログラムをテストする際の課題についての洞察を提供することで、臨界特性を調査することから始める。 この理解に基づいて、単体テストから統合テストまで、テストプロセスの観点からのテスト基準とテクニックに焦点を当てます。 IO分析、量子関係チェック、構造テスト、振る舞いテスト、サブルーチンペアの統合、テストケース生成など、さまざまな側面を掘り下げています。 また、テストプロセスの指針として、新しいテスト原則と基準を導入します。 我々は、様々な変異体やランダムな入力を含む典型的な量子サブルーチンの総合的なテストを行い、提案手法の評価を行った。 失敗の分析は、テスト方法論の有効性に関する貴重な洞察を提供する。 さらに,本研究は,提案する試験原理と基準の実践的適用と有効性を示す,代表的マルチサブルーチン量子プログラムのケーススタディを示す。

Quantum computing has emerged as a promising field with the potential to revolutionize various domains by harnessing the principles of quantum mechanics. As quantum hardware and algorithms continue to advance, developing high-quality quantum software has become crucial. However, testing quantum programs poses unique challenges due to the distinctive characteristics of quantum systems and the complexity of multi-subroutine programs. This paper addresses the specific testing requirements of multi-subroutine quantum programs. We begin by investigating critical properties by surveying existing quantum libraries and providing insights into the challenges of testing these programs. Building upon this understanding, we focus on testing criteria and techniques based on the whole testing process perspective, spanning from unit testing to integration testing. We delve into various aspects, including IO analysis, quantum relation checking, structural testing, behavior testing, integration of subroutine pairs, and test case generation. We also introduce novel testing principles and criteria to guide the testing process. We conduct comprehensive testing on typical quantum subroutines, including diverse mutants and randomized inputs, to evaluate our proposed approach. The analysis of failures provides valuable insights into the effectiveness of our testing methodology. Additionally, we present case studies on representative multi-subroutine quantum programs, demonstrating the practical application and effectiveness of our proposed testing principles and criteria.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# シンメトリー下におけるクリフォード群とユニタリ設計

Clifford Group and Unitary Designs under Symmetry ( http://arxiv.org/abs/2306.17559v2 )

ライセンス: Link先を確認
Yosuke Mitsuhashi, Nobuyuki Yoshioka, (参考訳) クリフォード群は、ユニタリ設計の概念を拡張して、対称なケースに3次元のユニタリ設計である、というよく知られた主張を一般化した。 具体的には、対称クリフォード群が対称ユニタリな3次元設計であることは、対称性の制約がパウリ部分群によって記述されていることを証明した。 また、パウリ対称性のための単純な量子ゲートを持つ対称クリフォード群の完全かつ一意な構成法も見出した。 全体的な理解のために、パウリ部分群で説明できない物理的に関係のある U(1) と SU(2) 対称性の制約も検討し、対称クリフォード群が対称ユニタリな1-設計であるが、それらの対称性の下では2-設計ではないことを証明した。 本研究は, 対象の対称群における一様アンサンブルと対称ユニタリ群とのランダム性の差を測定するフレームポテンシャルの計算により, 数値的に検証した。 この研究は、ランダム化されたベンチマークのような量子情報処理への新たな視点を開き、監視されたランダム回路のような多くのボディシステムに深い理解を与える。

We have generalized the well-known statement that the Clifford group is a unitary 3-design into symmetric cases by extending the notion of unitary design. Concretely, we have proven that a symmetric Clifford group is a symmetric unitary 3-design if and only if the symmetry constraint is described by some Pauli subgroup. We have also found a complete and unique construction method of symmetric Clifford groups with simple quantum gates for Pauli symmetries. For the overall understanding, we have also considered physically relevant U(1) and SU(2) symmetry constraints, which cannot be described by a Pauli subgroup, and have proven that the symmetric Clifford group is a symmetric unitary 1-design but not a 2-design under those symmetries. Our findings are numerically verified by computing the frame potentials, which measure the difference in randomness between the uniform ensemble on the symmetric group of interest and the symmetric unitary group. This work will open a new perspective into quantum information processing such as randomized benchmarking, and give a deep understanding to many-body systems such as monitored random circuits.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# 量子プログラムのブラックボックステストにおける等価性、同一性、ユニタリ性チェック

Equivalence, Identity, and Unitarity Checking in Black-Box Testing of Quantum Programs ( http://arxiv.org/abs/2307.01481v2 )

ライセンス: Link先を確認
Peixun Long, Jianjun Zhao, (参考訳) 量子プログラムは本質的に非決定的な振る舞いを示しており、古典的なプログラムと比較してエラー発見により大きな課題をもたらす。 量子プログラムにはいくつかのテスト手法が提案されているが、ブラックボックステストの基本的な問題を見落としていることが多い。 本稿では、量子プログラムのブラックボックステストにおける等価性、アイデンティティ、ユニタリ性チェックの課題に対処するために設計された3つの新しいアルゴリズムを提示することにより、このギャップを埋める。 また、等価度とユニタリティチェックの専門バージョンを含むこれらのアルゴリズムの最適化手法についても検討し、性能と有効性を最大化するためにパラメータ選択に関する貴重な洞察を提供する。 提案手法の有効性を評価するため,提案手法は量子プログラムのブラックボックステストに頑健なサポートを提供し,等価性,アイデンティティ,ユニタリティチェックを厳格に行うことができることを示す総合的な実験評価を行った。

Quantum programs exhibit inherent non-deterministic behavior, which poses more significant challenges for error discovery compared to classical programs. While several testing methods have been proposed for quantum programs, they often overlook fundamental questions in black-box testing. In this paper, we bridge this gap by presenting three novel algorithms specifically designed to address the challenges of equivalence, identity, and unitarity checking in black-box testing of quantum programs. We also explore optimization techniques for these algorithms, including specialized versions for equivalence and unitarity checking, and provide valuable insights into parameter selection to maximize performance and effectiveness. To evaluate the effectiveness of our proposed methods, we conducted comprehensive experimental evaluations, which demonstrate that our methods can rigorously perform equivalence, identity, and unitarity checking, offering robust support for black-box testing of quantum programs.
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# 非線形メタラーニングはより速いレートを保証できる

Nonlinear Meta-Learning Can Guarantee Faster Rates ( http://arxiv.org/abs/2307.10870v4 )

ライセンス: Link先を確認
Dimitri Meunier, Zhu Li, Arthur Gretton, Samory Kpotufe, (参考訳) メタラーニングに関する近年の多くの理論的研究は、類似した表象構造を目的タスクから簡易化するための保証を達成することを目的としている。 重要なことに、理論における主目的は、収束率(共通表現の学習において)がタスク数$N$(およびタスク毎のサンプル数)でスケールする範囲を理解することである。 この設定の最初のステップは、タスク間の共有表現とタスク固有の回帰関数の両方が線形であるときに、この特性を示す。 この線形設定は、平均的な引数を通じて、例えば、タスクを集約する利点を簡単に示します。 しかし実際には、表現はしばしば非常に非線形であり、線形の場合のように容易に評価できない各タスクに非自明なバイアスを導入する。 本研究では,非線形表現を用いたメタラーニングの理論的保証を導出する。 特に、共有非線形性写像を無限次元 RKHS に仮定すると、タスク固有回帰関数の滑らかさを利用する注意的な正則化により、さらなるバイアスを緩和できることが示される。

Many recent theoretical works on meta-learning aim to achieve guarantees in leveraging similar representational structures from related tasks towards simplifying a target task. Importantly, the main aim in theory works on the subject is to understand the extent to which convergence rates -- in learning a common representation -- may scale with the number $N$ of tasks (as well as the number of samples per task). First steps in this setting demonstrate this property when both the shared representation amongst tasks, and task-specific regression functions, are linear. This linear setting readily reveals the benefits of aggregating tasks, e.g., via averaging arguments. In practice, however, the representation is often highly nonlinear, introducing nontrivial biases in each task that cannot easily be averaged out as in the linear case. In the present work, we derive theoretical guarantees for meta-learning with nonlinear representations. In particular, assuming the shared nonlinearity maps to an infinite-dimensional RKHS, we show that additional biases can be mitigated with careful regularization that leverages the smoothness of task-specific regression functions,
翻訳日:2024-05-28 00:15:41 公開日:2024-05-24
# サブモジュール強化学習

Submodular Reinforcement Learning ( http://arxiv.org/abs/2307.13372v2 )

ライセンス: Link先を確認
Manish Prajapat, Mojmír Mutný, Melanie N. Zeilinger, Andreas Krause, (参考訳) 強化学習(RL)では、状態の報酬は通常加法的であると考えられ、マルコフの仮定に従って、それらは以前に訪れた状態の$\textit{independent}$である。 カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。 この問題に対処するために、より一般的な非付加的(かつ歴史に依存しない)報酬を減弱したリターンをキャプチャする部分モジュラ集合関数によってモデル化するパラダイムである$\textit{submodular RL}$ (SubRL)を提案する。 残念なことに、一般に表の設定においても、結果の最適化問題は近似が難しいことが示される。 一方、古典的部分モジュラー最適化における欲求アルゴリズムの成功に動機づけられたSubRLのための単純なポリシー勾配に基づくアルゴリズムであるSubPOを提案する。 実際、基礎となるマルコフ決定過程(MDP)のいくつかの仮定の下で、SubPO は部分モジュラーバンドの最適定数係数近似を復元する。 さらに, 大規模状態空間や行動空間においても, SubRL インスタンスを局所的に最適化するための自然ポリシー勾配法を導出する。 生物多様性モニタリング,ベイズ実験設計,情報経路計画,カバレッジ最大化など,SubPOを応用したアプローチの汎用性を示す。 本結果は,高次元状態空間への拡張性とともに,サンプル効率を示す。

In reinforcement learning (RL), rewards of states are typically considered additive, and following the Markov assumption, they are $\textit{independent}$ of states visited previously. In many important applications, such as coverage control, experiment design and informative path planning, rewards naturally have diminishing returns, i.e., their value decreases in light of similar states visited previously. To tackle this, we propose $\textit{submodular RL}$ (SubRL), a paradigm which seeks to optimize more general, non-additive (and history-dependent) rewards modelled via submodular set functions which capture diminishing returns. Unfortunately, in general, even in tabular settings, we show that the resulting optimization problem is hard to approximate. On the other hand, motivated by the success of greedy algorithms in classical submodular optimization, we propose SubPO, a simple policy gradient-based algorithm for SubRL that handles non-additive rewards by greedily maximizing marginal gains. Indeed, under some assumptions on the underlying Markov Decision Process (MDP), SubPO recovers optimal constant factor approximations of submodular bandits. Moreover, we derive a natural policy gradient approach for locally optimizing SubRL instances even in large state- and action- spaces. We showcase the versatility of our approach by applying SubPO to several applications, such as biodiversity monitoring, Bayesian experiment design, informative path planning, and coverage maximization. Our results demonstrate sample efficiency, as well as scalability to high-dimensional state-action spaces.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# COMICS:多面フォージェリ検出のためのエンドツーエンド双方向コントラスト学習

COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection ( http://arxiv.org/abs/2308.01520v2 )

ライセンス: Link先を確認
Cong Zhang, Honggang Qi, Shuhui Wang, Yuezun Li, Siwei Lyu, (参考訳) 近年、DeepFakesは深刻な社会的懸念を生じさせており、検出に基づく法医学手法の急増につながっている。 顔偽造認識は、通常二相パイプラインに従う標準的な検出方法である。 これらの手法は理想的な実験環境ではうまく機能するが、複雑な背景とさまざまな大きさの複数の顔を含む野生のDeepFakeを扱う場合、課題に直面している。 さらに、ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。 この問題に対処する簡単な方法の1つは、高度なオブジェクト検出アーキテクチャを適用して、顔抽出と偽造検出をエンドツーエンドで統合することで、マルチフェイスを同時に処理することである。 しかし、これらの物体検出アーキテクチャは顔間の微妙な偽跡ではなく、異なる対象カテゴリの識別的特徴を捉えるように設計されているため、直接適応は表現能力の制限に悩まされる。 本稿では,多面フォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。 COMICSは顔抽出と偽造検出をシームレスに統合し、高度なオブジェクト検出アーキテクチャに適応する。 提案手法は粗い面と細かな面の両方で顔の偽りの痕跡を探索する。 具体的には、粗粒度レベルのコントラスト学習は、提案生成装置が生成する複数の層において、正と負のプロポーザルペア間の識別的特徴を捕捉し、微粒度レベルのコントラスト学習は、同一面の偽領域と原領域と、異なる面間の画素ワイドコンテンツの不整合をキャプチャする。 OpenForensicsとFFIWデータセットに関する大規模な実験は、我々の手法が他の手法よりも優れており、様々なアーキテクチャに統合される可能性を示している。

DeepFakes have raised serious societal concerns, leading to a great surge in detection-based forensics methods in recent years. Face forgery recognition is a standard detection method that usually follows a two-phase pipeline. While those methods perform well in ideal experimental environment, they face challenges when dealing with DeepFakes in the wild involving complex background and multiple faces of varying sizes. Moreover, most face forgery recognition methods can only process one face at a time. One straightforward way to address this issue is to simultaneous process multi-face by integrating face extraction and forgery detection in an end-to-end fashion by adapting advanced object detection architectures. However, as these object detection architectures are designed to capture the discriminative features of different object categories rather than the subtle forgery traces among the faces, the direct adaptation suffers from limited representation ability. In this paper, we propose COMICS, an end-to-end framework for multi-face forgery detection. COMICS integrates face extraction and forgery detection in a seamless manner and adapts to advanced object detection architectures. The proposed bi-grained contrastive learning approach explores face forgery traces at both the coarse- and fine-grained levels. Specifically, coarse-grained level contrastive learning captures the discriminative features among positive and negative proposal pairs at multiple layers produced by the proposal generator, and fine-grained level contrastive learning captures the pixel-wise discrepancy between the forged and original areas of the same face and the pixel-wise content inconsistency among different faces. Extensive experiments on the OpenForensics and FFIW datasets demonstrate that our method outperforms other counterparts and shows great potential for being integrated into various architectures.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# SoilNet: ヨーロッパにおけるデジタル土壌マッピングを用いた土壌有機炭素予測のための注意型時空間深層学習フレームワーク

SoilNet: An Attention-based Spatio-temporal Deep Learning Framework for Soil Organic Carbon Prediction with Digital Soil Mapping in Europe ( http://arxiv.org/abs/2308.03586v2 )

ライセンス: Link先を確認
Nafiseh Kakhani, Moien Rangzan, Ali Jamali, Sara Attarchi, Seyed Kazem Alavipanah, Thomas Scholten, (参考訳) デジタル土壌マッピング(DSM)は、統計モデリングと機械学習(ML)手法を含む最先端技術を統合し、土壌特性とその空間分布を正確に描写する高度なアプローチである。 土壌有機炭素(SOC)は土壌の健康、栄養循環、温室効果ガスの排出、生態系全体の生産性に関する貴重な洞察を提供する重要な土壌特性である。 本研究では,DSMフレームワークにおける空間時間深層学習(DL)技術の意義を明らかにする。 欧州全体でのSOC予測のために,ベース畳み込みニューラルネットワーク(CNN)モデルと空間的注意機構を用いた空間情報と,長期記憶(LSTM)ネットワークを用いた気候時空間情報を組み合わせた新しいアーキテクチャを提案する。 このモデルは、ランドサット8画像、地形、リモートセンシング指標、気候時系列などの総合的な環境特徴を入力特徴として利用する。 その結果、提案手法は、DSMで一般的に使用されるランダムフォレストのような従来のML手法よりも優れており、低根平均二乗誤差(RMSE)が得られることが示された。 このモデルはSOC予測のための堅牢なツールであり、他の土壌特性にも適用可能であり、DSM技術の進歩に寄与し、正確な情報に基づく土地管理と意思決定プロセスの促進に寄与する。

Digital soil mapping (DSM) is an advanced approach that integrates statistical modeling and cutting-edge technologies, including machine learning (ML) methods, to accurately depict soil properties and their spatial distribution. Soil organic carbon (SOC) is a crucial soil attribute providing valuable insights into soil health, nutrient cycling, greenhouse gas emissions, and overall ecosystem productivity. This study highlights the significance of spatial-temporal deep learning (DL) techniques within the DSM framework. A novel architecture is proposed, incorporating spatial information using a base convolutional neural network (CNN) model and spatial attention mechanism, along with climate temporal information using a long short-term memory (LSTM) network, for SOC prediction across Europe. The model utilizes a comprehensive set of environmental features, including Landsat-8 images, topography, remote sensing indices, and climate time series, as input features. Results demonstrate that the proposed framework outperforms conventional ML approaches like random forest commonly used in DSM, yielding lower root mean square error (RMSE). This model is a robust tool for predicting SOC and could be applied to other soil properties, thereby contributing to the advancement of DSM techniques and facilitating land management and decision-making processes based on accurate information.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# k平均の量子近似スキーム

A Quantum Approximation Scheme for k-Means ( http://arxiv.org/abs/2308.08167v2 )

ライセンス: Link先を確認
Ragesh Jaiswal, (参考訳) QRAMモデルにおける古典的な$k$-meansクラスタリング問題に対して、量子近似スキーム(例えば、$(1 + \varepsilon)$-approximation for every $\varepsilon > 0$)を与える。 より具体的には、QRAMデータ構造に格納されている$N$のデータセット$V$が与えられた場合、我々の量子アルゴリズムは、時間$\tilde{O} \left(2^{\tilde{O}(\frac{k}{\varepsilon})} \eta^2 d\right)$で実行され、高い確率出力を持つと$cost(V, C) \leq (1+\varepsilon) \cdot cost(V, C_{OPT})が$であるような$k$のセット$C$が出力される。 ここで、$C_{OPT}$は最適$k$-中心を表し、$cost(.)$は標準$k$-平均コスト関数(つまり、最も近い中心への点の平方距離の和)を表し、$\eta$はアスペクト比(すなわち、最大距離と最小距離の比率)である。 これは、$k$-means問題に対して1+\varepsilon)$の証明可能な近似保証を与える、多対数実行時間を持つ最初の量子アルゴリズムである。 また、教師なし学習における従来の研究とは異なり、我々の量子アルゴリズムは量子線型代数のサブルーチンを必要とせず、そのような手順で現れるパラメータ(例えば条件数)に依存しない実行時間を持つ。

We give a quantum approximation scheme (i.e., $(1 + \varepsilon)$-approximation for every $\varepsilon > 0$) for the classical $k$-means clustering problem in the QRAM model with a running time that has only polylogarithmic dependence on the number of data points. More specifically, given a dataset $V$ with $N$ points in $\mathbb{R}^d$ stored in QRAM data structure, our quantum algorithm runs in time $\tilde{O} \left( 2^{\tilde{O}(\frac{k}{\varepsilon})} \eta^2 d\right)$ and with high probability outputs a set $C$ of $k$ centers such that $cost(V, C) \leq (1+\varepsilon) \cdot cost(V, C_{OPT})$. Here $C_{OPT}$ denotes the optimal $k$-centers, $cost(.)$ denotes the standard $k$-means cost function (i.e., the sum of the squared distance of points to the closest center), and $\eta$ is the aspect ratio (i.e., the ratio of maximum distance to minimum distance). This is the first quantum algorithm with a polylogarithmic running time that gives a provable approximation guarantee of $(1+\varepsilon)$ for the $k$-means problem. Also, unlike previous works on unsupervised learning, our quantum algorithm does not require quantum linear algebra subroutines and has a running time independent of parameters (e.g., condition number) that appear in such procedures.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# PDL: プログレッシブ・ドロップアウト・レイヤによる複数インスタンス学習の正規化

PDL: Regularizing Multiple Instance Learning with Progressive Dropout Layers ( http://arxiv.org/abs/2308.10112v2 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Xiwen Chen, Oana M. Dumitrascu, Yalin Wang, (参考訳) 多重インスタンス学習(MIL)は、バッグとして知られるインスタンスのコレクションにバイナリクラスラベルを割り当てようとする、弱い教師付き学習アプローチである。 しかし、その監督能力の弱いため、MIL法は過度に適合し、ターゲットインスタンスの包括的な表現を開発する上で必要な支援を受けていた。 通常、正規化はオーバーフィッティングと効果的に戦うが、MILモデルとの統合は以前の研究でしばしば見過ごされてきた。 一方、現在のMILの正規化手法では、様々な表現の配列を明らかにする能力に限界が示されている。 本研究では,MILモデルにおける正規化の領域を探索し,プログレッシブ・ドロップアウト・レイヤ(PDL)という新たなアプローチを提案する。 我々は、過度に適合するだけでなく、複雑で影響のある特徴表現を明らかにする上で、MILモデルを強化することを目指している。 提案手法は既存のMIL法と直交し, 性能向上に容易に組み込むことができた。 MILベンチマークデータセットの広範囲な評価により、PDLを複数のMILメソッドに組み込んだことにより、分類性能が向上するだけでなく、弱い教師付き特徴ローカライゼーションの可能性も向上することが示された。

Multiple instance learning (MIL) was a weakly supervised learning approach that sought to assign binary class labels to collections of instances known as bags. However, due to their weak supervision nature, the MIL methods were susceptible to overfitting and required assistance in developing comprehensive representations of target instances. While regularization typically effectively combated overfitting, its integration with the MIL model has been frequently overlooked in prior studies. Meanwhile, current regularization methods for MIL have shown limitations in their capacity to uncover a diverse array of representations. In this study, we delve into the realm of regularization within the MIL model, presenting a novel approach in the form of a Progressive Dropout Layer (PDL). We aim to not only address overfitting but also empower the MIL model in uncovering intricate and impactful feature representations. The proposed method was orthogonal to existing MIL methods and could be easily integrated into them to boost performance. Our extensive evaluation across a range of MIL benchmark datasets demonstrated that the incorporation of the PDL into multiple MIL methods not only elevated their classification performance but also augmented their potential for weakly-supervised feature localizations.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# 深い線形ネットワークにおいても重要な学習期間

Critical Learning Periods Emerge Even in Deep Linear Networks ( http://arxiv.org/abs/2308.12221v2 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Stefano Soatto, (参考訳) クリティカルラーニング期間(Critical Learning periods)は、一時的な感覚障害が行動や学習表現に恒久的な影響を及ぼす発達初期の期間である。 生物学的ネットワークと人工ネットワークの急激な違いにもかかわらず、両方のシステムで臨界学習期間が経験的に観察されている。 このことは、臨界期が生物学の事故ではなく、学習の基本である可能性を示唆している。 しかし、なぜディープネットワークに正確な臨界周期が現れるのかは未解決の問題であり、特に両システムで観測される臨界周期が特定のアーキテクチャや最適化の詳細に依存するかどうかは不明である。 重要な要因を分離するために、我々は深層線形ネットワークモデルに注目し、驚くべきことに、これらのネットワークは、生物学や人工ネットワークで見られる多くの振る舞いを、分析的処理に適応しつつも示している。 臨界周期は、データ分布のモデルと構造に依存していることを示す。 また,特徴の学習が情報源間の競合に結びついていることを解析的およびシミュレーションで示す。 最後に,本分析をマルチタスク学習に拡張し,タスクの事前学習が新たなタスクの転送性能を損なうことを示すとともに,タスクと事前学習期間の関係にどのように依存するかを示す。 我々の知識を最大限に活用するために、我々の研究は、生物学的および人工ネットワークにおいて重要な学習期間が出現する理由を光を当てる、初めて分析的に抽出可能なモデルを提供する。

Critical learning periods are periods early in development where temporary sensory deficits can have a permanent effect on behavior and learned representations. Despite the radical differences between biological and artificial networks, critical learning periods have been empirically observed in both systems. This suggests that critical periods may be fundamental to learning and not an accident of biology. Yet, why exactly critical periods emerge in deep networks is still an open question, and in particular it is unclear whether the critical periods observed in both systems depend on particular architectural or optimization details. To isolate the key underlying factors, we focus on deep linear network models, and show that, surprisingly, such networks also display much of the behavior seen in biology and artificial networks, while being amenable to analytical treatment. We show that critical periods depend on the depth of the model and structure of the data distribution. We also show analytically and in simulations that the learning of features is tied to competition between sources. Finally, we extend our analysis to multi-task learning to show that pre-training on certain tasks can damage the transfer performance on new tasks, and show how this depends on the relationship between tasks and the duration of the pre-training stage. To the best of our knowledge, our work provides the first analytically tractable model that sheds light into why critical learning periods emerge in biological and artificial networks.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# 自律走行システムにおける物体検出のための周辺レーダ/ライダーの時間融合

Timely Fusion of Surround Radar/Lidar for Object Detection in Autonomous Driving Systems ( http://arxiv.org/abs/2309.04806v2 )

ライセンス: Link先を確認
Wenjing Xie, Tao Hu, Neiwen Ling, Guoliang Xing, Chun Jason Xue, Nan Guan, (参考訳) RadarとLidarのセンサーデータは、その補完的な利点を十分に活用し、自律運転システムのための周囲のより正確な再構築を提供する。 Surround Radar/Lidarは、最小限のコストで360度ビューをサンプリングできる。 しかし、本質的な物理的制約のため、Radarの周囲の回転速度、すなわちRadarデータフレームを生成する周波数は、Lidarの周囲よりもはるかに低い。 既存のRadar/Lidar融合法は、自律走行システムの高応答性要件を満たすことができないRadarの低周波で動作する必要があるが、本稿では、現状のオブジェクト検出モデルMVDNetに基づいて、Radar/Lidarを低周波ではなく、より高速なLidarのみに制限された作業周波数でヒューズする方法を開発した。 MVDNetはRadar/Lidarから時間的に不整合なデータを扱うので、遅いRadarデータフレームを待つのではなく、新しいLidarデータフレームが到着した時点で核融合を行うことができます。 しかし、時間的に不整合なRadar/LidarデータにMVDNetを直接適用すると、オブジェクト検出精度が大幅に低下する。 本稿では、MVDNetにおける時間的冗長性を探究し、入力データの時間的不整合を許容できるようにトレーニング手順を強化することにより、高い出力周波数を少ない精度で達成できることを示す。 トレーニング強化の様々な方法を探求し、それらを実験と定量的に比較する。

Fusing Radar and Lidar sensor data can fully utilize their complementary advantages and provide more accurate reconstruction of the surrounding for autonomous driving systems. Surround Radar/Lidar can provide 360-degree view sampling with the minimal cost, which are promising sensing hardware solutions for autonomous driving systems. However, due to the intrinsic physical constraints, the rotating speed of surround Radar, and thus the frequency to generate Radar data frames, is much lower than surround Lidar. Existing Radar/Lidar fusion methods have to work at the low frequency of surround Radar, which cannot meet the high responsiveness requirement of autonomous driving systems.This paper develops techniques to fuse surround Radar/Lidar with working frequency only limited by the faster surround Lidar instead of the slower surround Radar, based on the state-of-the-art object detection model MVDNet. The basic idea of our approach is simple: we let MVDNet work with temporally unaligned data from Radar/Lidar, so that fusion can take place at any time when a new Lidar data frame arrives, instead of waiting for the slow Radar data frame. However, directly applying MVDNet to temporally unaligned Radar/Lidar data greatly degrades its object detection accuracy. The key information revealed in this paper is that we can achieve high output frequency with little accuracy loss by enhancing the training procedure to explore the temporal redundancy in MVDNet so that it can tolerate the temporal unalignment of input data. We explore several different ways of training enhancement and compare them quantitatively with experiments.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# 任意に小さな非局所性を持つデバイス非依存量子鍵分布

Device-independent quantum key distribution with arbitrarily small nonlocality ( http://arxiv.org/abs/2309.09650v3 )

ライセンス: Link先を確認
Lewis Wooltorton, Peter Brown, Roger Colbeck, (参考訳) デバイス非依存の量子キー分散(DIQKD)により、2人のユーザが使用する量子デバイスを信頼することなく、共有暗号キーをセットアップできる。 そのためには,ユーザ間の非局所的な相関が必要になります。 しかし、[Phys. Rev. Lett. 127, 050503 (2021)] において、既知のプロトコルの非局所性は常に十分ではないことが示され、任意のDIQKD実装に必要な最小限の非局所性に基礎的な下限が存在するかどうかが問題となった。 ここではそのような境界が存在しないことを示し、局所集合に任意に近い相関を持つ鍵を与えるスキームを与える。 さらに、我々の構成のいくつかは、一対の絡み合った量子ビットに対して最大1ビットの鍵を達成する。 一つの線形ベル表現で最大絡み合う状態の全ての自己テストを構成するベル不等式の族を研究することでこれを実現できる。 この族の中では、一対の入力が任意の完全鍵に近い出力を得るという性質と非局所的な相関が存在する。 このような相関関係は、古典的境界に任意に近いものを含む、Cluser-Horne-Shimony-Holt (CHSH) 値の範囲に存在している。 最後に、完全鍵と完全ランダム性の両方を同時に生成できる量子相関の存在を示すとともに、任意に小さなCHSH違反を示す。

Device-independent quantum key distribution (DIQKD) allows two users to set up shared cryptographic key without the need to trust the quantum devices used. Doing so requires nonlocal correlations between the users. However, in [Phys. Rev. Lett. 127, 050503 (2021)] it was shown that for known protocols nonlocality is not always sufficient, leading to the question of whether there is a fundamental lower bound on the minimum amount of nonlocality needed for any DIQKD implementation. Here we show that no such bound exists, giving schemes that achieve key with correlations arbitrarily close to the local set. Furthermore, some of our constructions achieve the maximum of 1 bit of key per pair of entangled qubits. We achieve this by studying a family of Bell-inequalities that constitute all self-tests of the maximally entangled state with a single linear Bell expression. Within this family there exist non-local correlations with the property that one pair of inputs yield outputs arbitrarily close to perfect key. Such correlations exist for a range of Clauser-Horne-Shimony-Holt (CHSH) values, including those arbitrarily close to the classical bound. Finally, we show the existence of quantum correlations that can generate both perfect key and perfect randomness simultaneously, whilst also displaying arbitrarily small CHSH violation; this opens up the possibility of a new class of cryptographic protocol.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# グラフコントラスト学習のための確率的学習

Provable Training for Graph Contrastive Learning ( http://arxiv.org/abs/2309.13944v4 )

ライセンス: Link先を確認
Yue Yu, Xiao Wang, Mengmei Zhang, Nian Liu, Chuan Shi, (参考訳) Graph Contrastive Learning (GCL)は、ラベルのない拡張グラフからノード埋め込みを学習するための一般的なトレーニング手法として登場した。 正のノード対間の類似性を最大化しつつ、負のノード対間の類似性を最小化するという鍵原理は確立されているが、いくつかの根本的な問題はいまだ不明である。 複雑なグラフ構造を考えると、いくつかのノードは一貫して順調に訓練され、異なるグラフ拡張でもこの原則に従うだろうか? あるいは、グラフ拡張をまたいだトレーニングを受けていないノードが、原則に違反している可能性が高いのでしょうか? これらのノードを区別し、GCLのトレーニングをさらにガイドする方法? これらの疑問に答えるために、まず、GCLのトレーニングがすべてのノードで実際に不均衡であることを示す実験的な証拠を提示する。 この問題に対処するために、ノードが拡張範囲に関連するGCL原理に従う方法の下位境界である計量「ノードコンパクト性」を提案する。 さらに、有界伝播により理論的にノードコンパクト性の形式を導出し、正規化として二元交叉エントロピーに統合することができる。 そこで本稿では,GCL の原則に従うノード埋め込みを符号化するための GCL のトレーニングを正規化するための PrOvable Training (POT) を提案する。 さまざまなベンチマークに関する広範な実験を通じて、POTは既存のGCLアプローチを一貫して改善し、フレンドリーなプラグインとして機能する。

Graph Contrastive Learning (GCL) has emerged as a popular training approach for learning node embeddings from augmented graphs without labels. Despite the key principle that maximizing the similarity between positive node pairs while minimizing it between negative node pairs is well established, some fundamental problems are still unclear. Considering the complex graph structure, are some nodes consistently well-trained and following this principle even with different graph augmentations? Or are there some nodes more likely to be untrained across graph augmentations and violate the principle? How to distinguish these nodes and further guide the training of GCL? To answer these questions, we first present experimental evidence showing that the training of GCL is indeed imbalanced across all nodes. To address this problem, we propose the metric "node compactness", which is the lower bound of how a node follows the GCL principle related to the range of augmentations. We further derive the form of node compactness theoretically through bound propagation, which can be integrated into binary cross-entropy as a regularization. To this end, we propose the PrOvable Training (POT) for GCL, which regularizes the training of GCL to encode node embeddings that follows the GCL principle better. Through extensive experiments on various benchmarks, POT consistently improves the existing GCL approaches, serving as a friendly plugin.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# LLMに基づくコード生成におけるバイアステストと緩和

Bias Testing and Mitigation in LLM-based Code Generation ( http://arxiv.org/abs/2309.14345v3 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming Cui, (参考訳) 最先端の大規模言語モデル(LLM)を利用することで、自動コード生成モデルは、ソフトウェア開発手順の生産性を高める上で重要な役割を担います。 LLMの採用がソフトウェアコーディングのエコシステムに広まるにつれ、その発生したコードは、年齢、性別、人種など、社会的偏見と不公平さを含んでいるのだろうか? この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。 この枠組みに基づいて、5つの最先端LLMが生成するコードのバイアスを広範囲に評価する。 調査対象のモデルが生成するコード関数の20.29%から44.93%は、偏りに敏感なタスク(年齢や性別などのセンシティブな属性を含むタスク)を扱う際に偏りがあることがわかった。 これは、既存のLLMがコード生成において不公平であり、意図しない、有害なソフトウェア行動のリスクを生じさせる可能性があることを示している。 コード生成モデルのバイアスを軽減するため、バイアステスト結果を利用してコード(ゼロショット)、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトを改良する5つのバイアス緩和プロンプト戦略を評価する。 評価結果は,これらの戦略がバイアス軽減に有効であることを示している。 全体として、ワンショットと数ショットの学習が最も効果的である。 GPT-4では、80%から90%のコードバイアスをワンショット学習で取り除くことができる。

Utilizing state-of-the-art Large Language Models (LLMs), automatic code generation models play a pivotal role in enhancing the productivity of software development procedures. As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social bias and unfairness, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models, yet is under-explored in the literature. This paper presents a novel bias testing framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive evaluation of the bias in code generated by five state-of-the-art LLMs. Our findings reveal that 20.29% to 44.93% code functions generated by the models under study are biased when handling bias sensitive tasks (i.e., tasks that involve sensitive attributes such as age and gender). This indicates that the existing LLMs can be unfair in code generation, posing risks of unintended and harmful software behaviors. To mitigate bias for code generation models, we evaluate five bias mitigation prompt strategies, i.e., utilizing bias testing results to refine the code (zero-shot), one-, few-shot, and two Chain-of-Thought (CoT) prompts. Our evaluation results illustrate that these strategies are all effective in mitigating bias. Overall, one-shot and few-shot learning are the two most effective. For GPT-4, 80% to 90% code bias can be removed with one-shot learning.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-24
# 未熟な学習のランク付けにおける隠れた回復条件の解明

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank ( http://arxiv.org/abs/2309.15560v3 )

ライセンス: Link先を確認
Mouxiang Chen, Chenghao Liu, Zemin Liu, Zhuo Li, Jianling Sun, (参考訳) Unbiased Learning to Rank (ULTR)は、ユーザの振る舞いの生成プロセスを明示的にモデル化し、検証仮説に基づいてクリックデータを適合させることによって、バイアス付きクリックログからバイアスなしランキングモデルをトレーニングすることを目的としている。 以前の研究では、真の潜伏関係はほとんどクリックフィッティングによって回復可能であることが実証された。 しかし、これは必ずしも達成可能なものではないことが示され、結果としてランキング性能は大幅に低下する。 本研究は,第1原理でクリックデータから関連性を回復できる条件について検討する。 当初我々は、スケール変換の真の関連性、すなわちペアのランク付け目的に十分な基準を回復できるならば、ランク付けモデルを識別可能なものとして特徴付けている。 その後、グラフ接続テスト問題として具体化され、データセットの基盤構造から派生した識別可能性グラフ(IG)が接続された場合にのみ、妥当性の回復が実現可能であることを示す。 切断されたIGの存在は、退化ケースや準最適ランキングパフォーマンスにつながる可能性がある。 この課題に対処するために,データセットの変更とIGの接続性回復を目的としたノード介入とノードマージという2つの手法を導入する。 シミュレーションデータセットと実世界の2つのLTRベンチマークデータセットから得られた実験結果は,提案した理論を検証するだけでなく,妥当性モデルが不明な場合のデータバイアスを軽減するための手法の有効性も示している。

Unbiased Learning to Rank (ULTR) aims to train unbiased ranking models from biased click logs, by explicitly modeling a generation process for user behavior and fitting click data based on examination hypothesis. Previous research found empirically that the true latent relevance is mostly recoverable through click fitting. However, we demonstrate that this is not always achievable, resulting in a significant reduction in ranking performance. This research investigates the conditions under which relevance can be recovered from click data in the first principle. We initially characterize a ranking model as identifiable if it can recover the true relevance up to a scaling transformation, a criterion sufficient for the pairwise ranking objective. Subsequently, we investigate an equivalent condition for identifiability, articulated as a graph connectivity test problem: the recovery of relevance is feasible if and only if the identifiability graph (IG), derived from the underlying structure of the dataset, is connected. The presence of a disconnected IG may lead to degenerate cases and suboptimal ranking performance. To tackle this challenge, we introduce two methods, namely node intervention and node merging, designed to modify the dataset and restore the connectivity of the IG. Empirical results derived from a simulated dataset and two real-world LTR benchmark datasets not only validate our proposed theory but also demonstrate the effectiveness of our methods in alleviating data bias when the relevance model is unidentifiable.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# HyperMask: 継続的な学習のための適応型ハイパーネットワークベースのマスク

HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning ( http://arxiv.org/abs/2310.00113v4 )

ライセンス: Link先を確認
Kamil Książek, Przemysław Spurek, (参考訳) 人工ニューラルネットワークは、複数のタスクで逐次訓練されたときに、破滅的な忘れに苦しむ。 多くのCL(Continuous Learning)戦略がこの問題を克服しようとしている。 最も効果的な方法の1つは、ハイパーネットワークベースのアプローチである。 ハイパーネットワークはタスクのアイデンティティに基づいてターゲットモデルの重みを生成する。 モデルの主な制限は、実際にはハイパーネットワークがその後のタスクに対して全く異なるアーキテクチャを生成できることである。 このような問題を解決するために,ネットワーク全体の性能を保ちながら,当選チケットと命名されたスパースサブネットワークの存在を仮定した抽選券仮説を用いる。 本稿では、CLタスクに応じてターゲットネットワークを動的にフィルタリングするHyperMaskという手法を提案する。 ハイパーネットワークは、専用のターゲットサブネットワークを得るために半バイナリマスクを生成する。 さらに、抽選券仮説により、重み付きサブネットを持つ1つのネットワークを使用できる。 タスクによっては、いくつかの重みの重要性が動的に強化され、他の重みが弱まることもある。 HyperMaskは、いくつかのCLデータセットで競合的な結果を達成し、いくつかのシナリオでは、派生したタスクIDと未知のタスクIDの両方で、最先端のスコアを超えている。

Artificial neural networks suffer from catastrophic forgetting when they are sequentially trained on multiple tasks. Many continual learning (CL) strategies are trying to overcome this problem. One of the most effective is the hypernetwork-based approach. The hypernetwork generates the weights of a target model based on the task's identity. The model's main limitation is that, in practice, the hypernetwork can produce completely different architectures for subsequent tasks. To solve such a problem, we use the lottery ticket hypothesis, which postulates the existence of sparse subnetworks, named winning tickets, that preserve the performance of a whole network. In the paper, we propose a method called HyperMask, which dynamically filters a target network depending on the CL task. The hypernetwork produces semi-binary masks to obtain dedicated target subnetworks. Moreover, due to the lottery ticket hypothesis, we can use a single network with weighted subnets. Depending on the task, the importance of some weights may be dynamically enhanced while others may be weakened. HyperMask achieves competitive results in several CL datasets and, in some scenarios, goes beyond the state-of-the-art scores, both with derived and unknown task identities.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# FedAWARE: 異種フェデレーションサーバサイド最適化のためのグラディエント多様性の最大化

FedAWARE: Maximizing Gradient Diversity for Heterogeneous Federated Server-side Optimization ( http://arxiv.org/abs/2310.02702v3 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Qifan Wang, Xiaoying Tang, (参考訳) Federated Learning(FL)は、多くのクライアントが、ローカルデータを共有せずにモデルをトレーニングするために、中央サーバと協力する分散学習フレームワークである。 しかし、実世界のアプリケーションにおける標準フェデレーション最適化は、統計的およびシステム不均一性の課題に直面するため、不都合な収束挙動をもたらす。 以前の研究は、不均一性の問題に取り組むために、局所的なトレーニングプロセス(クライアント側)を変更しようとした。 しかし、サーバ側の更新は多様なローカル更新を効率的に調整できる点を無視した。 本研究は異種問題に対するサーバ側の更新の効果について検討する。 まず、勾配の多様性の最大化方向の発見を導入し、この方向のグローバルモデルが高速で安定な収束のために連続的に動き続けることを示唆する。 次に、一般的な非凸設定に対して厳密な収束解析を施したサーバサイドオプティマイザ \textsc{FedAWARE} を導出する。 4つのデータセットを用いて、多種多様なフェデレーション・セッティングの広範な実験を行い、最先端の適応フェデレーション・オプティマイザと比較して、 <textsc{FedAWARE} が競合収束性能を達成することを示した。 さらに,<textsc{FedAWARE} はプラグインモジュールとしてFLアルゴリズムの性能を向上させることができることを示す。 ソースコードは \url{https://github.com/dunzeng/FedAWARE} で公開されています。

Federated learning (FL) is a distributed learning framework where numerous clients collaborate with a central server to train a model without sharing local data. However, the standard federated optimization in real-world applications faces both statistical and system heterogeneity challenges, which result in unfavorable convergence behavior. The previous works attempted to modify the local training process (client-side) to tackle heterogeneity challenges. However, they ignored that the updates on the server side can coordinate the diverse local updates efficiently. This work explores the effect of server-side updates against heterogeneity issues. We first introduce the gradient diversity maximization direction findings, suggesting the global model moves continuously in this direction for fast and stable convergence. Then, we derive a novel server-side optimizer \textsc{FedAWARE} with rigorous convergence analysis for general non-convex settings. Our extensive experiments across multiple heterogeneous federated settings using four datasets showcase that \textsc{FedAWARE} achieves competitive convergence performance in comparison to state-of-the-art adaptive federated optimizers. Furthermore, our results show that \textsc{FedAWARE} can enhance the performance of FL algorithms as a plug-in module. Our source code is available at \url{https://github.com/dunzeng/FedAWARE}.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# JsonTuning: 汎用性、ロバスト、制御可能なインストラクションチューニングを目指す

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning ( http://arxiv.org/abs/2310.02953v3 )

ライセンス: Link先を確認
Chang Gao, Wenxuan Zhang, Guizhen Chen, Wai Lam, (参考訳) インストラクションチューニングは,大規模言語モデル(LLM)の性能を最適化するための重要なプロセスとなっている。 しかし、現在のテキスト・テキスト・インストラクション・チューニング手法であるTextTuningは、主に明示的なタスク構造が欠如していることから、一般化、堅牢性、制御性といった面で大きな制限を課している。 本稿では,新しい構造から構造へのアプローチであるJsonTuningを紹介する。 タスクを表現するためにJSONの汎用的で構造化されたフォーマットを利用することで、JsonTuningは、本質的なタスク要素とその相互関係をモデルで理解できるようにすることで、一般化を強化し、あいまいさを減らしてロバスト性を改善し、アウトプットに対する明示的な制御を提供することで、可制御性を高める。 各種言語モデルと評価ベンチマークを用いて,JsonTuningとTextTuningの総合比較分析を行う。 実験の結果、JsonTuningはTextTuningを様々なアプリケーションで一貫して上回っており、パフォーマンス、堅牢性、制御性に顕著な改善が示されています。 TextTuningの本質的な制限に対処することによって、JsonTuningは多様なシナリオを管理することができるより効率的で信頼性の高いLLMを開発する大きな可能性を明らかにしている。

Instruction tuning has become an essential process for optimizing the performance of large language models (LLMs). However, current text-to-text instruction tuning methods, referred to as TextTuning, exhibit significant limitations in terms of generalization, robustness, and controllability, primarily due to the absence of explicit task structures. In this paper, we introduce JsonTuning, a novel structure-to-structure approach for instruction tuning. By utilizing the versatile and structured format of JSON to represent tasks, JsonTuning enhances generalization by enabling the model to comprehend essential task elements and their interrelations, improves robustness by reducing ambiguity, and increases controllability by providing explicit control over the output. We conduct a comprehensive comparative analysis between JsonTuning and TextTuning using various language models and evaluation benchmarks. Our experimental results demonstrate that JsonTuning consistently outperforms TextTuning across a range of applications, showing marked improvements in performance, robustness, and controllability. By addressing the inherent limitations of TextTuning, JsonTuning reveals significant potential for developing more effective and reliable LLMs capable of managing diverse scenarios.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# 拡散ステップ認識モデル

Denoising Diffusion Step-aware Models ( http://arxiv.org/abs/2310.03337v5 )

ライセンス: Link先を確認
Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen, (参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、さまざまな領域にわたるデータ生成で人気を集めている。 しかし、重要なボトルネックは、生成プロセスのすべてのステップでネットワーク全体の計算が必要であり、高い計算オーバーヘッドをもたらすことである。 本稿では,この課題に対処するための新しいフレームワークDDSM(Denoising Diffusion Step-Aware Models)を提案する。 従来のアプローチとは異なり、DDSMは進化探索によって決定されるように、各生成ステップの重要性に応じてサイズが適応されるニューラルネットワークのスペクトルを用いる。 このステップワイズネットワークのばらつきは、冗長な計算作業を、特に批判の少ないステップで効果的に回避し、拡散モデルの効率を向上する。 さらに、ステップアウェア設計はDDIMや潜時拡散といった他の効率ゲージ拡散モデルとシームレスに統合することができ、計算節約の範囲を広げることができる。 実験的な評価では、DDSMはCIFAR-10で49%、CelebA-HQで61%、LSUN-bedroomで59%、AFHQで71%、ImageNetで76%の計算節約を達成した。

Denoising Diffusion Probabilistic Models (DDPMs) have garnered popularity for data generation across various domains. However, a significant bottleneck is the necessity for whole-network computation during every step of the generative process, leading to high computational overheads. This paper presents a novel framework, Denoising Diffusion Step-aware Models (DDSM), to address this challenge. Unlike conventional approaches, DDSM employs a spectrum of neural networks whose sizes are adapted according to the importance of each generative step, as determined through evolutionary search. This step-wise network variation effectively circumvents redundant computational efforts, particularly in less critical steps, thereby enhancing the efficiency of the diffusion model. Furthermore, the step-aware design can be seamlessly integrated with other efficiency-geared diffusion models such as DDIMs and latent diffusion, thus broadening the scope of computational savings. Empirical evaluations demonstrate that DDSM achieves computational savings of 49% for CIFAR-10, 61% for CelebA-HQ, 59% for LSUN-bedroom, 71% for AFHQ, and 76% for ImageNet, all without compromising the generation quality.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# 完璧なアライメントはグラフのコントラスト学習にとって有害かもしれない

Perfect Alignment May be Poisonous to Graph Contrastive Learning ( http://arxiv.org/abs/2310.03977v2 )

ライセンス: Link先を確認
Jingyu Liu, Huayi Tang, Yong Liu, (参考訳) Graph Contrastive Learning (GCL)は、正のペアの整列と負のペアの分離によるノード表現の学習を目的としている。 しかし、グラフベースの学習で使われる特定の拡張の背後にある法則に注目する研究者はほとんどいない。 ダウンストリームのパフォーマンス向上,コントラスト学習がダウンストリームタスクにどのように影響を与えるのか,拡張の規模がそれほど重要になるのはなぜか? 本稿では,これらの問題に対して,増大と下流性能の関連性を確立することで対処する。 以上の結果から,GCLが下流タスクに寄与していることが明らかとなった。 そのため、すべてのクラス内サンプルを同一に描画する完全なアライメントと拡張のオーバーラップは、対照的な学習の成功を完全に説明できない。 そこで, 正の対を同一に引く完全アライメントは, コントラスト的な損失に寄与するが, 結果として, 完全アライメントが最良なダウンストリーム性能に至らないため, 適切なアライメント性能を実現し, 下流精度を向上させるために, 特別に設計されたアライメントが必要である。 さらに,情報理論とグラフスペクトル理論による解析を行い,理論を検証するための2つの単純かつ効果的な方法を提案する。 この2つの手法は様々なGCLアルゴリズムに容易に適用でき、その有効性を証明するために広範な実験が実施されている。 コードはhttps://github.com/somebodyhh1/GRACEISで公開されている。

Graph Contrastive Learning (GCL) aims to learn node representations by aligning positive pairs and separating negative ones. However, few of researchers have focused on the inner law behind specific augmentations used in graph-based learning. What kind of augmentation will help downstream performance, how does contrastive learning actually influence downstream tasks, and why the magnitude of augmentation matters so much? This paper seeks to address these questions by establishing a connection between augmentation and downstream performance. Our findings reveal that GCL contributes to downstream tasks mainly by separating different classes rather than gathering nodes of the same class. So perfect alignment and augmentation overlap which draw all intra-class samples the same can not fully explain the success of contrastive learning. Therefore, in order to understand how augmentation aids the contrastive learning process, we conduct further investigations into the generalization, finding that perfect alignment that draw positive pair the same could help contrastive loss but is poisonous to generalization, as a result, perfect alignment may not lead to best downstream performance, so specifically designed augmentation is needed to achieve appropriate alignment performance and improve downstream accuracy. We further analyse the result by information theory and graph spectrum theory and propose two simple but effective methods to verify the theories. The two methods could be easily applied to various GCL algorithms and extensive experiments are conducted to prove its effectiveness. The code is available at https://github.com/somebodyhh1/GRACEIS
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# 時空間需要予測による貨物トラック用バッテリースワッピングサービス

Facilitating Battery Swapping Services for Freight Trucks with Spatial-Temporal Demand Prediction ( http://arxiv.org/abs/2310.04440v2 )

ライセンス: Link先を確認
Linyu Liu, Zhen Dai, Shiji Song, Xiaocheng Li, Guanting Chen, (参考訳) 大型トラックの電動化は、二酸化炭素排出量を削減し、炭素ニュートラルな未来へと進む大きな機会を提供する。 しかし、バッテリエネルギーの制限と重トラックの重み付けによる固有の課題は、走行距離の短縮と充電時間の延長につながる。 その結果、これらのトラックの魅力的なソリューションとしてバッテリスワッピングサービスが出現した。 本稿では,その可能性を探究し,その有効性を高めるために,二つのアプローチを用いる。 まず、今後の時間における交通パターンを予測するために、時空間需要予測モデルを採用する。 その後、予測は、効率的なバッテリ割り当てとデプロイのための最適化モジュールをガイドする。 2500マイルを超える高速道路ネットワーク上の重トラックデータを分析した結果、われわれのモデルと分析は、将来の意思決定を促進するための予測/機械学習の価値を強調した。 特に,バッテリスワッピングサービスの初期段階は移動式バッテリスワッピングステーションが好まれるが,システムが成熟するにつれて固定配置ステーションが好まれる。

Electrifying heavy-duty trucks offers a substantial opportunity to curtail carbon emissions, advancing toward a carbon-neutral future. However, the inherent challenges of limited battery energy and the sheer weight of heavy-duty trucks lead to reduced mileage and prolonged charging durations. Consequently, battery-swapping services emerge as an attractive solution for these trucks. This paper employs a two-fold approach to investigate the potential and enhance the efficacy of such services. Firstly, spatial-temporal demand prediction models are adopted to predict the traffic patterns for the upcoming hours. Subsequently, the prediction guides an optimization module for efficient battery allocation and deployment. Analyzing the heavy-duty truck data on a highway network spanning over 2,500 miles, our model and analysis underscore the value of prediction/machine learning in facilitating future decision-makings. In particular, we find that the initial phase of implementing battery-swapping services favors mobile battery-swapping stations, but as the system matures, fixed-location stations are preferred.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# ランダムウォークの撃退

Repelling Random Walks ( http://arxiv.org/abs/2310.04854v2 )

ライセンス: Link先を確認
Isaac Reid, Eli Berger, Krzysztof Choromanski, Adrian Weller, (参考訳) グラフに基づくサンプリングを改善するための擬似モンテカルロ機構を提案する。 相互作用するアンサンブルの軌道間の相関関係を、その境界遷移確率が変更されないように誘導することにより、より効率的にグラフを探索し、統計推定器の濃度を改善できる。 このメカニズムには、簡単なドロップイン実装がある。 本稿では,グラフカーネル,PageRankベクトル,およびグラフレット濃度の推定など,ランダムウォークの反発効果を示す。 我々は、詳細な実験評価と堅牢な理論的保証を提供する。 我々の知る限り、ランダムウォークは、グラフ上のウォーカーの方向を関連づけた最初の厳密に研究された準モンテカルロスキームであり、このエキサイティングな新生領域における新たな研究を招いている。

We present a novel quasi-Monte Carlo mechanism to improve graph-based sampling, coined repelling random walks. By inducing correlations between the trajectories of an interacting ensemble such that their marginal transition probabilities are unmodified, we are able to explore the graph more efficiently, improving the concentration of statistical estimators whilst leaving them unbiased. The mechanism has a trivial drop-in implementation. We showcase the effectiveness of repelling random walks in a range of settings including estimation of graph kernels, the PageRank vector and graphlet concentrations. We provide detailed experimental evaluation and robust theoretical guarantees. To our knowledge, repelling random walks constitute the first rigorously studied quasi-Monte Carlo scheme correlating the directions of walkers on a graph, inviting new research in this exciting nascent domain.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# 一般グラフのランダムな特徴

General Graph Random Features ( http://arxiv.org/abs/2310.04859v3 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Eli Berger, Adrian Weller, (参考訳) 重み付き隣接行列(U-GRF)の任意の関数の偏りのない推定のための新しいランダムウォークに基づくアルゴリズムを提案する。 これはグラフのノード上で定義された最も一般的なカーネルの例を含む。 提案アルゴリズムは, ノード数に関して, グラフカーネル評価の厳密な3次スケーリングを克服し, 準四次時間的複雑性を享受する。 また、マシン間で簡単に分散することができ、より大きなネットワーク上での学習を可能にします。 アルゴリズムの中心にある変調関数は、その長さに応じて異なるランダムウォークからの寄与をアップウェイトまたはダウンウェイトにする。 ニューラルネットワークでパラメータ化することで、高品質なカーネル推定や、効率的でスケーラブルなカーネル学習を実現するためのu-GRFが得られることを示す。 我々は,固定グラフカーネルの点推定,非同次グラフ常微分方程式の解法,ノードクラスタリング,三角メッシュ上のカーネル回帰などの実験により,ロバストな理論的解析を行い,その結果を支持する。

We propose a novel random walk-based algorithm for unbiased estimation of arbitrary functions of a weighted adjacency matrix, coined universal graph random features (u-GRFs). This includes many of the most popular examples of kernels defined on the nodes of a graph. Our algorithm enjoys subquadratic time complexity with respect to the number of nodes, overcoming the notoriously prohibitive cubic scaling of exact graph kernel evaluation. It can also be trivially distributed across machines, permitting learning on much larger networks. At the heart of the algorithm is a modulation function which upweights or downweights the contribution from different random walks depending on their lengths. We show that by parameterising it with a neural network we can obtain u-GRFs that give higher-quality kernel estimates or perform efficient, scalable kernel learning. We provide robust theoretical analysis and support our findings with experiments including pointwise estimation of fixed graph kernels, solving non-homogeneous graph ordinary differential equations, node clustering and kernel regression on triangular meshes.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# IPDreamer:複雑な画像プロンプトによる外観制御可能な3Dオブジェクト生成

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts ( http://arxiv.org/abs/2310.05375v5 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Yutang Feng, Ling Yang, Hong Li, Sicheng Gao, Jiaming Liu, Conghui He, Wentao Zhang, Jianzhuang Liu, Baochang Zhang, Shuicheng Yan, (参考訳) 近年の3Dオブジェクト生成の進歩は目覚ましいもので,DreamFusionは大規模テキスト・画像拡散モデルを利用して3Dオブジェクト生成を監督する手法である。 これらの方法は、細部および光現実的なテクスチャオブジェクトの合成を可能にする。 しかし、これらのテキストから3Dモデルで生成された3Dオブジェクトの出現は予測不可能であり、複雑な画像を扱う単一画像から3Dメソッドでは難しいため、外観制御可能な3Dオブジェクトの生成に課題が生じる。 制御可能な複雑な3Dオブジェクト合成を実現するために,複雑な画像から詳細な外観特徴を抽出するために,画像のプロンプト適応を取り入れた新しいアプローチであるIDDreamerを提案する。 以上の結果から,IDDreamerは提供されたテキストと複雑な画像プロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し,外観制御可能な3Dオブジェクト生成に期待できる能力を示した。 私たちのコードはhttps://github.com/zengbohan0217/IPDreamer.comで利用可能です。

Recent advances in 3D generation have been remarkable, with methods such as DreamFusion leveraging large-scale text-to-image diffusion-based models to supervise 3D object generation. These methods enable the synthesis of detailed and photorealistic textured objects. However, the appearance of 3D objects produced by these text-to-3D models is unpredictable, and it is hard for the single-image-to-3D methods to deal with complex images, thus posing a challenge in generating appearance-controllable 3D objects. To achieve controllable complex 3D object synthesis, we propose IPDreamer, a novel approach that incorporates image prompt adaption to extract detailed and comprehensive appearance features from complex images, which are then utilized for 3D object generation. Our results demonstrate that IPDreamer effectively generates high-quality 3D objects that are consistent with both the provided text and the appearance of complex image prompts, demonstrating its promising capability in appearance-controllable 3D object generation. Our code is available at https://github.com/zengbohan0217/IPDreamer.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# ニューラルバウンディング

Neural Bounding ( http://arxiv.org/abs/2310.06822v5 )

ライセンス: Link先を確認
Stephanie Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel, (参考訳) 境界ボリュームはコンピュータグラフィックスや視覚タスクにおいて確立された概念であるが、初期からほとんど変化していない。 本研究では,ニューラルネットワークを境界体積としての利用について検討する。 我々のキーとなる観察は、これまで計算幾何学の問題と考えられてきた境界は、空間を自由あるいは占有に分類する学習の課題として再定義できるということである。 この学習に基づくアプローチは、ニューラルネットワークが優れていることが知られている複雑なクエリを持つアニメーションシーンのような、高次元空間において特に有利である。 しかし、ニューラルバウンディングのアンロックには、-かつ-----------------を許容すると同時に、------------------------------------------------------------------------------------ 動的に重み付けられた非対称な損失関数を用いて、そのような厳密で保守的な結果を実現する。 以上の結果から,我々の神経境界は従来の方法よりも桁違いに偽陽性を生じさせることが示唆された。 さらに,クエリ速度を25%高速化する早期出口を用いたバウンディング手法の拡張を提案する。 また,本手法は,数秒以内のトレーニングを行う非深層学習モデルに適用可能であることも実証した。 私たちのプロジェクトページは以下の通りです。

Bounding volumes are an established concept in computer graphics and vision tasks but have seen little change since their early inception. In this work, we study the use of neural networks as bounding volumes. Our key observation is that bounding, which so far has primarily been considered a problem of computational geometry, can be redefined as a problem of learning to classify space into free or occupied. This learning-based approach is particularly advantageous in high-dimensional spaces, such as animated scenes with complex queries, where neural networks are known to excel. However, unlocking neural bounding requires a twist: allowing -- but also limiting -- false positives, while ensuring that the number of false negatives is strictly zero. We enable such tight and conservative results using a dynamically-weighted asymmetric loss function. Our results show that our neural bounding produces up to an order of magnitude fewer false positives than traditional methods. In addition, we propose an extension of our bounding method using early exits that accelerates query speeds by 25%. We also demonstrate that our approach is applicable to non-deep learning models that train within seconds. Our project page is at: https://wenxin-liu.github.io/neural_bounding/.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# フェデレーション学習のための炭素追跡モデル:量子化とスパシフィケーションの影響

A Carbon Tracking Model for Federated Learning: Impact of Quantization and Sparsification ( http://arxiv.org/abs/2310.08087v2 )

ライセンス: Link先を確認
Luca Barbieri, Stefano Savazzi, Sanaz Kianoush, Monica Nicoli, Luigi Serio, (参考訳) フェデレートラーニング(FL)手法は、エッジデバイスに機械学習タスクを分散するための効率的なコミュニケーション技術を採用し、中央集権的なソリューションと比較してデータストレージと計算の複雑さのオーバーヘッドを低減する。 生産者(センサー、マシン)からエネルギーを消費するデータセンターに移行する代わりに、FLは、新しいAI of Things(AIoT)アプリケーションを有効にしながら、いくつかの学習タスクのエネルギー要求を緩和する代替ソリューションを提供する。 本稿では,FLシステムのエネルギーおよび炭素フットプリントへの影響をリアルタイムにモニタリングするためのフレームワークを提案する。 炭素追跡ツールは、コンセンサス(完全に分散化)と古典的なFLポリシーで評価される。 本稿では,エネルギー消費と炭素等価排出の観点から計算量と通信効率の異なるFL法を定量的に評価し,エネルギー効率設計の一般的なガイドラインを提案する。 その結果、コンセンサス駆動のFL実装は、通信のエネルギー効率が低い場合(すなわち25 Kbit/Joule)に炭素排出量を制限するのが望ましいことが示唆された。 さらに、量子化とスパーシフィケーション操作は、学習性能とエネルギー消費のバランスを保ち、持続可能なFL設計につながることが示されている。

Federated Learning (FL) methods adopt efficient communication technologies to distribute machine learning tasks across edge devices, reducing the overhead in terms of data storage and computational complexity compared to centralized solutions. Rather than moving large data volumes from producers (sensors, machines) to energy-hungry data centers, raising environmental concerns due to resource demands, FL provides an alternative solution to mitigate the energy demands of several learning tasks while enabling new Artificial Intelligence of Things (AIoT) applications. This paper proposes a framework for real-time monitoring of the energy and carbon footprint impacts of FL systems. The carbon tracking tool is evaluated for consensus (fully decentralized) and classical FL policies. For the first time, we present a quantitative evaluation of different computationally and communication efficient FL methods from the perspectives of energy consumption and carbon equivalent emissions, suggesting also general guidelines for energy-efficient design. Results indicate that consensus-driven FL implementations should be preferred for limiting carbon emissions when the energy efficiency of the communication is low (i.e., < 25 Kbit/Joule). Besides, quantization and sparsification operations are shown to strike a balance between learning performances and energy consumption, leading to sustainable FL designs.
翻訳日:2024-05-27 23:56:12 公開日:2024-05-24
# EconAgent:マクロ経済活動のシミュレーションのための大規模言語モデル駆動エージェント

EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities ( http://arxiv.org/abs/2310.10436v4 )

ライセンス: Link先を確認
Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao, (参考訳) 人工知能の出現により、マクロ経済学におけるデータ駆動モデリングがますます強調され、エージェントベースモデリング(ABM)が顕著なボトムアップシミュレーションパラダイムとして登場した。 ABMでは、エージェント(例えば、世帯、企業)がマクロ経済環境で相互作用し、市場ダイナミクスをまとめて生成する。 既存のエージェントモデリングは通常、決定のために所定のルールまたは学習ベースのニューラルネットワークを使用する。 しかし、各エージェントをカスタマイズすることは、エージェントの不均一性のモデリングを複雑にし、大きな課題をもたらす。 さらに、多周期市場ダイナミクスと多面マクロ経済要因の影響は、意思決定プロセスにおいてしばしば見過ごされる。 本研究では,マクロ経済シミュレーションのための言語モデルを用いた大規模エージェントであるEconAgentを紹介する。 まず,作業や消費に関するエージェントの判断により,様々な市場ダイナミクスを取り入れたシミュレーション環境を構築する。 認識モジュールを通して、異なる意思決定機構を持つ異種エージェントを作成する。 さらに,メモリモジュールを用いたマクロ経済動向の影響をモデル化し,エージェントが過去の個々の経験や市場動態を反映できるようにする。 シミュレーション実験により、EconAgentは現実的な決定を下すことができ、既存のルールベースのエージェントや学習ベースのエージェントと比較して、より合理的なマクロ経済現象をもたらすことが示された。 私たちのコードはhttps://github.com/tsinghua-fib-lab/ACL24-EconAgent.comで公開されています。

The advent of artificial intelligence has led to a growing emphasis on data-driven modeling in macroeconomics, with agent-based modeling (ABM) emerging as a prominent bottom-up simulation paradigm. In ABM, agents (e.g., households, firms) interact within a macroeconomic environment, collectively generating market dynamics. Existing agent modeling typically employs predetermined rules or learning-based neural networks for decision-making. However, customizing each agent presents significant challenges, complicating the modeling of agent heterogeneity. Additionally, the influence of multi-period market dynamics and multifaceted macroeconomic factors are often overlooked in decision-making processes. In this work, we introduce EconAgent, a large language model-empowered agent with human-like characteristics for macroeconomic simulation. We first construct a simulation environment that incorporates various market dynamics driven by agents' decisions regarding work and consumption. Through the perception module, we create heterogeneous agents with distinct decision-making mechanisms. Furthermore, we model the impact of macroeconomic trends using a memory module, which allows agents to reflect on past individual experiences and market dynamics. Simulation experiments show that EconAgent can make realistic decisions, leading to more reasonable macroeconomic phenomena compared to existing rule-based or learning-based agents. Our codes are released at https://github.com/tsinghua-fib-lab/ACL24-EconAgent.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# DecoderTracker: 複数オブジェクト追跡のためのデコーダ専用メソッド

DecoderTracker: Decoder-Only Method for Multiple-Object Tracking ( http://arxiv.org/abs/2310.17170v4 )

ライセンス: Link先を確認
Liao Pan, Yang Feng, Wu Di, Liu Bo, Zhang Xingle, (参考訳) GPTのようなデコーダのみのモデルは、従来のエンコーダ-デコーダ構造変換器モデルと比較して、多くの分野で優れた性能を示している。 長年にわたり、MOTRのような従来のトランスフォーマー構造に基づくエンドツーエンドモデルは、多目的追跡において顕著な性能を発揮してきた。 しかし、これらのモデルの重要な計算資源消費は、より親しみやすい推論速度とトレーニング時間に繋がる。 これらの問題に対処するために,本論文は軽量なデコーダのみのモデルを構築することを試みる。 具体的には、いくつかのリアルタイム検出モデルに基づいて、画像から特徴を効率的に抽出し、エンコーダ構造を置き換える画像特徴抽出ネットワークを開発した。 ネットワークの小さな革新に加えて、MOTRのようなモデルの遅いトレーニングの潜在的な理由を分析し、長期トレーニングの問題を緩和するための効果的なトレーニング戦略を提案する。 DanceTrackデータセットでは、ベルやホイッスルを使わずに、DecoderTrackerのトラッキング性能は、約2倍の推論速度でMOTRをわずかに上回る。 さらに、DecoderTrackerはMOTRに比べてトレーニング時間を大幅に短縮する。

Decoder-only models, such as GPT, have demonstrated superior performance in many areas compared to traditional encoder-decoder structure transformer models. Over the years, end-to-end models based on the traditional transformer structure, like MOTR, have achieved remarkable performance in multi-object tracking. However, the significant computational resource consumption of these models leads to less friendly inference speeds and training times. To address these issues, this paper attempts to construct a lightweight Decoder-only model: DecoderTracker for end-to-end multi-object tracking. Specifically, drawing on some real-time detection models, we have developed an image feature extraction network which can efficiently extract features from images to replace the encoder structure. In addition to minor innovations in the network, we analyze the potential reasons for the slow training of MOTR-like models and propose an effective training strategy to mitigate the issue of prolonged training times. On the DanceTrack dataset, without any bells and whistles, DecoderTracker's tracking performance slightly surpasses that of MOTR, with approximately twice the inference speed. Furthermore, DecoderTracker requires significantly less training time compared to MOTR.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# クラスタリングにおける空間的公正性 : 社会的選択の視点から

Proportional Fairness in Clustering: A Social Choice Perspective ( http://arxiv.org/abs/2310.18162v2 )

ライセンス: Link先を確認
Leon Kellerhals, Jannik Peters, (参考訳) 我々はChen et al [ICML'19] の比例クラスタリング問題を研究し、計算社会選択におけるマルチウィンナー投票の分野と関連づける。 ブリルとピーターズ [EC'23] の弱比例概念を満たす任意のクラスタリングは、Chen et al [ICML'19] の比例フェアネスの概念に対して、同時に最もよく知られた近似を得るだけでなく、個々のフェアネス [Jung et al , FORC'20] と "core" [Li et al ICML'21] も同時に得られることを示す。 実際、比例フェアネスへの近似は、個人フェアネスへの近似であり、その逆でもあることを示す。 最後に、偏差が単一ではなく複数の候補中心に起こるような比例表現の強い概念も検討し、ブリルとピーターズの強い比例の概念がこれらの強い保証に近似することを示唆していることを示す。

We study the proportional clustering problem of Chen et al. [ICML'19] and relate it to the area of multiwinner voting in computational social choice. We show that any clustering satisfying a weak proportionality notion of Brill and Peters [EC'23] simultaneously obtains the best known approximations to the proportional fairness notion of Chen et al. [ICML'19], but also to individual fairness [Jung et al., FORC'20] and the "core" [Li et al. ICML'21]. In fact, we show that any approximation to proportional fairness is also an approximation to individual fairness and vice versa. Finally, we also study stronger notions of proportional representation, in which deviations do not only happen to single, but multiple candidate centers, and show that stronger proportionality notions of Brill and Peters [EC'23] imply approximations to these stronger guarantees.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# 逆制約を考慮したオンライン凸最適化のための最適アルゴリズム

Optimal Algorithms for Online Convex Optimization with Adversarial Constraints ( http://arxiv.org/abs/2310.18955v2 )

ライセンス: Link先を確認
Abhishek Sinha, Rahul Vaze, (参考訳) 標準オンライン凸最適化(OCO)のよく研究された一般化は、制約付きオンライン凸最適化(COCO)である。 COCOでは、各ラウンドにおいて、そのラウンドのアクションが選択された後、学習者に凸コスト関数と凸制約関数を明らかにする。 目的は,T$の地平線上で相互作用する適応的敵に対して,最小限の累積制約違反(CCV)を確保すると同時に,わずかな後悔を同時に達成するオンラインポリシーを設計することである。 COCOにおける長年のオープンな疑問は、オンラインポリシーが制限的な仮定なしで同時に$O(\sqrt{T})$ regretと$O(\sqrt{T})$ CCVを達成できるかどうかである。 初めてこれを肯定的に答え、オンラインポリシーが$O(\sqrt{T})$ regretと$\tilde{O}(\sqrt{T})$ CCVを同時に達成できることを示します。 さらに、強い凸コストと凸制約関数の場合、CCVを上と同じ境界に保ちながら、後悔の保証を$O(\log T)$に改善することができる。 我々は、AdaGradアルゴリズムの適応的再帰境界と、制御理論の古典的なツールであるリアプノフ最適化を効果的に組み合わせて、これらの結果を確立する。 驚くべきことに、分析は短くエレガントだ。

A well-studied generalization of the standard online convex optimization (OCO) is constrained online convex optimization (COCO). In COCO, on every round, a convex cost function and a convex constraint function are revealed to the learner after the action for that round is chosen. The objective is to design an online policy that simultaneously achieves a small regret while ensuring a small cumulative constraint violation (CCV) against an adaptive adversary interacting over a horizon of length $T$. A long-standing open question in COCO is whether an online policy can simultaneously achieve $O(\sqrt{T})$ regret and $O(\sqrt{T})$ CCV without any restrictive assumptions. For the first time, we answer this in the affirmative and show that an online policy can simultaneously achieve $O(\sqrt{T})$ regret and $\tilde{O}(\sqrt{T})$ CCV. Furthermore, in the case of strongly convex cost and convex constraint functions, the regret guarantee can be improved to $O(\log T)$ while keeping the CCV bound the same as above. We establish these results by effectively combining the adaptive regret bound of the AdaGrad algorithm with Lyapunov optimization - a classic tool from control theory. Surprisingly, the analysis is short and elegant.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# リスク対応エージェントの理論--ブリッジング・アクター批判と経済学

On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics ( http://arxiv.org/abs/2310.19527v3 )

ライセンス: Link先を確認
Michal Nauman, Marek Cygan, (参考訳) SACやTD3のようなリスク認識強化学習(RL)アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラル(リスクニュートラル)よりも優れたパフォーマンスを示すように実証的に示されている。 しかしながら、これらのアルゴリズムが採用する悲観的目的の理論的基礎は確立されておらず、実装している特定のポリシーのクラスに関する疑問が提起されている。 本研究では,経済における基本概念である期待効用仮説を適用し,指数効用関数を用いた期待効用最大化により,リスクニュートラルとリスク対応RLの目標の両方を解釈可能であることを示す。 このアプローチは、リスクを意識した政策が価値の確実性を効果的に最大化し、従来の決定理論の原則と整合していることを明らかにする。 さらに,デュアル・アクター・クリティカル (DAC) を提案する。 DACは、時間差学習のための悲観的なアクターと、探索のための楽観的なアクターという、2つの異なるアクターネットワークを特徴とするリスク対応のモデルフリーアルゴリズムである。 各種移動・操作タスクにおけるDACの評価は,サンプル効率と最終性能の改善を実証する。 注目すべきは、DACは計算資源を著しく少なくするが、複雑な犬とヒューマノイドドメインにおける主要なモデルベースの手法のパフォーマンスと一致することである。

Risk-aware Reinforcement Learning (RL) algorithms like SAC and TD3 were shown empirically to outperform their risk-neutral counterparts in a variety of continuous-action tasks. However, the theoretical basis for the pessimistic objectives these algorithms employ remains unestablished, raising questions about the specific class of policies they are implementing. In this work, we apply the expected utility hypothesis, a fundamental concept in economics, to illustrate that both risk-neutral and risk-aware RL goals can be interpreted through expected utility maximization using an exponential utility function. This approach reveals that risk-aware policies effectively maximize value certainty equivalent, aligning them with conventional decision theory principles. Furthermore, we propose Dual Actor-Critic (DAC). DAC is a risk-aware, model-free algorithm that features two distinct actor networks: a pessimistic actor for temporal-difference learning and an optimistic actor for exploration. Our evaluations of DAC across various locomotion and manipulation tasks demonstrate improvements in sample efficiency and final performance. Remarkably, DAC, while requiring significantly less computational resources, matches the performance of leading model-based methods in the complex dog and humanoid domains.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# 神経崩壊のレンズによるアウトオブディストリビューションの検出

Detecting Out-of-Distribution Through the Lens of Neural Collapse ( http://arxiv.org/abs/2311.01479v4 )

ライセンス: Link先を確認
Litian Liu, Yao Qin, (参考訳) AIの安全なデプロイには、効率的で汎用性の高いOOD(Out-of-Distribution)検出が不可欠だが、既存のアルゴリズムでは依然として難しい。 ニューラル・コラプス(Neural Collapse)に触発されて、OOD試料の特徴と比較して重量ベクトルに近づいた分布内分布(ID)サンプルの特徴が明らかになった。 さらに,ID機能は空間的に拡張され,単純な等角的タイトフレームワークが構築される傾向があることも明らかにした。 ニューラル・コラプスの知見を両面から考慮し,OOD検出に重みベクトルに近づき,特徴ノルムを用いてOODサンプルをフィルタリングすることで,この視点を補完することを提案する。 オフザシェルフモデルに対する広範囲な実験により,OOD検出の一般化能力を向上し,多様な分類タスクやモデルアーキテクチャにまたがる手法の有効性と有効性を示した。

Efficient and versatile Out-of-Distribution (OOD) detection is essential for the safe deployment of AI yet remains challenging for existing algorithms. Inspired by Neural Collapse, we discover that features of in-distribution (ID) samples cluster closer to the weight vectors compared to features of OOD samples. In addition, we reveal that ID features tend to expand in space to structure a simplex Equiangular Tight Framework, which nicely explains the prevalent observation that ID features reside further from the origin than OOD features. Taking both insights from Neural Collapse into consideration, we propose to leverage feature proximity to weight vectors for OOD detection and further complement this perspective by using feature norms to filter OOD samples. Extensive experiments on off-the-shelf models demonstrate the efficiency and effectiveness of our method across diverse classification tasks and model architectures, enhancing the generalization capability of OOD detection.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v6 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, (参考訳) 大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出し,その量を推定するデータ汚染クイズ(DCQ)を提案する。 具体的には,各サブサンプルインスタンスの3つの摂動バージョンを,特定のデータセット分割(例えば,GSM8kテストセット)から生成するクイズ形式を考案する。 これらの変化は単語レベルの摂動のみを含む。 生成された摂動は、元のデータセットインスタンスとともにDCQのオプションを形成し、提供される選択肢のどれも選択できない余分なオプションを提供する。 オプションの中で唯一区別されるシグナルが、元のデータセットインスタンスに関する正確なワード処理であることを考えると、LLMは、オリジナルのデータセットインスタンスを識別するタスクをタスクとして、トレーニング前フェーズ(LLMに固有の特性)で露出した場合に、元のデータセットインスタンスを選択する方向に誘導する。 LLMにおける位置バイアスを考慮しながら、クイズ性能は、クイズが関連するデータセット分割で調べられるモデルの汚染レベルを明らかにする。 GPT-4とGPT-3.5を併用した各種データセットに適用すると、事前学習データやモデルパラメータへのアクセスが完全に欠如しているにもかかわらず、DCQは最先端の結果を達成し、既存の方法と比較して汚染・記憶レベルが大きくなることを示唆し、特に著作権のあるコンテンツの生成を避けるために、より安全性の高いフィルタを適切に回避している。

We propose the Data Contamination Quiz (DCQ), a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions and devise a quiz format wherein three perturbed versions of each subsampled instance from a specific dataset partition (e.g., GSM8k test set) are created. These changes only include word-level perturbations. The generated perturbations, along with the original dataset instance, form the options in the DCQ, with an extra option accommodating the possibility of selecting none of the provided options. Given that the only distinguishing signal among the options is the exact wording with respect to the original dataset instance, an LLM, when tasked with identifying the original dataset instance, gravitates towards selecting the original one if it has been exposed to it in its pre-training phase -- a trait intrinsic to LLMs. While accounting for positional biases in LLMs, the quiz performance reveals the contamination level for the model being examined with the dataset partition to which the quiz pertains. Applied to various datasets with GPT-4 and GPT-3.5, our findings -- while fully lacking access to pre-training data and model parameters -- suggest that DCQ achieves state-of-the-art results and uncovers greater contamination/memorization levels compared to existing methods and proficiently bypasses more safety filters, especially those set to avoid generating copyrighted contents.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# マルコフ等価条件下での因果効果のバウンディングに向けて

Towards Bounding Causal Effects under Markov Equivalence ( http://arxiv.org/abs/2311.07259v2 )

ライセンス: Link先を確認
Alexis Bellot, (参考訳) 目に見えない介入の効果を予測することは、データサイエンスにおける基本的な研究課題である。 一般に、このような質問は観測データから決定的に答えることが出来ないことがよく確認されている。 この実現は、例えば関連する変数の因果図の形で、様々な同一性の仮定を導入し、成長する文献を加速させた。 実際には、このパラダイムは真の因果図を確実に記述することは一般的に不可能であるため、多くの実用的な応用には厳密すぎる。 本稿では,観測データのみを用いた因果関係の導出について考察する。 本稿では,因果図のマルコフ同値クラスを表す部分アンセストラルグラフ (Partial Ancestral Graph) を入力として,データから学習可能であることを提案する。 この 'data-driven' 設定では、同値クラスの不変性を利用する因果効果の境界を導出し、解析的に計算できる体系的なアルゴリズムを提供する。 合成および実データ例を用いて本手法を実証する。

Predicting the effect of unseen interventions is a fundamental research question across the data sciences. It is well established that in general such questions cannot be answered definitively from observational data. This realization has fuelled a growing literature introducing various identifying assumptions, for example in the form of a causal diagram among relevant variables. In practice, this paradigm is still too rigid for many practical applications as it is generally not possible to confidently delineate the true causal diagram. In this paper, we consider the derivation of bounds on causal effects given only observational data. We propose to take as input a less informative structure known as a Partial Ancestral Graph, which represents a Markov equivalence class of causal diagrams and is learnable from data. In this more ``data-driven'' setting, we provide a systematic algorithm to derive bounds on causal effects that exploit the invariant properties of the equivalence class, and that can be computed analytically. We demonstrate our method with synthetic and real data examples.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# もう一度質問しよう! セルフアグリメントは(ほとんど)すべてのシナリオにおける言語モデルの推論を改善します

Just Ask One More Time! Self-Agreement Improves Reasoning of Language Models in (Almost) All Scenarios ( http://arxiv.org/abs/2311.08154v3 )

ライセンス: Link先を確認
Lei Lin, Jiayi Fu, Pengli Liu, Qingyang Li, Yan Gong, Junchen Wan, Fuzheng Zhang, Zhongyuan Wang, Di Zhang, Kun Gai, (参考訳) チェーン・オブ・シンクレット(CoT)と言語モデルの組み合わせは複雑な推論タスクにおいて促進的な結果をもたらすが、CoTプロンプトで使用される単純なグレディ・デコードは通常、反復性と局所的最適性を引き起こす。 この欠点に対処するため、アンサンブル最適化は最終解集合を得るために複数の推論経路を得ようとする。 しかし、現在のアンサンブル最適化手法では、単にルールベースの後処理(例えば「textit{self-consistency}」など)を採用するか、複数のタスク関連アノテーションに基づいて追加モデルを訓練し、複数の推論パスの中から最適なものを選択するが、入力のタイプが不明な現実的な設定や推論パスの応答形式が不明な場合、一般化に失敗する。 これらの制限を回避するために,入力質問のタイプや推論パスの応答形式が不明なほとんどすべてのシナリオに適用可能な,一般化可能なアンサンブル最適化手法である‘textbf{Self-Agreement} を提案する。 自己集約はまず、まず言語モデルのデコーダからサンプリングし、推論パスの \textit{diverse} セットを生成し、その後、サンプルされた推論パスの中で最も多くの \textit{agreed} 回答を選択して最適な回答を決定するように言語モデル \textit{one more time} を誘導する。 自己集約は、6つの公開推論ベンチマークと優れた一般化能力で同時に顕著なパフォーマンスを達成する。

Although chain-of-thought (CoT) prompting combined with language models has achieved encouraging results on complex reasoning tasks, the naive greedy decoding used in CoT prompting usually causes the repetitiveness and local optimality. To address this shortcoming, ensemble-optimization tries to obtain multiple reasoning paths to get the final answer assembly. However, current ensemble-optimization methods either simply employ rule-based post-processing such as \textit{self-consistency}, or train an additional model based on several task-related human annotations to select the best one among multiple reasoning paths, yet fail to generalize to realistic settings where the type of input questions is unknown or the answer format of reasoning paths is unknown. To avoid their limitations, we propose \textbf{Self-Agreement}, a generalizable ensemble-optimization method applying in almost all scenarios where the type of input questions and the answer format of reasoning paths may be known or unknown. Self-agreement firstly samples from language model's decoder to generate a \textit{diverse} set of reasoning paths, and subsequently prompts the language model \textit{one more time} to determine the optimal answer by selecting the most \textit{agreed} answer among the sampled reasoning paths. Self-agreement simultaneously achieves remarkable performance on six public reasoning benchmarks and superior generalization capabilities.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# SeDe: 選択的な匿名化によるブロックチェーンのプライバシと規制コンプライアンスのバランス

SeDe: Balancing Blockchain Privacy and Regulatory Compliance by Selective De-Anonymization ( http://arxiv.org/abs/2311.08167v4 )

ライセンス: Link先を確認
Naveen Sahu, Mitul Gajera, Amit Chaudhary, Hamish Ivey-Law, (参考訳) プライバシはブロックチェーンの普及に不可欠な柱のひとつですが、公開ブロックチェーンは本質的に透過的です。 現代の分析技術は、ブロックチェーンユーザーの匿名性を簡単に抑制することができる。 一部のアプリケーションは、プライバシ保存暗号技術を使用して、実用的なプライバシ保護を提供することができた。 しかし、悪意のあるアクターはそれらを違法に悪用し、誠実なアクターがプライバシー保護アプリケーションの使用を「混合」ユーザインタラクションと匿名の悪アクターとの資金の混合」として禁止し、コンプライアンスと規制上の懸念を引き起こした。 本稿では,Selective De-Anonymization (SeDe) と呼ばれる規制および準拠のフレームワークを確立することにより,プライバシ保護機能のバランスをとるフレームワークを提案する。 このフレームワークの採用により、ブロックチェーン上のプライバシ保護アプリケーションは、リンクされたトランザクションのサブグラフの再帰的トラバースによって不正なトランザクションを匿名化することができる。 我々の技術は、匿名化の決定や制御を単一のエンティティに残さずに、複数のエンティティに分散させながら、それぞれのアクションに責任を負うことなく、これを実現する。 我々のフレームワークは、しきい値暗号スキームとZKP(Zero-Knowledge Proofs)を使用する。

Privacy is one of the essential pillars for the widespread adoption of blockchains, but public blockchains are transparent by nature. Modern analytics techniques can easily subdue the pseudonymity feature of a blockchain user. Some applications have been able to provide practical privacy protections using privacy-preserving cryptography techniques. However, malicious actors have abused them illicitly, discouraging honest actors from using privacy-preserving applications as "mixing" user interactions and funds with anonymous bad actors, causing compliance and regulatory concerns. In this paper, we propose a framework that balances privacy-preserving features by establishing a regulatory and compliant framework called Selective De-Anonymization (SeDe). The adoption of this framework allows privacy-preserving applications on blockchains to de-anonymize illicit transactions by recursive traversal of subgraphs of linked transactions. Our technique achieves this without leaving de-anonymization decisions or control in the hands of a single entity but distributing it among multiple entities while holding them accountable for their respective actions. To instantiate, our framework uses threshold encryption schemes and Zero-Knowledge Proofs (ZKPs).
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# StrategyLLM: 戦略生成器、実行器、最適化器および問題解決のための評価器としての大規模言語モデル

StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving ( http://arxiv.org/abs/2311.08803v3 )

ライセンス: Link先を確認
Chang Gao, Haiyun Jiang, Deng Cai, Shuming Shi, Wai Lam, (参考訳) ほとんどの既存のプロンプトメソッドは、汎用性と一貫性の問題に悩まされており、多くの場合、他のインスタンスには適用できず、選択されたいくつかの例でタスクレベルの一貫性が欠如しているインスタンス固有のソリューションに依存している。 これらの制約に対処するため、我々は総合的なフレームワークであるStrategyLLMを提案し、LLMが帰納的推論を実行し、特定のタスクインスタンスから一般的な戦略を導出し、帰納的推論を行い、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫したショットプロンプトを構築する。 戦略ジェネレータ、エグゼキュータ、オプティマイザ、評価器の4つのLCMベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。 実験の結果、StrategyLLMは、数学推論(34.2\% $\rightarrow$ 38.8\%)、コモンセンス推論(70.3\% $\rightarrow$ 72.5\%)、アルゴリズム推論(73.7\% $\rightarrow$ 85.0\%)、シンボリック推論(30.0\% $\rightarrow$ 79.2\%)を含む、難題な4つのタスクにわたる13のデータセットに、人間アノテートされたソリューションを必要とする競争ベースラインのCoT-SCよりも優れていた。 さらなる分析により、StrategyLLMは様々なLLMに適用可能であることが示され、多くのシナリオにまたがる利点を示している。

Most existing prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other instances and lack task-level consistency across the selected few-shot examples. To address these limitations, we propose a comprehensive framework, StrategyLLM, allowing LLMs to perform inductive reasoning, deriving general strategies from specific task instances, and deductive reasoning, applying these general strategies to particular task examples, for constructing generalizable and consistent few-shot prompts. It employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task. Experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (34.2\% $\rightarrow$ 38.8\%), commonsense reasoning (70.3\% $\rightarrow$ 72.5\%), algorithmic reasoning (73.7\% $\rightarrow$ 85.0\%), and symbolic reasoning (30.0\% $\rightarrow$ 79.2\%). Further analysis reveals that StrategyLLM is applicable to various LLMs and demonstrates advantages across numerous scenarios.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# SpACNN-LDVAE:Hyperspectral Pixel Unmixingのための空間アテンション畳み込み遅延ディリクレ変分オートエンコーダ

SpACNN-LDVAE: Spatial Attention Convolutional Latent Dirichlet Variational Autoencoder for Hyperspectral Pixel Unmixing ( http://arxiv.org/abs/2311.10701v2 )

ライセンス: Link先を確認
Soham Chitnis, Kiran Mantripragada, Faisal Z. Qureshi, (参考訳) ハイパースペクトル・ピクセル・アンミックスは、ハイパースペクトル画像のピクセルに基盤となる材料(エンドメンバー)とそれらの割合(アウンダンス)を見つけることを目的としている。 この研究は、局所的な空間的コンテキストを考慮してピクセルアンミックスを行いながら、Latent Dirichlet Variational Autoencoder (LDVAE) の画素アンミックススキームを拡張した。 提案手法は,等方性畳み込みニューラルネットワークを用いて,エンドメンバー上のディリクレ分布として画素を符号化する。 我々は,Samson,Hydice Urban,Cuprite,OnTech-HSI-Syn-21データセットについて評価を行った。 また,本モデルでは,Cuprite Datasetの伝達学習パラダイムを活用し,合成データを用いてモデルをトレーニングし,実世界のデータで評価する。 その結果,空間的コンテキストを組み込むことで,エンドメンバー抽出とアブリダンス推定の両面が改善されることが示唆された。

The hyperspectral pixel unmixing aims to find the underlying materials (endmembers) and their proportions (abundances) in pixels of a hyperspectral image. This work extends the Latent Dirichlet Variational Autoencoder (LDVAE) pixel unmixing scheme by taking into account local spatial context while performing pixel unmixing. The proposed method uses an isotropic convolutional neural network with spatial attention to encode pixels as a dirichlet distribution over endmembers. We have evaluated our model on Samson, Hydice Urban, Cuprite, and OnTech-HSI-Syn-21 datasets. Our model also leverages the transfer learning paradigm for Cuprite Dataset, where we train the model on synthetic data and evaluate it on the real-world data. The results suggest that incorporating spatial context improves both endmember extraction and abundance estimation.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# 機械学習モデルのハイパーパラメータ損失景観について:探索的研究

On the Hyperparameter Loss Landscapes of Machine Learning Models: An Exploratory Study ( http://arxiv.org/abs/2311.14014v2 )

ライセンス: Link先を確認
Mingyu Huang, Ke Li, (参考訳) 機械学習(ML)モデルのハイパーパラメータ最適化(HPO)に対するこれまでの取り組みは、アルゴリズムの進歩に重点を置いていたが、HPOの探索過程を統括する基盤となるハイパーパラメータ(HP)ロスランドスケープの地形についてはほとんど知られていない。 いくつかの研究が様々なMLシステム上でフィットネスランドスケープ解析(FLA)を行っているが、それらの構造的類似性を疑うことなく、孤立したランドスケープの特性に制限されている。 このような類似点の探索は、現代のHPO法の背後にあるメカニズムを理解するための新しい視点を提供することができるが、おそらくは大規模景観構築のコストと効果的な分析方法の欠如のために欠落している。 本稿では、6つの代表MLモデルの1500HPロスランドスケープを、異なる忠実度レベルにわたる63のデータセットにマッピングし、11M以上構成した。 詳細な可視化と専用のFLAメトリクスを用いて,これらの景観の探索的解析を行うことで,様々なモデル,データセット,忠実度にまたがる類似の景観地形を観察し,HPOのいくつかの中心的なトピックに光を当てた。

Previous efforts on hyperparameter optimization (HPO) of machine learning (ML) models predominately focus on algorithmic advances, yet little is known about the topography of the underlying hyperparameter (HP) loss landscape, which plays a fundamental role in governing the search process of HPO. While several works have conducted fitness landscape analysis (FLA) on various ML systems, they are limited to properties of isolated landscape without interrogating the potential structural similarities among them. The exploration of such similarities can provide a novel perspective for understanding the mechanism behind modern HPO methods, but has been missing, possibly due to the expensive cost of large-scale landscape construction, and the lack of effective analysis methods. In this paper, we mapped 1,500 HP loss landscapes of 6 representative ML models on 63 datasets across different fidelity levels, with 11M+ configurations. By conducting exploratory analysis on these landscapes with fine-grained visualizations and dedicated FLA metrics, we observed a similar landscape topography across a wide range of models, datasets, and fidelities, and shed light on several central topics in HPO.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# UHGEval: 制約なし生成による中国語大言語モデルの幻覚のベンチマーク

UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation ( http://arxiv.org/abs/2311.15296v3 )

ライセンス: Link先を確認
Xun Liang, Shichao Song, Simin Niu, Zhiyu Li, Feiyu Xiong, Bo Tang, Yezhaohui Wang, Dawei He, Peng Cheng, Zhonghao Wang, Haiying Deng, (参考訳) 大規模言語モデル(LLM)は、現代の自然言語処理において重要な貢献者として登場し、多種多様な産業に適用されつつある。 しかし、これらの大規模確率論的統計モデルは、現在、プロのコンテンツ生成に必要な品質を保証できない。 これらのモデルは、しばしば幻覚テキストを生成し、その実用性を専門的な文脈で実現している。 テキスト生成におけるLCMの信頼性を評価するために,幻覚現象のベンチマーク評価を開発した。 しかしながら、これらのベンチマークはコストと時間的制約のため、しばしば制約付き生成技術を利用する。 これらの技術は、指示幻覚誘導と、幻覚を生み出すための真正のテキストを意図的に変更する戦略の使用を含んでいる。 これらのアプローチは、現実世界のアプリケーションによって要求される制限なしのテキスト生成と一致しない。 さらに, テキスト生成における幻覚評価専用の中国語データセットも現在, 欠落している。 その結果,LLMによる最小限の制約で生成した出力をコンパイルするUnconstrained Hallucination Generation Evaluation (UHGEval) ベンチマークを開発した。 同時に、我々は、拡張性および再現性のある実験を行う研究者を支援するための総合的なベンチマーク評価フレームワークを構築した。 我々はまた、幻覚の課題に関する専門的なパフォーマンスの洞察を得るために、著名な中国語モデルとGPTシリーズモデルを評価する広範な実験も行ってきた。

Large language models (LLMs) have emerged as pivotal contributors in contemporary natural language processing and are increasingly being applied across a diverse range of industries. However, these large-scale probabilistic statistical models cannot currently ensure the requisite quality in professional content generation. These models often produce hallucinated text, compromising their practical utility in professional contexts. To assess the authentic reliability of LLMs in text generation, numerous initiatives have developed benchmark evaluations for hallucination phenomena. Nevertheless, these benchmarks frequently utilize constrained generation techniques due to cost and temporal constraints. These techniques encompass the use of directed hallucination induction and strategies that deliberately alter authentic text to produce hallucinations. These approaches are not congruent with the unrestricted text generation demanded by real-world applications. Furthermore, a well-established Chinese-language dataset dedicated to the evaluation of hallucinations in text generation is presently lacking. Consequently, we have developed an Unconstrained Hallucination Generation Evaluation (UHGEval) benchmark, designed to compile outputs produced with minimal restrictions by LLMs. Concurrently, we have established a comprehensive benchmark evaluation framework to aid subsequent researchers in undertaking scalable and reproducible experiments. We have also executed extensive experiments, evaluating prominent Chinese language models and the GPT series models to derive professional performance insights regarding hallucination challenges.
翻訳日:2024-05-27 23:46:28 公開日:2024-05-24
# PAWS-VMK: 半教師付き学習とアウト・オブ・ディストリビューション検出のための統一的なアプローチ

PAWS-VMK: A Unified Approach To Semi-Supervised Learning And Out-of-Distribution Detection ( http://arxiv.org/abs/2311.17093v3 )

ライセンス: Link先を確認
Evelyn Mannix, Howard Bondell, (参考訳) 本稿では、半教師付き学習(SSL)とアウト・オブ・ディストリビューション(OOD)検出コンテキストの両方において、画像分類タスクの最先端結果を取得する、プロトタイプ型ディープラーニングアプローチであるPAWS-VMKについて述べる。 我々は、SSL、OOD検出、コンピュータビジョン基礎モデルの分野での開発を検討し、PAWS-VMKを作成するために、これらの作業の主要なアイデアを結び付ける多くのイノベーションを紹介します。 これらの革新には、1パラメトリックのvon Mises-Fisher Stochastic Neighbour Embedding (vMF-SNE)により、基礎モデルの高品質な埋め込みを用いてSSLのプロジェクションヘッドを初期化すること、2よりコンパクトな埋め込みを生成するPAWS-MixMatch損失、3単純な$k$-Meansプロトタイプセレクション(SKMPS)による一貫性損失よりも高い精度のPAWS-MixMatch損失がある。 PAWS-VMKは、クラス毎に4つのラベル付きインスタンスを持つCIFAR-10 (99.2%)とCIFAR-100 (89.8%)と、クラス毎に2つのラベル付きインスタンスを持つFood-101 (90.1%)の半教師付き学習のベンチマークを新たに設定している。 また、PAWS-VMKは、CIFAR-10およびCIFAR-100 OpenOODベンチマークで93.1/98.0および95.2/96.3を達成し、この目的のために特別に設計されたメソッドと競合する方法で、OODサンプルを効率的に検出できることを示した。

This paper describes PAWS-VMK, a prototypical deep learning approach that obtains state-of-the-art results for image classification tasks in both a semi-supervised learning (SSL) and out-of-distribution (OOD) detection context. We consider developments in the fields of SSL, OOD detection, and computer vision foundation models to introduce a number of innovations that connect the key ideas within these works to create PAWS-VMK. These innovations include (1) parametric von Mises-Fisher Stochastic Neighbour Embedding (vMF-SNE) to initialise a projection head for SSL using the high-quality embeddings of the foundation model; (2) the PAWS-MixMatch loss, that creates more compact embeddings and obtains higher accuracy in comparison to the consistency loss used in PAWS and (3) simple $k$-Means prototype selection (SKMPS), a simple technique that obtains competitive performance with more complex unsupervised label selection approaches. PAWS-VMK sets new benchmarks in semi-supervised learning for CIFAR-10 (99.2%) and CIFAR-100 (89.8%) with four labelled instances per class, and Food-101 (90.1%) with two labelled instances per class. We also observe that PAWS-VMK can efficiently detect OOD samples in a manner that is competitive with specialised methods specifically designed for this purpose, achieving 93.1/98.0 and 95.2/96.3 on the CIFAR-10 and CIFAR-100 OpenOOD benchmarks.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# 映像行動認識のためのエンド・ツー・エンド・ラーニングの弱化に向けて

Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition ( http://arxiv.org/abs/2311.17118v2 )

ライセンス: Link先を確認
Jiaming Zhou, Hanjun Li, Kun-Yu Lin, Junwei Liang, (参考訳) ロングビデオ上でのエンド・ツー・エンドのアクション認識モデルの開発は、ロングビデオのアクション理解に不可欠かつ不可欠である。 長いビデオ全体におけるエンドツーエンドのトレーニングのコストが不都合なため、既存の作品は通常、長いビデオから切り離された短いクリップでモデルを訓練する。 しかし、この‘トリミングトレーニング’のプラクティスは、クリップレベルの監視のためのアクションインターバルアノテーション、すなわち、どのアクションがクリップにトリミングされているかを知る必要がある。 残念ながら、このようなアノテーションの収集は非常に高価で、大規模なモデルのトレーニングを妨げます。 この目的は、ビデオレベルのアクションカテゴリラベルのみを使用して、長いビデオ上で認識モデルをトレーニングするための、弱い教師付きエンドツーエンドフレームワークを構築することである。 長編ビデオにおけるアクションの正確な時間的位置を知ることなく、我々の提案する弱い教師付きフレームワーク、すなわちAdaptFocusは、アクションがどこで、どのようにして、エンドツーエンドのトレーニングのための情報的アクションクリップに適応的にフォーカスするかを見積もる。 提案するAdaptFocusフレームワークの有効性は,3つの長ビデオデータセットで実証されている。 さらに、下流の長ビデオタスクに対して、当社のAdaptFocusフレームワークは、より堅牢な長ビデオ特徴を抽出するための弱教師付き機能抽出パイプラインを提供する。 コードとモデルをリリースします。

Developing end-to-end action recognition models on long videos is fundamental and crucial for long-video action understanding. Due to the unaffordable cost of end-to-end training on the whole long videos, existing works generally train models on short clips trimmed from long videos. However, this ``trimming-then-training'' practice requires action interval annotations for clip-level supervision, i.e., knowing which actions are trimmed into the clips. Unfortunately, collecting such annotations is very expensive and prevents model training at scale. To this end, this work aims to build a weakly supervised end-to-end framework for training recognition models on long videos, with only video-level action category labels. Without knowing the precise temporal locations of actions in long videos, our proposed weakly supervised framework, namely AdaptFocus, estimates where and how likely the actions will occur to adaptively focus on informative action clips for end-to-end training. The effectiveness of the proposed AdaptFocus framework is demonstrated on three long-video datasets. Furthermore, for downstream long-video tasks, our AdaptFocus framework provides a weakly supervised feature extraction pipeline for extracting more robust long-video features, such that the state-of-the-art methods on downstream tasks are significantly advanced. We will release the code and models.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# Mirage: RNSベースのDNNトレーニング用フォトニック加速器

Mirage: An RNS-Based Photonic Accelerator for DNN Training ( http://arxiv.org/abs/2311.17323v2 )

ライセンス: Link先を確認
Cansu Demirkiran, Guowei Yang, Darius Bunandar, Ajay Joshi, (参考訳) フォトニックコンピューティングは、ディープニューラルネットワーク(DNN)において重要な操作である、高効率な行列乗算を行うための魅力的な道である。 この手法はDNN推論において大きな成功を収めてきたが、DNNトレーニングの高精度要求を満たすことは、高価なデータ変換器によって課される精度の制限と、フォトニックハードウェアに固有のアナログノイズのために困難であることが証明されている。 本稿では、Residue Number System (RNS) を用いたフォトニックハードウェアにおける精度の課題を克服するフォトニックDNNトレーニングアクセラレータであるMirageを提案する。 RNSはモジュラー演算に基づく数値システムであり、複数の低精度なモジュラー演算によって高精度な演算を行うことができる。 本研究では、アナログ領域でモジュラー演算を行うRSSベースのフォトニックテンソルコアに対して、新しいマイクロアーキテクチャとデータフローを提案する。 RNSとフォトニクスを組み合わせることで、精度を損なうことなく高いエネルギー効率を提供し、FP32訓練に匹敵する精度で最先端のDNNを訓練することができる。 我々の研究では、シストリックアレイと比較して、Mirageは複数のDNNで平均23.8\times$高速トレーニングと32.1\times$低いEDPをイソエネルギーシナリオで達成し、同領域シナリオで同等またはより良いEDPで42.8\times$低い電力を消費している。

Photonic computing is a compelling avenue for performing highly efficient matrix multiplication, a crucial operation in Deep Neural Networks (DNNs). While this method has shown great success in DNN inference, meeting the high precision demands of DNN training proves challenging due to the precision limitations imposed by costly data converters and the analog noise inherent in photonic hardware. This paper proposes Mirage, a photonic DNN training accelerator that overcomes the precision challenges in photonic hardware using the Residue Number System (RNS). RNS is a numeral system based on modular arithmetic, allowing us to perform high-precision operations via multiple low-precision modular operations. In this work, we present a novel micro-architecture and dataflow for an RNS-based photonic tensor core performing modular arithmetic in the analog domain. By combining RNS and photonics, Mirage provides high energy efficiency without compromising precision and can successfully train state-of-the-art DNNs achieving accuracy comparable to FP32 training. Our study shows that on average across several DNNs when compared to systolic arrays, Mirage achieves more than $23.8\times$ faster training and $32.1\times$ lower EDP in an iso-energy scenario and consumes $42.8\times$ lower power with comparable or better EDP in an iso-area scenario.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# 非線形ダブルコンプトン散乱による絡み合ったX線の生成

Production of Entangled X-rays through Nonlinear Double Compton Scattering ( http://arxiv.org/abs/2311.17807v2 )

ライセンス: Link先を確認
T. D. C. de Vos, J. J. Postema, B. H. Schaap, A. Di Piazza, O. J. Luiten, (参考訳) 絡み合ったX線を生成するためのアクセス可能な情報源は、高エネルギーの量子光学の分野にとって不可欠である。 ここでは、強磁場QEDの枠組み内での作用により、強いレーザー波(非線形ダブルコンプトン散乱)において電子によって放出される2つの光子の絡み合いと偏光の詳細な解析を行う。 2つの光子放射の間に電子がオンシェルまたはオフシェルであることに由来する放出確率への寄与を同定することにより、この絡み合った光子はオフシェル寄与によって生成され、偏光測定によりオンシェルチャネルを介して放出されるものと区別できることを示す。 また, 絡み合いを説明するための直感的な画像を提供し, 絡み合ったX線を生成, 分離する実験を提案する。

An accessible source for the production of entangled x-rays is crucial for the field of high-energy quantum optics. Here, we present a detailed analysis of the entanglement and polarisation of the two photons emitted by an electron in an intense laser wave (nonlinear double Compton scattering), by working within the framework of strong-field QED. By identifying a contribution to the emission probability stemming from the electron being on-shell or off-shell between the two photons emissions, we show that the entangled photons are generated via the off-shell contribution, which can be distinguished from those emitted via the on-shell channel by a polarisation measurement. We also provide an intuitive picture to explain the entanglement and propose an experiment to produce and isolate entangled x-rays.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# GLiDR: 疎LiDAR点雲のためのトポロジ的正規化グラフ生成ネットワーク

GLiDR: Topologically Regularized Graph Generative Network for Sparse LiDAR Point Clouds ( http://arxiv.org/abs/2312.00068v3 )

ライセンス: Link先を確認
Prashant Kumar, Kshitij Madhav Bhat, Vedang Bhupesh Shenvi Nadkarni, Prem Kalra, (参考訳) 希少なLiDAR点雲は、静的構造の細部が著しく失われ、ナビゲーションに利用可能な静的点の密度が低下する。 密度の低下は、いくつかのシナリオでナビゲーションに有害である。 空間密度が高いにもかかわらず、ほとんどの場合、静的構造を概説するLiDARのグローバルトポロジーが推測可能である。 我々はこの特性を利用して、LiDARスキャンのバックボーン骨格を、そのグローバルトポロジのプロキシである1つの連結成分の形で取得する。 バックボーンを使用して静的な構造に沿って新しいポイントを拡大し、スパーシリティを克服します。 新しく導入されたポイントは、既存の静的構造や、以前動的オブジェクトによって妨げられていた静的なポイントに対応できる。 私たちの知る限りでは、私たちは、LiDARポイントクラウドを疎結合にするための、このような戦略を最初に使用しています。 我々のアプローチに近い既存のソリューションは、グローバルな静的LiDARトポロジを特定し保存し、準最適点を生成するのに失敗する。 我々は,0次元永続ホモロジー(\mathcal{PH}$)制約を用いてトポロジ的に正規化されたグラフ生成ネットワークGLiDRを提案する。 これにより、GLiDRは、トポロジ的に一貫性のあるグローバルな静的LiDARバックボーンに沿って、より新しい静的ポイントを導入することができる。 GLiDRは32\times$スペーサーダイナミックスキャンを使用して正確な静的ポイントを生成し、3つのデータセットのベースラインよりもパフォーマンスがよい。 GLiDRは価値のある副産物を生成します - 静的および動的オブジェクトの正確なバイナリセグメンテーションマスクで、制約のある環境でのナビゲーション計画と安全性に役立ちます。 新たに導入された静的ポイントにより、GLiDRは複数の設定でSLAMを使用してLiDARベースのナビゲーションより優れている。 ソースコードはhttps://kshitijbhat.github.io/glidrで入手できる。

Sparse LiDAR point clouds cause severe loss of detail of static structures and reduce the density of static points available for navigation. Reduced density can be detrimental to navigation under several scenarios. We observe that despite high sparsity, in most cases, the global topology of LiDAR outlining the static structures can be inferred. We utilize this property to obtain a backbone skeleton of a LiDAR scan in the form of a single connected component that is a proxy to its global topology. We utilize the backbone to augment new points along static structures to overcome sparsity. Newly introduced points could correspond to existing static structures or to static points that were earlier obstructed by dynamic objects. To the best of our knowledge, we are the first to use such a strategy for sparse LiDAR point clouds. Existing solutions close to our approach fail to identify and preserve the global static LiDAR topology and generate sub-optimal points. We propose GLiDR, a Graph Generative network that is topologically regularized using 0-dimensional Persistent Homology ($\mathcal{PH}$) constraints. This enables GLiDR to introduce newer static points along a topologically consistent global static LiDAR backbone. GLiDR generates precise static points using $32\times$ sparser dynamic scans and performs better than the baselines across three datasets. GLiDR generates a valuable byproduct - an accurate binary segmentation mask of static and dynamic objects that are helpful for navigation planning and safety in constrained environments. The newly introduced static points allow GLiDR to outperform LiDAR-based navigation using SLAM in several settings. Source code is available at https://kshitijbhat.github.io/glidr
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v4 )

ライセンス: Link先を確認
Yunfei Fan, Tianyu Zhao, Guidong Wang, (参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。 既存のVINSアルゴリズムは精度が高いか計算量が少ないかのどちらかで、リソース制約のあるデバイスに高精度なローカライゼーションを提供することは困難である。 そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 高い精度を保証できる新しいフィルタベースのVINSフレームワークであるSchurVINSを提案する。 技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。 シュア補数は、完全なモデルをエゴモーション残留モデルとランドマーク残留モデルに分解するために用いられる。 最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。 EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。 SchurVINSの実験コードはhttps://github.com/bytedance/SchurVINSで公開されている。

Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. The experimental code of SchurVINS is available at https://github.com/bytedance/SchurVINS.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# Airdrops:お金の支払いは見かけより難しい

Airdrops: Giving Money Away Is Harder Than It Seems ( http://arxiv.org/abs/2312.02752v2 )

ライセンス: Link先を確認
Johnnatan Messias, Aviv Yaish, Benjamin Livshits, (参考訳) Airdropはブロックチェーンアプリケーションやプロトコルによって、初期ユーザベースを惹きつけ、時間の経過とともにユーザベースを拡大するために使用される。 多くのエアドロップの場合、トークンは、エアドロップの直後に真の経済活動を生み出す忠実なコミュニティを作ることを長期的な目標として、基盤となるプロトコルと対話するための"逆"として、一部のユーザに配布される。 エアドロップはブロックチェーン業界で広く使用されているが、エアドロップの成功に寄与する要因の適切な理解は一般的に欠如している。 本研究では,エアドロップの設計空間を概説し,エアドロップが理想的に生み出すべき結果の合理的なリストを指定する。 次に,より大規模な気滴からの連鎖データを解析し,過去の気滴の成功を実証的に評価する。 本分析では, 航空投棄農家は, 航空投棄のシェアを頻繁に取り除き, 航空投棄は交換によって進行することを示した。 我々の分析は、一般的な気滴設計が与える共通の落とし穴を概観し、それを用いて、より良い気滴設計のための具体的なガイドラインを提案する。

Airdrops are used by blockchain applications and protocols to attract an initial user base, and to grow the user base over time. In the case of many airdrops, tokens are distributed to select users as a "reward" for interacting with the underlying protocol, with a long-term goal of creating a loyal community that will generate genuine economic activity well after the airdrop. Although airdrops are widely used by the blockchain industry, a proper understanding of the factors contributing to an airdrop's success is generally lacking. In this work, we outline the design space for airdrops, and specify a reasonable list of outcomes that an airdrop should ideally result in. We then analyze on-chain data from several larger-scale airdrops to empirically evaluate the success of previous airdrops, with respect to our desiderata. In our analysis, we demonstrate that airdrop farmers frequently dispose of the lion's share of airdrops proceeds via exchanges. Our analysis is followed by an overview of common pitfalls that common airdrop designs lend themselves to, which are then used to suggest concrete guidelines for better airdrops.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# 異常運転行動検出のためのサロゲート安全対策を用いたデータ駆動半教師付き機械学習

Data-driven Semi-supervised Machine Learning with Surrogate Safety Measures for Abnormal Driving Behavior Detection ( http://arxiv.org/abs/2312.04610v5 )

ライセンス: Link先を確認
Yongqi Dong, Lanxin Zhang, Haneen Farah, Arkady Zgonnikov, Bart van Arem, (参考訳) 道路交通の安全と運転者の行動評価には,異常運転行動の検出が重要である。 機械学習(ML)アルゴリズムの進歩と自然主義駆動データの蓄積により、多くのMLモデルが異常運転行動検出に採用されている。 既存のMLベースの検出器の多くは(完全に)教師付きML法に依存しており、かなりのラベル付きデータを必要とする。 しかし、地上の真理ラベルは必ずしも現実世界で利用できておらず、大量のデータをラベル付けするのは面倒である。 したがって、異常検出プロセスをより効果的かつ効果的にするために、教師なしまたは半教師なしの手法を検討する必要がある。 このギャップを埋めるために,本研究では,複数の異常運転行動(例えば,急激な加速,高速車線変更)を明らかにする大規模実世界のデータを分析し,部分ラベル付きデータを用いて階層的エクストリーム学習マシン(HELM)に基づく半教師付きML法を開発し,その異常運転動作を正確に検出する。 さらに、従来のMLベースアプローチでは、基本車両の動作特性(速度や加速度など)を利用して異常運転行動のラベル付けと検出を行うのに対して、本研究では、MLモデルの入力機能としてサロゲート安全対策(SSM)を導入し、検出性能を向上させることを目的とする。 実験結果から,提案した半教師付きMLモデルの有効性を示すとともに,SSMが重要な特徴であることを示す。 提案した半教師付きML法は、様々な指標(例えば、99.58%で最高の精度、0.9913で最高のF-1測定値)に関して、他のベースラインの半教師付きあるいは教師なしの手法よりも優れている。 アブレーション研究は, 検出性能向上におけるSSMsの重要性をさらに強調した。

Detecting abnormal driving behavior is critical for road traffic safety and the evaluation of drivers' behavior. With the advancement of machine learning (ML) algorithms and the accumulation of naturalistic driving data, many ML models have been adopted for abnormal driving behavior detection. Most existing ML-based detectors rely on (fully) supervised ML methods, which require substantial labeled data. However, ground truth labels are not always available in the real world, and labeling large amounts of data is tedious. Thus, there is a need to explore unsupervised or semi-supervised methods to make the anomaly detection process more feasible and efficient. To fill this research gap, this study analyzes large-scale real-world data revealing several abnormal driving behaviors (e.g., sudden acceleration, rapid lane-changing) and develops a Hierarchical Extreme Learning Machines (HELM) based semi-supervised ML method using partly labeled data to accurately detect the identified abnormal driving behaviors. Moreover, previous ML-based approaches predominantly utilize basic vehicle motion features (such as velocity and acceleration) to label and detect abnormal driving behaviors, while this study seeks to introduce Surrogate Safety Measures (SSMs) as the input features for ML models to improve the detection performance. Results from extensive experiments demonstrate the effectiveness of the proposed semi-supervised ML model with the introduced SSMs serving as important features. The proposed semi-supervised ML method outperforms other baseline semi-supervised or unsupervised methods regarding various metrics, e.g., delivering the best accuracy at 99.58% and the best F-1 measure at 0.9913. The ablation study further highlights the significance of SSMs for advancing detection performance.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# 共鳴や仮想状態からの有界状態の摂動生成の可能性

Feasibility of perturbative generation of bound-states from resonances or virtual states ( http://arxiv.org/abs/2312.05085v2 )

ライセンス: Link先を確認
C. -J. Yang, (参考訳) 一階摂動理論により共振器や仮想状態から有界状態を生成することができるかを検討する。 ピオンレス有効場理論に現れる接触型ポテンシャルを用いて, LO共鳴や仮想状態の存在下で, 先行(LO)波動関数とNLO相互作用を挟み込むことにより, 負エネルギー状態が得られることを示す。 しかし、少なくとも時間に依存しないシュル・オーディンガー方程式とエルミート・ハミルトン方程式の枠組みの下では、非摂動的処理によって形成されるものと似た構造を持つ有界状態を作ることができない。

I investigate whether it is possible to generate bound-states from resonances or virtual states through first-order perturbation theory. Using contact-type potentials as those appeared in pionless effective field theory, I show that it is possible to obtain negative-energy states by sandwiching a next-to-leading order (NLO) interaction with the leading-order (LO) wavefunctions, under the presence of LO resonances or virtual states. However, at least under the framework of time-independent Schr\"odinger equation and Hermitian Hamiltonian, there is an inability to create bound-states with structure similar to those formed by the non-perturbative treatments.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解

ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models ( http://arxiv.org/abs/2312.05821v2 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun, (参考訳) 本稿では,Large Language Models (LLM) の学習後圧縮パラダイムを提案する。 この課題は, LLMの活性化における外乱現象と, 各種層間の感度差に起因する。 これらの課題に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。 具体的には、アクティベーション分布に基づいて重み行列をスケーリングすることにより、アクティベーション出力を管理することにより、分解精度を向上する。 さらに, 異なるLCM層の感度変化に対処して, 層固有の分解を最適化する効率的な反復校正法を提案する。 ASVDは、LLMの性能を損なうことなく、ネットワークを10-20%圧縮することができる。 自己アテンションモジュールにおけるプロジェクション行列の低ランク分解の成功に基づいて、我々はさらにASVDを導入し、KVキャッシュを圧縮する。 KVアクティベーションのチャネル次元を小さくすることで、KVキャッシュのメモリ要求を大幅に削減できる。 KVプロジェクション行列のランクの50-75%の低下により、ASVDはトレーニング不要な方法で性能低下を伴わずに50%のKVキャッシュ削減を達成できる。

In this paper, we introduce a new post-training compression paradigm for Large Language Models (LLMs) to facilitate their wider adoption. We delve into LLM weight low-rank factorization, and find that the challenges of this task stem from the outlier phenomenon in the LLM activations and the sensitivity difference among various kinds of layers. To address these issues, we propose a training-free approach called Activation-aware Singular Value Decomposition (ASVD). Specifically, ASVD manages activation outliers by scaling the weight matrix based on the activation distribution, thereby enhancing decomposition accuracy. Additionally, we propose an efficient iterative calibration process to optimize layer-specific decomposition by addressing the varying sensitivity of different LLM layers. ASVD can compress a network by 10-20%, without compromising the performance of LLMs. Based on the success of the low-rank decomposition of projection matrices in the self-attention module, we further introduce ASVD to compress the KV cache. By reducing the channel dimension of KV activations, memory requirements for KV cache can be largely reduced. Thanks to the 50-75% reduction in the rank of the KV projection matrices, ASVD can further achieve 50% KV cache reductions without performance drop in a training-free manner.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# 予測非相関推論:予測後推論のための安全なアプローチ

Prediction De-Correlated Inference: A safe approach for post-prediction inference ( http://arxiv.org/abs/2312.06478v3 )

ライセンス: Link先を確認
Feng Gan, Wanfeng Liang, Changliang Zou, (参考訳) 現代のデータ分析では、機械学習を用いてラベルのないデータセットの結果を予測し、その後の統計的推論で擬似アウトカムを使用するのが一般的である。 この設定での推論はしばしばポスト述語推論と呼ばれる。 本稿では,予測相関推論 (PDC) と呼ばれる,予測後条件下での統計的推論のための新しい仮定リーンフレームワークを提案する。 我々のアプローチは安全であり、PDCが任意のブラックボックス機械学習モデルに自動的に適応し、教師付き機械学習モデルよりも一貫して優れる。 PDCフレームワークはまた、複数の予測モデルに容易に拡張できる。 数値結果と実世界のデータ解析は、最先端手法よりもPDCの方が優れていることを示す。

In modern data analysis, it is common to use machine learning methods to predict outcomes on unlabeled datasets and then use these pseudo-outcomes in subsequent statistical inference. Inference in this setting is often called post-prediction inference. We propose a novel assumption-lean framework for statistical inference under post-prediction setting, called Prediction De-Correlated Inference (PDC). Our approach is safe, in the sense that PDC can automatically adapt to any black-box machine-learning model and consistently outperform the supervised counterparts. The PDC framework also offers easy extensibility for accommodating multiple predictive models. Both numerical results and real-world data analysis demonstrate the superiority of PDC over the state-of-the-art methods.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# ゼロサムマルコフゲームにおけるナッシュ平衡の学習:弱到達性下での単一時間スケールアルゴリズム

Learning Nash Equilibria in Zero-Sum Markov Games: A Single Time-scale Algorithm Under Weak Reachability ( http://arxiv.org/abs/2312.08008v2 )

ライセンス: Link先を確認
Reda Ouhamma, Maryam Kamgarpour, (参考訳) 我々は,ゼロサムゲームにおける分散学習について考察する。プレイヤーはペイオフ情報のみを閲覧し,相手のアクションやペイオフに非依存である。 従来の研究は、強い到達可能性仮定の下で二重時間スケールアルゴリズムを用いて、この設定でナッシュ均衡に収束することを示した。 我々は、より弱い条件下で、非結合かつ単一時間スケールのアルゴリズムを用いて、近似ナッシュ平衡を効率的に達成する開放的な問題に対処する。 我々の貢献は合理的で収束的なアルゴリズムであり、Tsallis-entropy regularization を値イテレーションに基づくアプローチで利用している。 このアルゴリズムは多項式時間で近似的なナッシュ平衡を学習し、既約かつ周期的なマルコフ連鎖を誘導するポリシー対の存在しか必要とせず、過去の仮定を著しく弱める。 我々の分析は、負のドリフト不等式を利用し、独立した興味を持つツァリスエントロピーの新たな性質を導入する。

We consider decentralized learning for zero-sum games, where players only see their payoff information and are agnostic to actions and payoffs of the opponent. Previous works demonstrated convergence to a Nash equilibrium in this setting using double time-scale algorithms under strong reachability assumptions. We address the open problem of achieving an approximate Nash equilibrium efficiently with an uncoupled and single time-scale algorithm under weaker conditions. Our contribution is a rational and convergent algorithm, utilizing Tsallis-entropy regularization in a value-iteration-based approach. The algorithm learns an approximate Nash equilibrium in polynomial time, requiring only the existence of a policy pair that induces an irreducible and aperiodic Markov chain, thus considerably weakening past assumptions. Our analysis leverages negative drift inequalities and introduces novel properties of Tsallis entropy that are of independent interest.
翻訳日:2024-05-27 23:36:34 公開日:2024-05-24
# SMILE:言語モデルによるビデオ中の娘の理解のためのマルチモーダルデータセット

SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models ( http://arxiv.org/abs/2312.09818v3 )

ライセンス: Link先を確認
Lee Hyun, Kim Sung-Bin, Seungju Han, Youngjae Yu, Tae-Hyun Oh, (参考訳) 人工知能の最近の進歩にもかかわらず、ソーシャルインテリジェンスの構築は依然として課題だ。 社会的なシグナルの中で、笑いは人間同士の社会的相互作用の間に生じる特徴的な表現の1つである。 本研究では、ビデオにおける笑いの背景にある理論的根拠を理解するために、機械が新しい課題に取り組む。 このタスクを導入し、人々がなぜ特定のビデオやデータセットで笑うのかを説明する。 提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。 本稿では,大規模言語モデル(LLM)の推論能力とテキスト映像表現を併用したベースラインを提案する。 実験により、我々の基準線は笑いのもっともらしい説明を生成できることが示された。 さらに,他のビデオ理解タスクや,その中の動画を探索することで,ベースラインのスケーラビリティについて検討する。 私たちはデータセット、コード、モデルチェックポイントをhttps://github.com/postech-ami/SMILE-Datasetでリリースしています。

Despite the recent advances of the artificial intelligence, building social intelligence remains a challenge. Among social signals, laughter is one of the distinctive expressions that occurs during social interactions between humans. In this work, we tackle a new challenge for machines to understand the rationale behind laughter in video, Video Laugh Reasoning. We introduce this new task to explain why people laugh in a particular video and a dataset for this task. Our proposed dataset, SMILE, comprises video clips and language descriptions of why people laugh. We propose a baseline by leveraging the reasoning capacity of large language models (LLMs) with textual video representation. Experiments show that our baseline can generate plausible explanations for laughter. We further investigate the scalability of our baseline by probing other video understanding tasks and in-the-wild videos. We release our dataset, code, and model checkpoints on https://github.com/postech-ami/SMILE-Dataset.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# AgentCoder: 反復テストと最適化を備えたマルチエージェントベースのコード生成

AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation ( http://arxiv.org/abs/2312.13010v3 )

ライセンス: Link先を確認
Dong Huang, Jie M. Zhang, Michael Luck, Qingwen Bu, Yuhao Qing, Heming Cui, (参考訳) 自然言語処理(NLP)の進歩は、トランスフォーマーベースの大規模言語モデル(LLM)の開発によって著しく加速された。 これらのモデルは、特にコード生成におけるNLPタスクに革命をもたらした。 その進歩にもかかわらず、コードスニペット生成と効果的なテストケース生成と実行のバランスをとる上での課題は継続している。 これらの課題に対処するために,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントなど,特殊なエージェントを備えたマルチエージェントフレームワークを備えた新しいソリューションであるマルチエージェントアシスタントコード生成(AgentCoder)を紹介する。 コーディング手順の間、プログラマエージェントは、テスト実行エージェントのフィードバックに基づいて、コード生成と改善に集中します。 テストデザイナエージェントは生成されたコードのテストケースを生成し、テスト実行エージェントはテストケースでコードを実行し、プログラマにフィードバックを書きます。 この協調システムは、単一エージェントモデルと従来の方法論の制限を越えて、堅牢なコード生成を保証する。 9つのコード生成モデルと12の拡張アプローチに関する広範な実験では、AgentCoderが既存のコード生成モデルよりも優れたパフォーマンスを示し、さまざまなベンチマークでエンジニアリング技術を推進しています。 例えば、AgentCoder (GPT-4)は、HumanEvalとMBPPのデータセットで96.3\%と91.8\%のpass@1を達成し、全体的なトークンオーバーヘッドは56.9Kと66.3Kであり、State-of-the-artは90.2\%と78.9\%のpass@1と138.2Kと206.5Kである。

The advancement of natural language processing (NLP) has been significantly boosted by the development of transformer-based large language models (LLMs). These models have revolutionized NLP tasks, particularly in code generation, aiding developers in creating software with enhanced efficiency. Despite their advancements, challenges in balancing code snippet generation with effective test case generation and execution persist. To address these issues, this paper introduces Multi-Agent Assistant Code Generation (AgentCoder), a novel solution comprising a multi-agent framework with specialized agents: the programmer agent, the test designer agent, and the test executor agent. During the coding procedure, the programmer agent will focus on the code generation and refinement based on the test executor agent's feedback. The test designer agent will generate test cases for the generated code, and the test executor agent will run the code with the test cases and write the feedback to the programmer. This collaborative system ensures robust code generation, surpassing the limitations of single-agent models and traditional methodologies. Our extensive experiments on 9 code generation models and 12 enhancement approaches showcase AgentCoder's superior performance over existing code generation models and prompt engineering techniques across various benchmarks. For example, AgentCoder (GPT-4) achieves 96.3\% and 91.8\% pass@1 in HumanEval and MBPP datasets with an overall token overhead of 56.9K and 66.3K, while state-of-the-art obtains only 90.2\% and 78.9\% pass@1 with an overall token overhead of 138.2K and 206.5K.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# ConfusionPrompt: オンライン大規模言語モデルのための実用的なプライベート推論

ConfusionPrompt: Practical Private Inference for Online Large Language Models ( http://arxiv.org/abs/2401.00870v2 )

ライセンス: Link先を確認
Peihua Mai, Ran Yan, Rui Ye, Youjia Yang, Yinchuan Li, Yan Pang, (参考訳) State-of-the-art large language model (LLM) は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに通知のプロンプトを送信する必要がある。 ConfusionPromptは,サーバを難読化するために設計された,新しいLLM推論フレームワークである。 (i)プロンプトをサブプロンプトに分解し、 二 オンライン LLM への入力として、真のサブプロンプトと共に疑似プロンプトを生成すること。 最終的には、返されたレスポンスをユーザが再コンパイルして、最後のレスポンス全体を取得することができる。 このような設計により、従来のプロトコルよりも有利なフレームワークが提供されます。 (i)既存のブラックボックスLCMとシームレスに統合でき、 (II)既存のテキスト摂動方式に比べて、プライバシーとユーティリティのトレードオフが著しく向上する。 プライバシ保護のためのプロンプトの要求を定式化するための$(\lambda, \mu, \rho)$-privacyモデルを開発し、コンフュージョンプロンプトの効率を肯定する複雑性解析を提供する。 実験により,提案手法は,オープンソースモデルや摂動に基づく手法を用いた局所的推論手法に比べて,はるかに高い有効性を提供するとともに,オープンソースLLMよりもはるかに少ないメモリを必要とすることがわかった。

State-of-the-art large language models (LLMs) are commonly deployed as online services, necessitating users to transmit informative prompts to cloud servers, thus engendering substantial privacy concerns. In response, we present ConfusionPrompt, a novel private LLM inference framework designed to obfuscate the server by: (i) decomposing the prompt into sub-prompts, and (ii) generating pseudo prompts along with the genuine sub-prompts as input to the online LLM. Eventually, the returned responses can be recomposed by the user to obtain the final whole response. Such designs endows our framework with advantages over previous protocols that (i) it can be seamlessly integrated with existing black-box LLMs, and (ii) it achieves significantly better privacy-utility trade-off than existing text perturbation-based methods. We develop a $(\lambda, \mu, \rho)$-privacy model to formulate the requirement for a privacy-preserving group of prompts, and provide a complexity analysis, affirming ConfusionPrompt's efficiency. Our empirical evaluation reveals that our method offers significantly higher utility compared to local inference methods using open-source models and perturbation-based techniques, while also requiring much less memory than open-source LLMs.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# 拡散モデルにおける注意マップの再利用による高速サンプリング

Fast Sampling Through The Reuse Of Attention Maps In Diffusion Models ( http://arxiv.org/abs/2401.01008v2 )

ライセンス: Link先を確認
Rosco Hunter, Łukasz Dudziak, Mohamed S. Abdelfattah, Abhinav Mehrotra, Sourav Bhattacharya, Hongkai Wen, (参考訳) テキストと画像の拡散モデルは、フレキシブルでリアルな画像合成のための前例のない能力を示している。 それでもこれらのモデルは、レイテンシの削減に動機づけられた、時間を要するサンプリング手順に依存している。 効率を改善するために、研究者はしばしば元の拡散モデルを使用して、高速な画像生成のために設計された追加のネットワークを訓練する。 対照的に、我々のアプローチは、再訓練、微調整、知識蒸留なしに、直接遅延を減らそうとしている。 特に、注意マップの繰り返し計算はコストがかかるが冗長であり、サンプリング時に再利用することを推奨する。 我々の具体的な再利用戦略はODE理論に基づいており、後者の写像が再利用されると最終像の歪みが小さくなることを意味する。 我々は,これらの再利用戦略と同等のレイテンシの少数のサンプリング手順を経験的に比較し,再利用が元の高遅延拡散モデルにより生成された画像に近い画像を生成することを発見した。

Text-to-image diffusion models have demonstrated unprecedented capabilities for flexible and realistic image synthesis. Nevertheless, these models rely on a time-consuming sampling procedure, which has motivated attempts to reduce their latency. When improving efficiency, researchers often use the original diffusion model to train an additional network designed specifically for fast image generation. In contrast, our approach seeks to reduce latency directly, without any retraining, fine-tuning, or knowledge distillation. In particular, we find the repeated calculation of attention maps to be costly yet redundant, and instead suggest reusing them during sampling. Our specific reuse strategies are based on ODE theory, which implies that the later a map is reused, the smaller the distortion in the final image. We empirically compare these reuse strategies with few-step sampling procedures of comparable latency, finding that reuse generates images that are closer to those produced by the original high-latency diffusion model.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# 多部シナリオにおける絡み合い階層

Entanglement hierarchies in multipartite scenarios ( http://arxiv.org/abs/2401.01014v3 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan, (参考訳) 本稿では,$n$-partite量子状態の階層構造について検討する。 量子状態のキャラクタリゼーション方法として階層的量子化の集合全体を提示し、これは真のマルチパーティの絡み合いを超越し、異なる絡み合いの寄与のうちの微細な識別を可能にする。 この種の量子化は、$k$-GMコンカレンスと呼ばれ、$k$-非分離性から$(n-1)$異なるクラスに明確に分類でき、$k$は$n$から2まで実行され、絡み合い測度の公理的条件に従う。 $k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys。 A \textbf{86}, 062323 (2012)} は、我々が提案した階層的測度は、同じクラス交絡状態の区別と連続性の測定の利点を具現化したものである。 さらに、$k$-MEコンカレンスと$k$-GMコンカレンスの関係を確立し、量子状態の置換不変部分を利用して、$k$-GMコンカレンスに強い下界を導出する。 さらに、より一般的な2つの量化のカテゴリ、$q$-$k$-GM Concurrence $(q>1)$と$\alpha$-$k$-GM Concurrence $(0\leq\alpha<1)$を得るために$k$-GM Concurrenceをパラメトリする。 特に、$\alpha$-$2$-GM Concurrence $(0<\alpha<1)$は、GHZ状態と$W$状態が同じ階層に属することを決定し、GHZ状態がマルチキュービット系における$W$状態よりもより絡み合っているという要件を詳細に満たしていることを証明している。

In this paper, we investigate the hierarchical structure of the $n$-partite quantum states. We present a whole set of hierarchical quantifications as a method of characterizing quantum states, which go beyond genuine multipartite entanglement measures and allow for fine identification among distinct entanglement contributions. This kind of quantifications, termed $k$-GM concurrence, can unambiguously classify entangled states into $(n-1)$ distinct classes from the perspective of $k$-nonseparability with $k$ running from $n$ down to 2, and comply with the axiomatic conditions of an entanglement measure. Compared to $k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys. Rev. A \textbf{86}, 062323 (2012)}], the hierarchical measures proposed by us embody advantages in distinguishing same class entangled state and measuring continuity. In addition, we establish the relation between $k$-ME concurrence and $k$-GM concurrence, and further derive a strong lower bound on the $k$-GM concurrence by exploiting the permutationally invariant part of a quantum state. Furthermore, we parametrize $k$-GM concurrence to obtain two more general and complete categories of quantifications, $q$-$k$-GM concurrence $(q>1)$ and $\alpha$-$k$-GM concurrence $(0\leq\alpha<1)$, which obey the properties enjoyed by $k$-GM concurrence as well. In particular, $\alpha$-$2$-GM concurrence $(0<\alpha<1)$ determines that the GHZ state and the $W$ state belong to the same hierarchy, and it is proven in detail satisfying the requirement that the GHZ state is more entangled than the $W$ state in multiqubit systems.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# カイラルキャビティ-マグノンカップリングを利用したキャビティマグノメカニクスにおける非相互絡み合い

Nonreciprocal entanglement in cavity magnomechanics exploiting chiral cavity-magnon coupling ( http://arxiv.org/abs/2401.02280v3 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Xuan Zuo, Hao-Tian Li, Jie Li, (参考訳) 我々は,カイラル空洞-マグノン結合を利用して,空洞磁気力学系における非相互量子絡み合いを実現する方法を示す。 システムは、マノンモード、機械振動モード、トーラス形状のキャビティ内の2つの縮退反伝搬マイクロ波キャビティモードで構成される。 本研究は,非相互定常マイクロ波-マグノンおよびフォトン-フォノン-フォノン-三部構造交絡をそれぞれ,マノンモードにキラル結合を有する異なる循環キャビティモードを駆動することにより実現可能であることを示す。 非相互の絡み合いは、様々な実験的な欠陥に対して堅牢である。 このような非相互絡み合いは、量子テレポーテーションを多重化するチャネルを実現することができることを示す。 この研究は、ノイズ耐性量子処理、チャネル多重化量子テレポーテーション、カイラル磁気量子ネットワークにおけるキャビティ・マグノメカニクスシステムの有望な応用を見出すことができる。

We show how to achieve nonreciprocal quantum entanglement in a cavity magnomechanical system by exploiting the chiral cavity-magnon coupling. The system consists of a magnon mode, a mechanical vibration mode, and two degenerate counter-propagating microwave cavity modes in a torus-shaped cavity. We show that nonreciprocal stationary microwave-magnon and -phonon bipartite entanglements and photon-magnon-phonon tripartite entanglement can be achieved by respectively driving different circulating cavity modes that hold a chiral coupling to the magnon mode. The nonreciprocal entanglements are shown to be robust against various experimental imperfections. We specifically show how such nonreciprocal entanglement can realize the channel multiplexing quantum teleportation. The work may find promising applications of the cavity magnomechanical systems in noise-tolerant quantum processing, channel multiplexing quantum teleportation, and chiral magnonic quantum networks.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# テキスト駆動型3次元動作生成のためのマルチトラックタイムライン制御

Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation ( http://arxiv.org/abs/2401.08559v2 )

ライセンス: Link先を確認
Mathis Petrovich, Or Litany, Umar Iqbal, Michael J. Black, Gül Varol, Xue Bin Peng, Davis Rempe, (参考訳) 生成モデリングの最近の進歩は、短いプロンプトと特定の期間からキャラクターアニメーションを生成する手法を用いて、テキストから3次元の人間の動きを合成する有望な進歩をもたらした。 しかし、入力として単一のテキストプロンプトを使用すると、複数のアクションの作成や動きの一部の正確な時間の定義など、アニメーターが必要とする細かい制御が欠如する。 そこで本研究では,テキスト駆動型モーション合成におけるタイムライン制御の新たな課題について紹介する。 ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。 これにより、各アクションの正確なタイミングを指定し、シーケンスまたは重なり合う間隔で複数のアクションを構成することができる。 マルチトラックタイムラインから合成アニメーションを生成するために,新しいテスト時間復調法を提案する。 この方法は、任意のトレーニング済みの運動拡散モデルと統合して、タイムラインを正確に反映する現実的な動きを合成することができる。 本手法は,各動作に係わる特定の身体部位を考慮し,各動作の時系列間隔(テキストプロンプト)を個別に処理し,予測を集約する。 実験により,提案手法が与えられたテキストプロンプトのセマンティクスやタイミングを尊重する現実的な動作を生成することを確認した。 私たちのコードとモデルはhttps://mathis.petrovich.fr/stmc.comで公開されています。

Recent advances in generative modeling have led to promising progress on synthesizing 3D human motion from text, with methods that can generate character animations from short prompts and specified durations. However, using a single text prompt as input lacks the fine-grained control needed by animators, such as composing multiple actions and defining precise durations for parts of the motion. To address this, we introduce the new problem of timeline control for text-driven motion synthesis, which provides an intuitive, yet fine-grained, input interface for users. Instead of a single prompt, users can specify a multi-track timeline of multiple prompts organized in temporal intervals that may overlap. This enables specifying the exact timings of each action and composing multiple actions in sequence or at overlapping intervals. To generate composite animations from a multi-track timeline, we propose a new test-time denoising method. This method can be integrated with any pre-trained motion diffusion model to synthesize realistic motions that accurately reflect the timeline. At every step of denoising, our method processes each timeline interval (text prompt) individually, subsequently aggregating the predictions with consideration for the specific body parts engaged in each action. Experimental comparisons and ablations validate that our method produces realistic motions that respect the semantics and timing of given text prompts. Our code and models are publicly available at https://mathis.petrovich.fr/stmc.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# グラフ変換器の原理化に向けて

Towards Principled Graph Transformers ( http://arxiv.org/abs/2401.10119v3 )

ライセンス: Link先を確認
Luis Müller, Daniel Kusuma, Blai Bonet, Christopher Morris, (参考訳) k次元Weisfeiler-Leman(k-WL)階層に基づくグラフ学習アーキテクチャは、理論的によく理解された表現力を提供する。 しかし、そのようなアーキテクチャは現実のタスクにしっかりとした予測性能を持たず、実際の影響を限定することが多い。 対照的に、グラフトランスフォーマーのようなグローバルアテンションベースのモデルは、実際は強い性能を示すが、それらの表現力とk-WL階層との比較は、特にこれらのアーキテクチャは、その表現性や予測性能に位置的あるいは構造的エンコーディングに依存するため、依然として困難である。 そこで本研究では,ノードではなくノードペアで動作するグローバルアテンションモデルであるEdge Transformerが,少なくとも3WLの表現力を持つことを示す。 実験的に、Edge Transformerは、位置や構造的エンコーディングを頼らずに、予測性能に関する他の理論的に整合したアーキテクチャを上回ることを実証する。 私たちのコードはhttps://github.com/luis-mueller/towards-principled-gtsで利用可能です。

Graph learning architectures based on the k-dimensional Weisfeiler-Leman (k-WL) hierarchy offer a theoretically well-understood expressive power. However, such architectures often fail to deliver solid predictive performance on real-world tasks, limiting their practical impact. In contrast, global attention-based models such as graph transformers demonstrate strong performance in practice, but comparing their expressive power with the k-WL hierarchy remains challenging, particularly since these architectures rely on positional or structural encodings for their expressivity and predictive performance. To address this, we show that the recently proposed Edge Transformer, a global attention model operating on node pairs instead of nodes, has at least 3-WL expressive power. Empirically, we demonstrate that the Edge Transformer surpasses other theoretically aligned architectures regarding predictive performance while not relying on positional or structural encodings. Our code is available at https://github.com/luis-mueller/towards-principled-gts
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# パーシモニーと能力 : 長期連続予測における分解の両立

Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting ( http://arxiv.org/abs/2401.11929v3 )

ライセンス: Link先を確認
Jinliang Deng, Feiyang Ye, Du Yin, Xuan Song, Ivor W. Tsang, Hui Xiong, (参考訳) 長期時系列予測(LTSF)は、伝統的なアプローチに典型的な短いスパンとは対照的に、広範囲な入力シーケンスを特徴とする時系列解析における重要なフロンティアである。 より長いシーケンスは本質的に予測精度を高めるためによりリッチな情報を提供するが、一般的な研究はモデルの複雑さをエスカレーションすることによって応答することが多い。 これらの複雑なモデルは数百万のパラメータに膨らみ、結果として禁断的なパラメータスケールをもたらす。 本研究は, 解析的および実証的証拠の両面から, 分解が多量のモデルインフレーションを包含する鍵であり, 各種データセットに対して一様に優れ, 頑健な結果が得られることを示した。 興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れており、競合するほとんどの手法よりも99 %以上少ないパラメータを使用する。 本研究は,制限されたパラメータセットのパワーを,ドメインの特性を活かして解き放つことを目的としている。

Long-term time series forecasting (LTSF) represents a critical frontier in time series analysis, characterized by extensive input sequences, as opposed to the shorter spans typical of traditional approaches. While longer sequences inherently offer richer information for enhanced predictive precision, prevailing studies often respond by escalating model complexity. These intricate models can inflate into millions of parameters, resulting in prohibitive parameter scales. Our study demonstrates, through both analytical and empirical evidence, that decomposition is key to containing excessive model inflation while achieving uniformly superior and robust results across various datasets. Remarkably, by tailoring decomposition to the intrinsic dynamics of time series data, our proposed model outperforms existing benchmarks, using over 99 \% fewer parameters than the majority of competing methods. Through this work, we aim to unleash the power of a restricted set of parameters by capitalizing on domain characteristics--a timely reminder that in the realm of LTSF, bigger is not invariably better.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# ワッサーシュタイン確率空間上の連続時間リーマンSGDとSVRG流れ

Continuous-time Riemannian SGD and SVRG Flows on Wasserstein Probabilistic Space ( http://arxiv.org/abs/2401.13530v3 )

ライセンス: Link先を確認
Mingyang Yi, Bohan Wang, (参考訳) 近年、リーマン多様体上の最適化は、最適化コミュニティに新たな洞察を与えている。 この点において、二階ワッサーシュタイン距離を備えた確率測度距離空間として取られる多様体は、実際のサンプリングプロセスと結びつくことができるため、特に興味深い。 一般に、ワッサーシュタイン空間上の標準的な(連続的な)最適化法はリーマン勾配流(すなわち、KL の発散を最小化する際にランゲヴィン力学)である。 本稿では,Wasserstein空間における連続的な最適化手法の強化を目指して,その勾配流を確率勾配勾配勾配(SGD)流と確率分散減少勾配(SVRG)流に拡張する。 ユークリッド空間の2つのフローは標準的な連続確率的方法であり、リーマン的手法は未探索である。 ワッサーシュタイン空間の性質を利用して、ユークリッド空間における所望のリーマン確率法の対応する離散力学を近似するために確率微分方程式(SDE)を構築する。 次に,Fokker-Planck方程式を用いて確率測定フローを求める。 最後に、リーマン確率流の収束速度が証明され、ユークリッド空間の結果と一致する。

Recently, optimization on the Riemannian manifold has provided new insights to the optimization community. In this regard, the manifold taken as the probability measure metric space equipped with the second-order Wasserstein distance is of particular interest, since optimization on it can be linked to practical sampling processes. In general, the standard (continuous) optimization method on Wasserstein space is Riemannian gradient flow (i.e., Langevin dynamics when minimizing KL divergence). In this paper, we aim to enrich the continuous optimization methods in the Wasserstein space, by extending the gradient flow on it into the stochastic gradient descent (SGD) flow and stochastic variance reduction gradient (SVRG) flow. The two flows in Euclidean space are standard continuous stochastic methods, while their Riemannian counterparts are unexplored. By leveraging the property of Wasserstein space, we construct stochastic differential equations (SDEs) to approximate the corresponding discrete dynamics of desired Riemannian stochastic methods in Euclidean space. Then, our probability measures flows are obtained by the Fokker-Planck equation. Finally, the convergence rates of our Riemannian stochastic flows are proven, which match the results in Euclidean space.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# WPDA:ウェーブレットパケット分解による周波数ベースバックドアアタック

WPDA: Frequency-based Backdoor Attack with Wavelet Packet Decomposition ( http://arxiv.org/abs/2401.13578v2 )

ライセンス: Link先を確認
Zhengyao Song, Yongqiang Li, Danni Yuan, Li Liu, Shaokui Wei, Baoyuan Wu, (参考訳) この研究は、ディープニューラルネットワーク(DNN)ベースの画像分類、すなわちバックドア攻撃に対する新たなセキュリティ脅威を探究する。 このシナリオでは、攻撃者は、特定のトリガによってバックドアが活性化されるようにトレーニングデータを操作することで、モデルにバックドアを注入し、推論時にターゲット予測を行う。 現在、既存のデータ中毒ベースの攻撃は、低い毒性比で成功するのに苦労しており、防御方法によって防御されるリスクが増大している。 本稿では、Wavelet Packet Decomposition (WPD)による新しい周波数ベースのバックドアアタックを提案し、WPDは元の画像信号を異なる意味を持つ周波数情報を含む分光器に分解する。 我々は、WPDを利用してデータセットの周波数分布を統計的に分析し、DNNが注目する主要な周波数領域を推測し、トリガー情報は鍵周波数領域にのみ注入する。 本手法は主に3つの部分を含む。 1) スペクトログラムにおける中毒頻度領域の選択 2) 発生を誘導する。 3) 有毒なデータセットの生成。 CIFAR-10の98.12%の攻撃成功率(ASR)により、極端に低い毒性比0.004%(5万の訓練サンプルのうち2つの有毒試料のみ)で証明され、既存の防御手法をバイパスすることができる。 また,本手法がなぜ機能するのかを可視化分析して説明する。

This work explores an emerging security threat against deep neural networks (DNNs) based image classification, i.e., backdoor attack. In this scenario, the attacker aims to inject a backdoor into the model by manipulating training data, such that the backdoor could be activated by a particular trigger and bootstraps the model to make a target prediction at inference. Currently, most existing data poisoning-based attacks struggle to achieve success at low poisoning ratios, increasing the risk of being defended by defense methods. In this paper, we propose a novel frequency-based backdoor attack via Wavelet Packet Decomposition (WPD), WPD decomposes the original image signal to a spectrogram that contains frequency information with different semantic meanings. We leverage WPD to statistically analyze the frequency distribution of the dataset to infer the key frequency regions the DNNs would focus on, and the trigger information is only injected into the key frequency regions. Our method mainly includes three parts: 1) the selection of the poisoning frequency regions in spectrogram; 2) trigger generation; 3) the generation of the poisoned dataset. Our method is stealthy and precise, evidenced by the 98.12% Attack Success Rate (ASR) on CIFAR-10 with the extremely low poisoning ratio 0.004% (i.e., only 2 poisoned samples among 50,000 training samples) and can bypass most existing defense methods. Besides, we also provide visualization analyses to explain why our method works.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# LAA-Net:品質非依存・一般化可能なディープフェイク検出のための局所的アーティファクト注意ネットワーク

LAA-Net: Localized Artifact Attention Network for Quality-Agnostic and Generalizable Deepfake Detection ( http://arxiv.org/abs/2401.13856v2 )

ライセンス: Link先を確認
Dat Nguyen, Nesryne Mejri, Inder Pal Singh, Polina Kuleshova, Marcella Astrid, Anis Kacem, Enjie Ghorbel, Djamila Aouada, (参考訳) 本稿では,LAA-Net(Localized Artifact Attention Network)と呼ばれる高品質なディープフェイク検出手法を提案する。 高品質なディープフェイク検出のための既存の方法は、主に教師付きバイナリ分類器と暗黙の注意機構が組み合わさったものである。 結果として、それらは目に見えない操作に対してうまく一般化しない。 この問題に対処するため、主な貢献は2つある。 まず,マルチタスク学習フレームワークにおける明示的な注意機構を提案する。 ヒートマップと自己整合性アテンション戦略を組み合わせることで、LAA-Netは少数の小さなアーティファクトの脆弱性のある領域に集中せざるを得なくなる。 第2に,識別的低レベル特徴を最終特徴出力に拡散するための簡易かつ効果的なメカニズムとして,冗長性を制限した拡張特徴ピラミッドネットワーク(E-FPN)を提案する。 いくつかのベンチマークで行った実験は、AUC(Area Under the Curve)とAP(Average Precision)の観点から、我々のアプローチの優位性を示している。 コードはhttps://github.com/10Ring/LAA-Netで公開されている。

This paper introduces a novel approach for high-quality deepfake detection called Localized Artifact Attention Network (LAA-Net). Existing methods for high-quality deepfake detection are mainly based on a supervised binary classifier coupled with an implicit attention mechanism. As a result, they do not generalize well to unseen manipulations. To handle this issue, two main contributions are made. First, an explicit attention mechanism within a multi-task learning framework is proposed. By combining heatmap-based and self-consistency attention strategies, LAA-Net is forced to focus on a few small artifact-prone vulnerable regions. Second, an Enhanced Feature Pyramid Network (E-FPN) is proposed as a simple and effective mechanism for spreading discriminative low-level features into the final feature output, with the advantage of limiting redundancy. Experiments performed on several benchmarks show the superiority of our approach in terms of Area Under the Curve (AUC) and Average Precision (AP). The code is available at https://github.com/10Ring/LAA-Net.
翻訳日:2024-05-27 23:26:50 公開日:2024-05-24
# クラウド/エッジアーキテクチャにおける資源配分のための変分量子アルゴリズム

Variational Quantum Algorithms for the Allocation of Resources in a Cloud/Edge Architecture ( http://arxiv.org/abs/2401.14339v2 )

ライセンス: Link先を確認
Carlo Mastroianni, Francesco Plastina, Jacopo Settino, Andrea Vinci, (参考訳) 現代的なクラウド/エッジアーキテクチャでは、広汎なセンサー/アクチュエータ、分散エッジ/フォグノード、集中型データセンタ、量子デバイスなど、異種コンピューティングノードの複数のレイヤをオーケストレーションする必要がある。 異なるノード上での計算の最適割り当てとスケジューリングは非常に難しい問題であり、NP困難である。 本稿では,近い将来,古典的アルゴリズムの代替となる変分量子アルゴリズムを用いてこの問題を解く可能性について検討する。 特に、2つのアルゴリズム、すなわち量子近似最適化アルゴリズム(QAOA)と変分量子固有解器(VQE)の性能を比較した。 シミュレーション実験は、クラウドと2つのエッジノードを含む %CM230124 の単純な問題に対して実施され、VQE アルゴリズムが検索空間を制限できる適切な回路 \textit{ansatzes} を備える場合に、より良い性能を保証することを示す。 さらに、実量子ハードウェア上で実行される実験では、問題のサイズを増大させると、指数関数であることが知られている古典的な計算の傾向よりも、実行時間が遅くなることが示されている。

Modern Cloud/Edge architectures need to orchestrate multiple layers of heterogeneous computing nodes, including pervasive sensors/actuators, distributed Edge/Fog nodes, centralized data centers and quantum devices. The optimal assignment and scheduling of computation on the different nodes is a very difficult problem, with NP-hard complexity. In this paper, we explore the possibility of solving this problem with Variational Quantum Algorithms, which can become a viable alternative to classical algorithms in the near future. In particular, we compare the performances, in terms of success probability, of two algorithms, i.e., Quantum Approximate Optimization Algorithm (QAOA) and Variational Quantum Eigensolver (VQE). The simulation experiments, performed for a set of simple problems, %CM230124 that involve a Cloud and two Edge nodes, show that the VQE algorithm ensures better performances when it is equipped with appropriate circuit \textit{ansatzes} that are able to restrict the search space. Moreover, experiments executed on real quantum hardware show that the execution time, when increasing the size of the problem, grows much more slowly than the trend obtained with classical computation, which is known to be exponential.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成

BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation ( http://arxiv.org/abs/2401.17053v4 )

ライセンス: Link先を確認
Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, Pan Ji, (参考訳) 我々は,3次元シーンを単位ブロックとして生成し,新たなブロックをシームレスに組み込んでシーンを拡張する拡散モデルであるBlockFusionを提案する。 BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。 ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。 三面体を遅延三面体空間に圧縮するために変分オートエンコーダを用いる。 遅延表現に適用された拡散は、高品質で多様な3Dシーン生成を可能にする。 世代を拡大するためには、空のブロックを付加して現在のシーンと重なるようにし、既存の潜伏三葉機を外挿して新しいブロックをポップアップさせるだけでよい。 補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。 潜在三面体外挿は、既存のシーンと調和してブレンドする意味論的および幾何学的に意味のある遷移を生み出す。 シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。 実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。

We present BlockFusion, a diffusion-based model that generates 3D scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. BlockFusion is trained using datasets of 3D blocks that are randomly cropped from complete 3D scene meshes. Through per-block fitting, all training blocks are converted into the hybrid neural fields: with a tri-plane containing the geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the signed distance values. A variational auto-encoder is employed to compress the tri-planes into the latent tri-plane space, on which the denoising diffusion process is performed. Diffusion applied to the latent representations allows for high-quality and diverse 3D scene generation. To expand a scene during generation, one needs only to append empty blocks to overlap with the current scene and extrapolate existing latent tri-planes to populate new blocks. The extrapolation is done by conditioning the generation process with the feature samples from the overlapping tri-planes during the denoising iterations. Latent tri-plane extrapolation produces semantically and geometrically meaningful transitions that harmoniously blend with the existing scene. A 2D layout conditioning mechanism is used to control the placement and arrangement of scene elements. Experimental results indicate that BlockFusion is capable of generating diverse, geometrically consistent and unbounded large 3D scenes with unprecedented high-quality shapes in both indoor and outdoor scenarios.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# フレキシブル・ニューラル・イメージ・圧縮のためのロバストな過剰適合ラテント

Robustly overfitting latents for flexible neural image compression ( http://arxiv.org/abs/2401.17789v2 )

ライセンス: Link先を確認
Yura Perugachi-Diaz, Arwin Gansekoele, Sandjai Bhulai, (参考訳) ニューラル画像圧縮は大きな進歩を遂げた。 State-of-the-artモデルは変分オートエンコーダに基づいており、古典的なモデルよりも優れています。 ニューラル圧縮モデルは、画像をデコーダに効率的に送信できる量子化潜在表現にエンコードすることを学び、量子化潜在表現を再構成された画像にデコードする。 これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。 最近の研究は、確率的ガンベルアニール(SGA)を用いて、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。 SGA上に構築する3つの異なるメソッドを含むSGA+を導入することで、このアイデアを拡張します。 提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。 さらに,提案手法による潜伏剤の精製により,TecnickデータセットとCLICデータセットの圧縮性能が向上することを示す。 提案手法は,事前訓練されたハイパープライアと,より柔軟なモデルのために展開される。 さらに,提案手法の詳細な解析を行い,超パラメータ選択に対する感度が低いことを示す。 最後に、各メソッドを2クラスラウンドではなく3クラスに拡張する方法を示す。

Neural image compression has made a great deal of progress. State-of-the-art models are based on variational autoencoders and are outperforming classical models. Neural compression models learn to encode an image into a quantized latent representation that can be efficiently sent to the decoder, which decodes the quantized latent into a reconstructed image. While these models have proven successful in practice, they lead to sub-optimal results due to imperfect optimization and limitations in the encoder and decoder capacity. Recent work shows how to use stochastic Gumbel annealing (SGA) to refine the latents of pre-trained neural image compression models. We extend this idea by introducing SGA+, which contains three different methods that build upon SGA. We show how our method improves the overall compression performance in terms of the R-D trade-off, compared to its predecessors. Additionally, we show how refinement of the latents with our best-performing method improves the compression performance on both the Tecnick and CLIC dataset. Our method is deployed for a pre-trained hyperprior and for a more flexible model. Further, we give a detailed analysis of our proposed methods and show that they are less sensitive to hyperparameter choices. Finally, we show how each method can be extended to three- instead of two-class rounding.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# シーケンスモデリングのための変圧器の表現力と機構の理解

Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling ( http://arxiv.org/abs/2402.00522v4 )

ライセンス: Link先を確認
Mingze Wang, Weinan E, (参考訳) 本研究では,長い,スパースな,複雑なメモリを持つシーケンスモデリングのためのTransformerの近似特性を体系的に研究する。 本研究では, ドット積自己注意, 位置符号化, フィードフォワード層などのトランスフォーマーの異なる成分が, その表現力に影響を及ぼすメカニズムについて検討し, 明示的な近似速度を確立することによってそれらの組み合わせの効果について検討する。 本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。 これらの理論的洞察は実験的に検証され、代替アーキテクチャに対する自然な提案を提供する。

We conduct a systematic study of the approximation properties of Transformer for sequence modeling with long, sparse and complicated memory. We investigate the mechanisms through which different components of Transformer, such as the dot-product self-attention, positional encoding and feed-forward layer, affect its expressive power, and we study their combined effects through establishing explicit approximation rates. Our study reveals the roles of critical parameters in the Transformer, such as the number of layers and the number of attention heads. These theoretical insights are validated experimentally and offer natural suggestions for alternative architectures.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# StopThePop: ビューに一貫性のあるリアルタイムレンダリングのためのソートされたガウススプレイティング

StopThePop: Sorted Gaussian Splatting for View-Consistent Real-time Rendering ( http://arxiv.org/abs/2402.00525v2 )

ライセンス: Link先を確認
Lukas Radl, Michael Steiner, Mathias Parger, Alexander Weinrauch, Bernhard Kerbl, Markus Steinberger, (参考訳) ガウススプラッティングは、様々な領域にまたがる画像から3D表現を構築するための顕著なモデルとして登場した。 しかし、3Dガウススティングレンダリングパイプラインの効率は、いくつかの単純化に依存している。 特に、単一のビュー空間深さでガウスを2次元スプラットに減らすことで、ビュー回転中のアーティファクトのポップとブレンディングが導入される。 この問題に対処するには、ピクセルごとの深度計算を正確に行う必要があるが、全画素毎のソートは、グローバルソート操作に比べて過大なコストがかかる。 本稿では,処理オーバーヘッドを最小限に抑えたスプラッツを体系的に活用し,カールする新しい階層的ラスタライズ手法を提案する。 我々のソフトウェアラスタライザは,定量測定と定性測定の両方で示されるように,ポップアップアーティファクトや不整合を効果的に排除する。 同時に、本手法は、ポップアップによるビュー依存効果の不正化の可能性を軽減し、より正確な表現を確実にする。 不正行為の排除にも拘わらず,本手法は,動作中の新しいビュー合成の整合性を高めつつ,テスト画像の定量的結果に匹敵する結果が得られる。 設計上、我々の階層的アプローチはガウススプラッティングよりも平均でわずか4%遅い。 特に、一貫性を強制することで、ほぼ同じ品質とビュー一貫性を持つガウスの数を約半分減らすことができる。 その結果、レンダリング性能は2倍近く向上し、我々のアプローチはガウス版よりも1.6倍高速となり、メモリ要求は50%削減された。

Gaussian Splatting has emerged as a prominent model for constructing 3D representations from images across diverse domains. However, the efficiency of the 3D Gaussian Splatting rendering pipeline relies on several simplifications. Notably, reducing Gaussian to 2D splats with a single view-space depth introduces popping and blending artifacts during view rotation. Addressing this issue requires accurate per-pixel depth computation, yet a full per-pixel sort proves excessively costly compared to a global sort operation. In this paper, we present a novel hierarchical rasterization approach that systematically resorts and culls splats with minimal processing overhead. Our software rasterizer effectively eliminates popping artifacts and view inconsistencies, as demonstrated through both quantitative and qualitative measurements. Simultaneously, our method mitigates the potential for cheating view-dependent effects with popping, ensuring a more authentic representation. Despite the elimination of cheating, our approach achieves comparable quantitative results for test images, while increasing the consistency for novel view synthesis in motion. Due to its design, our hierarchical approach is only 4% slower on average than the original Gaussian Splatting. Notably, enforcing consistency enables a reduction in the number of Gaussians by approximately half with nearly identical quality and view-consistency. Consequently, rendering performance is nearly doubled, making our approach 1.6x faster than the original Gaussian Splatting, with a 50% reduction in memory requirements.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 実行可能なコードアクションにより、より良いLLMエージェントが取り除かれる

Executable Code Actions Elicit Better LLM Agents ( http://arxiv.org/abs/2402.01030v3 )

ライセンス: Link先を確認
Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji, (参考訳) 大きな言語モデル(LLM)エージェントは、ツールの呼び出しやロボットの制御など、幅広いアクションを実行することができ、現実世界の課題に取り組む大きな可能性を示している。 LLMエージェントは、通常、事前に定義されたフォーマットでJSONやテキストを生成することでアクションを生成するよう促される。 この研究は、実行可能なPythonコードを使用して、LLMエージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 API-Bank上の17のLLMと、新たにキュレートされたベンチマークの広範な分析は、CodeActが広く使われている代替品(最大20%の成功率)を上回っていることを示している。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。 この目的のために,CodeAct を用いた 7k のマルチターンインタラクションからなる命令チューニングデータセット CodeActInstruct を収集する。 本稿では,エージェント指向タスクのモデルを改善するために,既存のデータと組み合わせることで,汎用性を損なうことなく利用できることを示す。 Llama2とMistralから微調整されたCodeActAgentはPythonインタプリタと統合されており、既存のライブラリを使用して高度なタスク(例えばモデルトレーニング)を実行し、自律的に自己デバッグするように設計されている。

Large Language Model (LLM) agents, capable of performing a broad range of actions, such as invoking tools and controlling robots, show great potential in tackling real-world challenges. LLM agents are typically prompted to produce actions by generating JSON or text in a pre-defined format, which is usually limited by constrained action space (e.g., the scope of pre-defined tools) and restricted flexibility (e.g., inability to compose multiple tools). This work proposes to use executable Python code to consolidate LLM agents' actions into a unified action space (CodeAct). Integrated with a Python interpreter, CodeAct can execute code actions and dynamically revise prior actions or emit new actions upon new observations through multi-turn interactions. Our extensive analysis of 17 LLMs on API-Bank and a newly curated benchmark shows that CodeAct outperforms widely used alternatives (up to 20% higher success rate). The encouraging performance of CodeAct motivates us to build an open-source LLM agent that interacts with environments by executing interpretable code and collaborates with users using natural language. To this end, we collect an instruction-tuning dataset CodeActInstruct that consists of 7k multi-turn interactions using CodeAct. We show that it can be used with existing data to improve models in agent-oriented tasks without compromising their general capability. CodeActAgent, finetuned from Llama2 and Mistral, is integrated with Python interpreter and uniquely tailored to perform sophisticated tasks (e.g., model training) using existing libraries and autonomously self-debug.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 粗粒分子表現の能動学習のための条件正規化フロー

Conditional Normalizing Flows for Active Learning of Coarse-Grained Molecular Representations ( http://arxiv.org/abs/2402.01195v2 )

ライセンス: Link先を確認
Henrik Schopmans, Pascal Friederich, (参考訳) 分子系のボルツマン分布の効率的なサンプリングは長年の課題である。 近年、長い分子動力学シミュレーションを生成する代わりに、サンプルなしでボルツマン分布を直接学習するために、フローの正規化のような生成機械学習手法が用いられている。 しかし、このアプローチはモード崩壊の影響を受けやすいため、完全な構成空間を探索しないことが多い。 本研究では,この問題を細粒度と粗粒度という2つのレベルに分けることで,この問題に対処する。 粗粒度空間上で条件付けられた正規化フローは、2つのレベルの間の確率的接続をもたらす。 構成空間を探索するために,フローを更新し,必要時にのみ全原子ポテンシャルエネルギー評価を行うことのできる,能動学習による粗粒度シミュレーションを用いる。 アラニンジペプチドを例として,現在の最先端機械学習手法の4.5倍の高速化と比較して,分子動力学シミュレーションの約15.9~216.2の高速化が得られることを示す。

Efficient sampling of the Boltzmann distribution of molecular systems is a long-standing challenge. Recently, instead of generating long molecular dynamics simulations, generative machine learning methods such as normalizing flows have been used to learn the Boltzmann distribution directly, without samples. However, this approach is susceptible to mode collapse and thus often does not explore the full configurational space. In this work, we address this challenge by separating the problem into two levels, the fine-grained and coarse-grained degrees of freedom. A normalizing flow conditioned on the coarse-grained space yields a probabilistic connection between the two levels. To explore the configurational space, we employ coarse-grained simulations with active learning which allows us to update the flow and make all-atom potential energy evaluations only when necessary. Using alanine dipeptide as an example, we show that our methods obtain a speedup to molecular dynamics simulations of approximately 15.9 to 216.2 compared to the speedup of 4.5 of the current state-of-the-art machine learning approach.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 関数近似を用いた平均逆MDPに対する2時間的批判アクタ

Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation ( http://arxiv.org/abs/2402.01371v2 )

ライセンス: Link先を確認
Prashansa Panda, Shalabh Bhatnagar, (参考訳) 近年,アクター批判アルゴリズムの非漸近収束解析に焦点をあてた研究が盛んに行われている。 近年,アクターと批評家の時間スケールが逆転し,漸近的な収束のみを示すルックアップテーブルケースにおいて,2段階の批評家・アクターアルゴリズムがコスト設定の割引について提示されている。 本研究では,長期平均報酬設定に関数近似を付加した最初の2時間スケール批評家-アクターアルゴリズムを提案し,そのようなスキームに対する漸近的収束解析とともに,最初の有限時間非漸近的および漸近的収束解析を提示する。 最適学習率を求め,本アルゴリズムが2段階のアクター批評家に対して得られた値より優れている2倍の2乗誤差に対して$\mathcal{\tilde{O}}(\epsilon^{-2.08})$のサンプル複雑性を実現することを証明した。 我々の分析の特筆すべき特徴は、近年のシングルタイムスケールアクター批判アルゴリズムとは異なり、我々のスキームの完全漸近収束解析と、(より遅い)批評家再帰は、摂動平均報酬目的の局所最大値に対応するアクターパラメータと関連する差分包の引き付けに漸近的に収束することを示す有限時間境界に加えて、我々のスキームの完全漸近収束解析を提示することである。 また、3つのベンチマーク設定に関する数値実験の結果を示し、我々の批評家・俳優アルゴリズムが同等に動作し、実際他のアルゴリズムよりも優れていることを観察する。

In recent years, there has been a lot of research activity focused on carrying out non-asymptotic convergence analyses for actor-critic algorithms. Recently a two-timescale critic-actor algorithm has been presented for the discounted cost setting in the look-up table case where the timescales of the actor and the critic are reversed and only asymptotic convergence shown. In our work, we present the first two-timescale critic-actor algorithm with function approximation in the long-run average reward setting and present the first finite-time non-asymptotic as well as asymptotic convergence analysis for such a scheme. We obtain optimal learning rates and prove that our algorithm achieves a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.08})$ for the mean squared error of the critic to be upper bounded by $\epsilon$ which is better than the one obtained for two-timescale actor-critic in a similar setting. A notable feature of our analysis is that unlike recent single-timescale actor-critic algorithms, we present a complete asymptotic convergence analysis of our scheme in addition to the finite-time bounds that we obtain and show that the (slower) critic recursion converges asymptotically to the attractor of an associated differential inclusion with actor parameters corresponding to local maxima of a perturbed average reward objective. We also show the results of numerical experiments on three benchmark settings and observe that our critic-actor algorithm performs on par and is in fact better than the other algorithms considered.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# GITA:ビジョンランゲージグラフ推論のためのビジュアルとテキストの統合

GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning ( http://arxiv.org/abs/2402.02130v4 )

ライセンス: Link先を確認
Yanbin Wei, Shuai Fu, Weisen Jiang, Zejian Zhang, Zhixiong Zeng, Qi Wu, James T. Kwok, Yu Zhang, (参考訳) 大規模言語モデル(LLM)は、グラフ構造を持つ様々なタスクにますます使われています。 LLMは、グラフ情報をテキスト形式で処理できるが、リッチビジョンのモダリティは、人間が構造情報を理解し、一般的なグラフ推論を行うための直感的な方法である。 グラフ構造をビジュアルイメージとして表現する潜在的な利点と能力(例えば$\textit{visual graph}$)はまだ探索されていない。 このギャップを埋めるために、我々は、$\textbf{G}$raph to v$\textbf{I}$sual and $\textbf{T}$extual Integr$\textbf{A}$tion (GITA) と呼ばれるエンドツーエンドのフレームワークを革新的に提案する。 さらに、既存のグラフデータから得られるデータセットである$\textbf{G}$raph-based $\textbf{V}$ision-$\textbf{L}$anguage $\textbf{Q}$uestion $\textbf{A}$nswering (GVLQA)を確立する。 GVLQAデータセットと5つの実世界のデータセットに関する大規模な実験は、GITAが一般的なグラフ推論能力において、メインストリームのLLMよりも優れていることを示している。 さらに、レイアウト拡張が視覚グラフに与える影響とGVLQAデータセットの事前学習を強調した。

Large Language Models (LLMs) are increasingly used for various tasks with graph structures. Though LLMs can process graph information in a textual format, they overlook the rich vision modality, which is an intuitive way for humans to comprehend structural information and conduct general graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., $\textit{visual graph}$) are still unexplored. To fill the gap, we innovatively propose an end-to-end framework, called $\textbf{G}$raph to v$\textbf{I}$sual and $\textbf{T}$extual Integr$\textbf{A}$tion (GITA), which firstly incorporates visual graphs into general graph reasoning. Besides, we establish $\textbf{G}$raph-based $\textbf{V}$ision-$\textbf{L}$anguage $\textbf{Q}$uestion $\textbf{A}$nswering (GVLQA) dataset from existing graph data, which is the first vision-language dataset for general graph reasoning purposes. Extensive experiments on the GVLQA dataset and five real-world datasets show that GITA outperforms mainstream LLMs in terms of general graph reasoning capabilities. Moreover, We highlight the effectiveness of the layout augmentation on visual graphs and pretraining on the GVLQA dataset.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 言語モデルの復号時間再配置

Decoding-time Realignment of Language Models ( http://arxiv.org/abs/2402.02992v2 )

ライセンス: Link先を確認
Tianlin Liu, Shangmin Guo, Leonardo Bianco, Daniele Calandriello, Quentin Berthet, Felipe Llinares, Jessica Hoffmann, Lucas Dixon, Michal Valko, Mathieu Blondel, (参考訳) 言語モデルを人間の好みで調整することは、これらのモデルにおける誤りやバイアスを減らすのに不可欠である。 人間のフィードバックからの強化学習(RLHF)のようなアライメントテクニックは、人間の好みの報酬と、不整合モデルに近づき続けることを促す近接正規化項とのトレードオフを最適化するものとして一般的に用いられる。 適切な正規化のレベルを選択することが重要である: 不十分な正規化は報酬ハックによるモデル能力の低下につながるが、過剰な正規化はアライメントを妨げる。 従来の最適正則化レベルを見つけるには、様々な正則化強度を持つ複数のモデルを再訓練する必要がある。 しかし、このプロセスは特に大規模モデルではリソース集約である。 この課題に対処するため,デコード時適応法 (DeRa) を提案する。 DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。 また、検証データセットを使用して効果的な正規化強度の識別を可能にすることにより、ハイパーパラメータチューニングの効率も向上する。

Aligning language models with human preferences is crucial for reducing errors and biases in these models. Alignment techniques, such as reinforcement learning from human feedback (RLHF), are typically cast as optimizing a tradeoff between human preference rewards and a proximity regularization term that encourages staying close to the unaligned model. Selecting an appropriate level of regularization is critical: insufficient regularization can lead to reduced model capabilities due to reward hacking, whereas excessive regularization hinders alignment. Traditional methods for finding the optimal regularization level require retraining multiple models with varying regularization strengths. This process, however, is resource-intensive, especially for large models. To address this challenge, we propose decoding-time realignment (DeRa), a simple method to explore and evaluate different regularization strengths in aligned models without retraining. DeRa enables control over the degree of alignment, allowing users to smoothly transition between unaligned and aligned models. It also enhances the efficiency of hyperparameter tuning by enabling the identification of effective regularization strengths using a validation dataset.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# コーニック最適化のためのデュアルラグランジアン学習

Dual Lagrangian Learning for Conic Optimization ( http://arxiv.org/abs/2402.03086v2 )

ライセンス: Link先を確認
Mathieu Tanneau, Pascal Van Hentenryck, (参考訳) 本稿では,双対円錐最適化の原理的学習手法であるDual Lagrangian Learning (DLL)を提案する。 DLLは、線形および非線形の円錐最適化問題に対して、高双対で双対実現可能な解を提供するために、円錐双対性とMLモデルの表現力を利用する。 本稿では,ラグランジアン双対性に基づく体系的二重補完手法,微分可能な円錐射影層,および自己教師型学習フレームワークを提案する。 また、円錐問題の幅広いクラスに対する閉形式二重完備式も提供し、コストのかかる暗黙の層の必要性を排除している。 線形および非線形の円錐最適化問題に対してDLLの有効性を示す。 提案手法は、最先端の学習法よりも優れており、平均0.5倍未満の最適ギャップを有する商用インテリアポイントソルバの1000倍の高速化を実現している。

This paper presents Dual Lagrangian Learning (DLL), a principled learning methodology for dual conic optimization proxies. DLL leverages conic duality and the representation power of ML models to provide high-duality, dual-feasible solutions, and therefore valid Lagrangian dual bounds, for linear and nonlinear conic optimization problems. The paper introduces a systematic dual completion procedure, differentiable conic projection layers, and a self-supervised learning framework based on Lagrangian duality. It also provides closed-form dual completion formulae for broad classes of conic problems, which eliminate the need for costly implicit layers. The effectiveness of DLL is demonstrated on linear and nonlinear conic optimization problems. The proposed methodology significantly outperforms a state-of-the-art learning-based method, and achieves 1000x speedups over commercial interior-point solvers with optimality gaps under 0.5\% on average.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 等方性、クラスタ、および分類器

Isotropy, Clusters, and Classifiers ( http://arxiv.org/abs/2402.03191v2 )

ライセンス: Link先を確認
Timothee Mickus, Stig-Arne Grönroos, Joseph Attieh, (参考訳) 埋め込み空間がすべての次元を等しく使用するか、すなわち等方的であるかは、近年議論の対象となっている。 埋め込み空間における等方性の強制と強制の両方の証拠が得られた。 本稿では, 等方性は, クラスターの存在と相容れない埋め込み空間に要求を課し, 線形分類の目的にも悪影響を与えることを強調する。 我々は、この事実を数学的にも経験的にも証明し、文献の以前の結果に光を当てるために使用します。

Whether embedding spaces use all their dimensions equally, i.e., whether they are isotropic, has been a recent subject of discussion. Evidence has been accrued both for and against enforcing isotropy in embedding spaces. In the present paper, we stress that isotropy imposes requirements on the embedding space that are not compatible with the presence of clusters -- which also negatively impacts linear classification objectives. We demonstrate this fact both mathematically and empirically and use it to shed light on previous results from the literature.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-24
# 因子化されたグランガーカウサルグラフを用いたベイズベクトル自己回帰

Bayesian Vector AutoRegression with Factorised Granger-Causal Graphs ( http://arxiv.org/abs/2402.03614v2 )

ライセンス: Link先を確認
He Zhao, Vassili Kitsios, Terence J. O'Kane, Edwin V. Bonilla, (参考訳) 本稿では,観測的多変量時系列データからGranger因果関係を自動的に検出する問題について検討し,ベイズ変種を含むVector autoregressive(VAR)モデルと,より最近のディープニューラルネットワークを用いた開発について検討した。 グランガー因果関係のための既存のVAR法は、スパーシリティ誘導法(英語版)またはポストホック閾値を用いて、それらの係数をグランガー因果グラフ(英語版)として解釈する。 代わりに、二元グランガー因果グラフ上の階層的因果分布をVAR係数から分離した新しいベイズVARモデルを提案する。 我々は,2進グランガー因果グラフの後方推定を効率的に行うアルゴリズムを開発した。 合成・半合成・気候データに関する総合的な実験により、我々の手法はより不確実性を認識し、ハイパーパラメータが小さく、特に観測が少ない低データ体制において、競合するアプローチよりも優れた性能を達成することが示された。

We study the problem of automatically discovering Granger causal relations from observational multivariate time-series data.Vector autoregressive (VAR) models have been time-tested for this problem, including Bayesian variants and more recent developments using deep neural networks. Most existing VAR methods for Granger causality use sparsity-inducing penalties/priors or post-hoc thresholds to interpret their coefficients as Granger causal graphs. Instead, we propose a new Bayesian VAR model with a hierarchical factorised prior distribution over binary Granger causal graphs, separately from the VAR coefficients. We develop an efficient algorithm to infer the posterior over binary Granger causal graphs. Comprehensive experiments on synthetic, semi-synthetic, and climate data show that our method is more uncertainty aware, has less hyperparameters, and achieves better performance than competing approaches, especially in low-data regimes where there are less observations.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# X線超蛍光のエルミート確率法

Hermitian stochastic methodology for X-ray superfluorescence ( http://arxiv.org/abs/2402.04069v4 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, Nina Rohringer, (参考訳) 最近導入されたX線増幅自然放出の力学をモデル化するための理論的枠組みは、他の位相空間サンプリング法と同様に、量子エミッタの密度行列と放射場を確率的にサンプリングすることに基づいている。 第一原理に基づいて価値ある理論的な洞察を与える一方で、元の確率微分方程式は発散性と数値的不安定性を示す。 ここでは、確率成分を摂動的に考慮し、この問題を解決する。 洗練された形式主義は自発放出の特性を正確に再現し、自発放出、増幅自発放出、非線形状態を含む同軸幾何学における集合X線放射の全ての段階を記述するのに普遍的に適用可能である。 数値的な例を通して、1次元近似における超蛍光の重要な特徴を解析する。 重要なことに、基礎となる確率方程式の単一実現は、超蛍光の個々の実験観測として完全に解釈できる。

A recently introduced theoretical framework for modeling the dynamics of X-ray amplified spontaneous emission is based on stochastic sampling of the density matrix of quantum emitters and the radiation field, similarly to other phase-space sampling techniques. While based on first principles and providing valuable theoretical insights, the original stochastic differential equations exhibit divergences and numerical instabilities. Here, we resolve this issue by accounting the stochastic components perturbatively. The refined formalism accurately reproduces the properties of spontaneous emission and proves universally applicable for describing all stages of collective X-ray emission in paraxial geometry, including spontaneous emission, amplified spontaneous emission, and the non-linear regime. Through numerical examples, we analyze key features of superfluorescence in one-dimensional approximation. Importantly, single realizations of the underlying stochastic equations can be fully interpreted as individual experimental observations of superfluorescence.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# スコアベース生成モデルにおけるノイズスケジュールの解析

An analysis of the noise schedule for score-based generative models ( http://arxiv.org/abs/2402.04650v2 )

ライセンス: Link先を確認
Stanislas Strasman, Antonio Ocello, Claire Boyer, Sylvain Le Corff, Vincent Lemaire, (参考訳) スコアベース生成モデル (SGM) は, 目標からのノイズ摂動サンプルのみを用いて, 目標データ分布を学習することにより, 目標データ分布を推定することを目的としている。 データ分布の軽度な仮定の下で、対象と推定分布のKL分散の上限を確立し、時間依存ノイズスケジュールに明示的に依存する。 追加の正則性仮定の下では、基礎となる収縮機構の利点を生かして、ワッサーシュタイン距離が最先端の結果と比較してより厳密な誤差を与える。 牽引性に加えて、この上界は目標分布と訓練中に調整する必要があるSGMハイパーパラメータの性質を共同で組み込む。

Score-based generative models (SGMs) aim at estimating a target data distribution by learning score functions using only noise-perturbed samples from the target.Recent literature has focused extensively on assessing the error between the target and estimated distributions, gauging the generative quality through the Kullback-Leibler (KL) divergence and Wasserstein distances. Under mild assumptions on the data distribution, we establish an upper bound for the KL divergence between the target and the estimated distributions, explicitly depending on any time-dependent noise schedule. Under additional regularity assumptions, taking advantage of favorable underlying contraction mechanisms, we provide a tighter error bound in Wasserstein distance compared to state-of-the-art results. In addition to being tractable, this upper bound jointly incorporates properties of the target distribution and SGM hyperparameters that need to be tuned during training.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# 確率近似勾配による非パラメトリック機器可変回帰

Nonparametric Instrumental Variable Regression through Stochastic Approximate Gradients ( http://arxiv.org/abs/2402.05639v2 )

ライセンス: Link先を確認
Yuri Fonseca, Caio Peixoto, Yuri Saporito, (参考訳) 計測変数(IVs)は、観測不能な共同設立者の存在下で因果関係を識別するための強力な戦略を提供する。 非パラメトリック・セッティング(NPIV)では、最近の手法は2段階の最小二乗の非線形一般化とモーメント条件や双対性から導かれるミニマックスの定式化に基づいている。 そこで本研究では,機能的確率勾配降下アルゴリズムを用いてNPIV回帰に対処し,集団リスクを直接最小化する手法を提案する。 我々は,過大なリスクに対するバウンダリの形で理論的支援を行い,我々の手法の安定性と競争性を示す数値実験を行った。 このアルゴリズムは、ニューラルネットワークやカーネルベースの手法のような柔軟な推定器の選択と、連続的な結果や付加的なノイズの設定を超えた構造方程式に適した非二次的損失関数を可能にする。 最後に,近年のNPIV研究で注目されているバイナリ結果の重要な事例に,どのように対処するかを示すことで,このフレームワークの柔軟性を実証する。

Instrumental variables (IVs) provide a powerful strategy for identifying causal effects in the presence of unobservable confounders. Within the nonparametric setting (NPIV), recent methods have been based on nonlinear generalizations of Two-Stage Least Squares and on minimax formulations derived from moment conditions or duality. In a novel direction, we show how to formulate a functional stochastic gradient descent algorithm to tackle NPIV regression by directly minimizing the populational risk. We provide theoretical support in the form of bounds on the excess risk, and conduct numerical experiments showcasing our method's superior stability and competitive performance relative to current state-of-the-art alternatives. This algorithm enables flexible estimator choices, such as neural networks or kernel based methods, as well as non-quadratic loss functions, which may be suitable for structural equations beyond the setting of continuous outcomes and additive noise. Finally, we demonstrate this flexibility of our framework by presenting how it naturally addresses the important case of binary outcomes, which has received far less attention by recent developments in the NPIV literature.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# InternLM-Math: 検証可能な推論に向けてのオープン数学大言語モデル

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning ( http://arxiv.org/abs/2402.06332v2 )

ライセンス: Link先を確認
Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin, (参考訳) 大規模言語モデルの数学能力は、その抽象的推論能力を表すことができる。 本稿では, InternLM2 の事前学習を継続する LLMs InternLM-Math をオープンソースとして導入する。 我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを統一されたSeq2seqフォーマットで統一し、我々のモデルを汎用数学推論器、検証器、証明器、拡張器として監督する。 これらの能力は次の数学 LLM や自己定位の開発に利用できる。 InternLM-Mathは、GSM8K、MATH、ハンガリー数学試験、MathBench-ZH、MiniF2Fなどの非公式および正式なベンチマークにおいて、コンテキスト内学習、教師付き微調整、コードアシスト推論の設定の下で、オープンソースで最先端のパフォーマンスを得る。 我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。 さらに、LEANを用いて数学の問題を解き、その性能をマルチタスク学習の設定下で研究し、LEANを数学の解法と証明のための統一プラットフォームとして用いる可能性を示す。 我々のモデル、コード、データは \url{https://github.com/InternLM/InternLM-Math} でリリースされます。

The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at \url{https://github.com/InternLM/InternLM-Math}.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# 量子状態の列の曖昧な識別

Unambiguous discrimination of sequences of quantum states ( http://arxiv.org/abs/2402.06365v2 )

ライセンス: Link先を確認
Tathagata Gupta, Shayeef Murshid, Somshubhro Bandyopadhyay, (参考訳) 未知の量子列の状態を誤りなく決定する問題を考察する。 与えられた列の要素は、線形独立な純粋量子状態の既知の集合から、互いに内積がすべて実数で等しくなるという性質で等しくなる。 この問題は、状態が与えられた状態と同じ長さの全ての可能な列のそれに対応する不明瞭な状態判別の例として表すことができる。 半定値プログラムの最適条件を解くことで最適確率を算出する。 シーケンスの個々の部材を測定することで最適な値を得ることができ、集合的な測定は不要である。

We consider the problem of determining the state of an unknown quantum sequence without error. The elements of the given sequence are drawn with equal probability from a known set of linearly independent pure quantum states with the property that their mutual inner products are all real and equal. This problem can be posed as an instance of unambiguous state discrimination where the states correspond to that of all possible sequences having the same length as the given one. We calculate the optimum probability by solving the optimality conditions of a semidefinite program. The optimum value is achievable by measuring individual members of the sequence, and no collective measurement is necessary.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# 2段階強化学習とRLHFのための原則的罰則に基づく法則

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF ( http://arxiv.org/abs/2402.06886v2 )

ライセンス: Link先を確認
Han Shen, Zhuoran Yang, Tianyi Chen, (参考訳) 最近、多くの機械学習タスクにバイレベル最適化が適用されている。 しかし、それらの応用は教師付き学習環境に限定されており、そこでは良性構造を持つ静的目的関数が考慮されている。 しかし、インセンティブ設計、逆強化学習(RL)、人間からのフィードバック(RLHF)といった二段階問題は、しばしば、単純な静的な対象構造を超えた動的対象関数としてモデル化され、既存の二段階解を使用する上で重大な課題が生じる。 この新たな二段階問題に対処するために, ペナルティ定式化のレンズによる二段階RL問題の解法として, 第一原理的アルゴリズムフレームワークを導入する。 本稿では,問題景観とそのペナルティベース(政治)勾配アルゴリズムについて理論的研究を行う。 シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。

Bilevel optimization has been recently applied to many machine learning tasks. However, their applications have been restricted to the supervised learning setting, where static objective functions with benign structures are considered. But bilevel problems such as incentive design, inverse reinforcement learning (RL), and RL from human feedback (RLHF) are often modeled as dynamic objective functions that go beyond the simple static objective structures, which pose significant challenges of using existing bilevel solutions. To tackle this new class of bilevel problems, we introduce the first principled algorithmic framework for solving bilevel RL problems through the lens of penalty formulation. We provide theoretical studies of the problem landscape and its penalty-based (policy) gradient algorithms. We demonstrate the effectiveness of our algorithms via simulations in the Stackelberg Markov game, RL from human feedback and incentive design.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# AIのコーディネート公開 - セキュリティ脆弱性を超えて

Coordinated Disclosure for AI: Beyond Security Vulnerabilities ( http://arxiv.org/abs/2402.07039v2 )

ライセンス: Link先を確認
Sven Cattell, Avijit Ghosh, Lucie-Aimée Kaffee, (参考訳) Harm Report in the field of Artificial Intelligence (AI)は、現在、アルゴリズムの欠陥を開示または対処するための構造化プロセスが欠如しているアドホックベースで運用されている。 対照的に、CVD(Coordinated Vulnerability Disclosure)の倫理とエコシステムは、ソフトウェアセキュリティと透明性において重要な役割を担います。 グローバルには、AI関連の問題に対処する上で、透明性とコラボレーションを促進するフレームワークを確立するための努力が進行中である。 機械学習(ML)モデルにおけるアルゴリズム上の欠陥は、従来のソフトウェア脆弱性と異なる課題を示し、特殊なアプローチを保証している。 このギャップに対処するため、機械学習と人工知能の問題の複雑さに合わせたCFD(Coordinated Flaw Disclosure)フレームワークの実装を提案する。 本稿では,MLにおける情報開示の歴史的背景を考察し,害の報告や参加型監査の出現を包括する。 これらのプラクティスを、サイバーセキュリティの確立した開示規範と組み合わせることで、CFDの広範な採用は、組織とコミュニティの両方の利益を慎重にバランスさせる透明なプロセスを通じて、公衆の信頼を高める可能性がある、と我々は主張する。

Harm reporting in the field of Artificial Intelligence (AI) currently operates on an ad hoc basis, lacking a structured process for disclosing or addressing algorithmic flaws. In contrast, the Coordinated Vulnerability Disclosure (CVD) ethos and ecosystem play a pivotal role in software security and transparency. Globally, there are ongoing efforts to establish frameworks that promote transparency and collaboration in addressing AI-related issues, though challenges persist. Algorithmic flaws in machine learning (ML) models present distinct challenges compared to traditional software vulnerabilities, warranting a specialized approach. To address this gap, we propose the implementation of a dedicated Coordinated Flaw Disclosure (CFD) framework tailored to the intricacies of machine learning and artificial intelligence issues. This paper delves into the historical landscape of disclosures in ML, encompassing the ad hoc reporting of harms and the emergence of participatory auditing. By juxtaposing these practices with the well-established disclosure norms in cybersecurity, we argue that the broader adoption of CFD has the potential to enhance public trust through transparent processes that carefully balance the interests of both organizations and the community.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# VerMCTS: 検証器, 大規模言語モデル, 木探索を用いたマルチステッププログラムの合成

VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search ( http://arxiv.org/abs/2402.08147v2 )

ライセンス: Link先を確認
David Brandfonbrener, Simon Henniger, Sibi Raja, Tarun Prasad, Chloe Loughridge, Federico Cassano, Sabrina Ruixin Hu, Jianang Yang, William E. Byrd, Robert Zinkov, Nada Amin, (参考訳) 大型言語モデル(LLM)は有用なコードを生成することができるが、しばしばそれらが生成するコードは信頼できない。 本稿では,Dafny と Coq で検証プログラムを生成することで,この問題を解決するための VerMCTS を提案する。 VerMCTS は LLM と協調してモンテカルロ木探索 (MCTS) を誘導する論理検証器を使用する。 提案手法では,各ステップで部分的なプログラムをチェックし,値関数上の上限を推定することにより,検証値を利用して探索アルゴリズム内部の中間フィードバックを得る。 VerMCTSの性能を測定するため,Dafny と Coq のマルチステップ検証プログラム問題スイートを開発した。 LLMからサンプリングされたTトークンの予算が与えられたパスレートを計算する新しいメトリックであるpass@Tでは、VerMCTSはベース言語モデルからの繰り返しサンプリングよりも、スイート全体で平均パス@5000が30%以上増加します。 私たちのコードとベンチマークはhttps://github.com/namin/llm-verified-with-monte-carlo-tree-searchで公開されています。

Large Language Models (LLMs) can generate useful code, but often the code they generate cannot be trusted to be sound. In this paper, we present VerMCTS, an approach to begin to resolve this issue by generating verified programs in Dafny and Coq. VerMCTS uses a logical verifier in concert with an LLM to guide a modified Monte Carlo Tree Search (MCTS). This approach leverages the verifier to gain intermediate feedback inside the search algorithm by checking partial programs at each step to estimate an upper bound on the value function. To measure the performance of VerMCTS, we develop a new suite of multi-step verified programming problems in Dafny and Coq. In terms of pass@T, a new metric which computes the pass rate given a budget of T tokens sampled from the LLM, VerMCTS leads to more than a 30% absolute increase in average pass@5000 across the suite over repeated sampling from the base language model. Our code and benchmarks are available at https://github.com/namin/llm-verified-with-monte-carlo-tree-search .
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# 継承者表現の分布的アナローグ

A Distributional Analogue to the Successor Representation ( http://arxiv.org/abs/2402.08530v2 )

ライセンス: Link先を確認
Harley Wiltzer, Jesse Farebrother, Arthur Gretton, Yunhao Tang, André Barreto, Will Dabney, Marc G. Bellemare, Mark Rowland, (参考訳) 本稿では,学習過程における遷移構造と報酬のクリーンな分離を導出する分散強化学習への新たなアプローチを提案する。 後継表現 (SR) が所与の方針に従って行動の期待結果を記述するのに似て、我々の分散後継尺度 (SM) は、この行動の分布結果を記述する。 分布SMを分布上の分布として定式化し、分布およびモデルに基づく強化学習と接続する理論を提供する。 さらに,2レベルの平均誤差を最小化することにより,データから分布SMを学習するアルゴリズムを提案する。 我々の手法の鍵となるのは、状態の生成モデルを学ぶのに独立して有用なアルゴリズム技術である。 分布SMの有用性の図示として,従来は不可能であったゼロショットリスク感応政策評価を可能にすることを示す。

This paper contributes a new approach for distributional reinforcement learning which elucidates a clean separation of transition structure and reward in the learning process. Analogous to how the successor representation (SR) describes the expected consequences of behaving according to a given policy, our distributional successor measure (SM) describes the distributional consequences of this behaviour. We formulate the distributional SM as a distribution over distributions and provide theory connecting it with distributional and model-based reinforcement learning. Moreover, we propose an algorithm that learns the distributional SM from data by minimizing a two-level maximum mean discrepancy. Key to our method are a number of algorithmic techniques that are independently valuable for learning generative models of state. As an illustration of the usefulness of the distributional SM, we show that it enables zero-shot risk-sensitive policy evaluation in a way that was not previously possible.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# ニューラルネットワークにおけるフーリエ回路:数学的推論とモジュラー算術における大規模言語モデルのポテンシャルを解き放つ

Fourier Circuits in Neural Networks: Unlocking the Potential of Large Language Models in Mathematical Reasoning and Modular Arithmetic ( http://arxiv.org/abs/2402.09469v2 )

ライセンス: Link先を確認
Jiuxiang Gu, Chenyang Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Tianyi Zhou, (参考訳) 機械学習の進化の展望では、ニューラルネットワークとトランスフォーマーが利用する内部表現の解読に重要な課題がある。 本研究は,ネットワークがターゲット関数をどう実行するかを理解するための最近の進歩に基づいて,特定の計算戦略を採用するネットワークの背後にある理由を探究する。 我々は、$k$入力を含むモジュラー加算の複雑な代数的学習タスクに焦点をあてる。 本研究は,この課題に対処する一層ニューラルネットワークと一層トランスフォーマーによって学習された特徴を網羅的に分析した。 理論的枠組みの要点は、マージンの最大化原理が1つの隠れ層ニューラルネットワークで採用される特徴をどのように形成するかを解明することである。 p$ は modulus を表し、$D_p$ は $k$ 入力を持つモジュラー演算のデータセットを表し、$m$ はネットワーク幅を表す。 ニューロンの数が$ m \geq 2^{2k-2} \cdot (p-1) $ であることを示し、これらのネットワークはデータセット $ D_p $ 上で最大 L_{2,k+1} $-margin を得る。 さらに、各隠れ層ニューロンは特定のフーリエスペクトルと整合し、モジュラー加算問題を解くのに不可欠であることを示す。 この知見と類似した研究の経験的観察とを関連づけることで,ニューラルネットワークの本質的な計算機構のより深い理解に寄与する。 さらに,1層トランスの注目行列において,同様の計算機構を観察する。 この研究は、特に複素代数的タスクの領域において、それらの演算複雑性を解き放つための重要な一歩である。

In the evolving landscape of machine learning, a pivotal challenge lies in deciphering the internal representations harnessed by neural networks and Transformers. Building on recent progress toward comprehending how networks execute distinct target functions, our study embarks on an exploration of the underlying reasons behind networks adopting specific computational strategies. We direct our focus to the complex algebraic learning task of modular addition involving $k$ inputs. Our research presents a thorough analytical characterization of the features learned by stylized one-hidden layer neural networks and one-layer Transformers in addressing this task. A cornerstone of our theoretical framework is the elucidation of how the principle of margin maximization shapes the features adopted by one-hidden layer neural networks. Let $p$ denote the modulus, $D_p$ denote the dataset of modular arithmetic with $k$ inputs and $m$ denote the network width. We demonstrate that a neuron count of $ m \geq 2^{2k-2} \cdot (p-1) $, these networks attain a maximum $ L_{2,k+1} $-margin on the dataset $ D_p $. Furthermore, we establish that each hidden-layer neuron aligns with a specific Fourier spectrum, integral to solving modular addition problems. By correlating our findings with the empirical observations of similar studies, we contribute to a deeper comprehension of the intrinsic computational mechanisms of neural networks. Furthermore, we observe similar computational mechanisms in the attention matrix of the one-layer Transformer. This research stands as a significant stride in unraveling their operation complexities, particularly in the realm of complex algebraic tasks.
翻訳日:2024-05-27 23:07:01 公開日:2024-05-24
# 一様行動コストを考慮した計算計画について

On Computing Plans with Uniform Action Costs ( http://arxiv.org/abs/2402.09877v3 )

ライセンス: Link先を確認
Alberto Pozanco, Daniel Borrajo, Manuela Veloso, (参考訳) 多くの現実世界の計画アプリケーションでは、エージェントは可能な限り均一なコストで行動する計画を見つけることに興味があるかもしれない。 このような計画はエージェントに安定性と予測可能性を与えるが、これは人間が計画ツールによって提案された計画を実行するエージェントであるときに重要な特徴である。 本稿では,3つの一様性指標を自動計画に適用し,また,行動コストと行動コストの総和を語彙的に最適化する計画ベースのコンパイルを導入する。 良く知られた計画ベンチマークと新しい計画ベンチマークの両方の実験結果は、修正されたタスクを効果的に解決し、一様計画を生成することができることを示している。

In many real-world planning applications, agents might be interested in finding plans whose actions have costs that are as uniform as possible. Such plans provide agents with a sense of stability and predictability, which are key features when humans are the agents executing plans suggested by planning tools. This paper adapts three uniformity metrics to automated planning, and introduce planning-based compilations that allow to lexicographically optimize sum of action costs and action costs uniformity. Experimental results both in well-known and novel planning benchmarks show that the reformulated tasks can be effectively solved in practice to generate uniform plans.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# GES:高効率ラジアンスフィールドレンダリングのための一般化指数平滑化

GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering ( http://arxiv.org/abs/2402.10128v2 )

ライセンス: Link先を確認
Abdullah Hamdi, Luke Melas-Kyriazi, Jinjie Mai, Guocheng Qian, Ruoshi Liu, Carl Vondrick, Bernard Ghanem, Andrea Vedaldi, (参考訳) 3次元ガウススプラッティングの進歩は3次元再構成と生成を著しく加速させた。 しかし、大量のガウスを必要とする可能性があるため、かなりのメモリフットプリントが生成される。 本稿では,GES(Generalized Exponential Splatting)を提案する。GEF(Generalized Exponential Function)を用いて3次元シーンをモデル化し,シーンを表現する粒子をはるかに少なくする。 GESは、原理化された1Dセットアップとリアルな3Dシーンの両方において理論的、実証的に検証される。 シャープエッジを持つ信号がより正確に表現されることが示され、これはガウスの固有の低パス特性のため、一般的には困難である。 我々の経験的分析により、GAFはガウス的信号(例えば正方形、三角形、放物的信号)の適合においてガウス的信号よりも優れており、ガウス的スティングのメモリフットプリントを増大させる広範な分割操作の必要性が軽減されることが示された。 周波数変調損失の助けを借りて、GESはガウススプラッティングの記憶容量の半分未満を必要とせず、レンダリング速度を最大39%向上させながら、新規ビュー合成ベンチマークにおける競合性能を達成する。 コードはプロジェクトのWebサイトhttps://abdullahamdi.com/gesで公開されている。

Advancements in 3D Gaussian Splatting have significantly accelerated 3D reconstruction and generation. However, it may require a large number of Gaussians, which creates a substantial memory footprint. This paper introduces GES (Generalized Exponential Splatting), a novel representation that employs Generalized Exponential Function (GEF) to model 3D scenes, requiring far fewer particles to represent a scene and thus significantly outperforming Gaussian Splatting methods in efficiency with a plug-and-play replacement ability for Gaussian-based utilities. GES is validated theoretically and empirically in both principled 1D setup and realistic 3D scenes. It is shown to represent signals with sharp edges more accurately, which are typically challenging for Gaussians due to their inherent low-pass characteristics. Our empirical analysis demonstrates that GEF outperforms Gaussians in fitting natural-occurring signals (e.g. squares, triangles, and parabolic signals), thereby reducing the need for extensive splitting operations that increase the memory footprint of Gaussian Splatting. With the aid of a frequency-modulated loss, GES achieves competitive performance in novel-view synthesis benchmarks while requiring less than half the memory storage of Gaussian Splatting and increasing the rendering speed by up to 39%. The code is available on the project website https://abdullahamdi.com/ges .
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# Rewards-in-Context:動的優先度調整による基礎モデルの多目的アライメント

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment ( http://arxiv.org/abs/2402.10207v4 )

ライセンス: Link先を確認
Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen, (参考訳) 我々は,人選好による基礎モデルの多目的アライメントの問題を考える。 しかし、一般に、強化学習(RL)を用いた大規模基礎モデルの構築にはコストがかかり不安定であり、多次元性、不均一性、そして人間の嗜好の相反する性質は、アライメントプロセスをさらに複雑にする。 本稿では,リワード・イン・コンテキスト(Rewards-in-Context,RiC)について紹介する。 RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。 抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。 実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around 10% GPU hours compared with multi-objective RL baseline.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# 動的属性グラフを用いた大言語モデルのための制御されたテキスト生成

Controlled Text Generation for Large Language Model with Dynamic Attribute Graphs ( http://arxiv.org/abs/2402.11218v2 )

ライセンス: Link先を確認
Xun Liang, Hanyu Wang, Shichao Song, Mengting Hu, Xunzhi Wang, Zhiyu Li, Feiyu Xiong, Bo Tang, (参考訳) 制御されたテキスト生成(CTG)は、特定の望ましい属性を示すテキストを作成することを目的としている。 本研究では,DATG(Dynamic Attribute Graphs-based Control Text Generation)という,Large Language Models (LLMs) 用のプラグイン可能なCTGフレームワークを提案する。 このフレームワークは属性スコアラを使用して、LLMによって生成された文の属性を評価し、動的属性グラフを構築する。 DATGは、キー属性語とキーアンチ属性語の発生を変調し、モデルの本来の能力を損なうことなく効果的な属性制御を実現する。 我々は4つのデータセットにまたがって、毒性緩和と感情変容という2つのタスクで実験を行い、5つのLCMを基礎モデルとして採用した。 その結果、制御精度が著しく向上し、4つのデータセットで最も好ましいタスクにおいて、ベースラインメソッドよりも19.29%のピーク改善を実現した。 さらに, 難易度が著しく低下し, テキストの流速が著しく向上した。

Controlled Text Generation (CTG) aims to produce texts that exhibit specific desired attributes. In this study, we introduce a pluggable CTG framework for Large Language Models (LLMs) named Dynamic Attribute Graphs-based controlled text generation (DATG). This framework utilizes an attribute scorer to evaluate the attributes of sentences generated by LLMs and constructs dynamic attribute graphs. DATG modulates the occurrence of key attribute words and key anti-attribute words, achieving effective attribute control without compromising the original capabilities of the model. We conduct experiments across four datasets in two tasks: toxicity mitigation and sentiment transformation, employing five LLMs as foundational models. Our findings highlight a remarkable enhancement in control accuracy, achieving a peak improvement of 19.29% over baseline methods in the most favorable task across four datasets. Additionally, we observe a significant decrease in perplexity, markedly improving text fluency.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# リテラル記述を超えて:人間の意図に相応しいオープンワールドオブジェクトの理解と配置

Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions ( http://arxiv.org/abs/2402.11265v2 )

ライセンス: Link先を確認
Wenxuan Wang, Yisi Zhang, Xingjian He, Yichen Yan, Zijia Zhao, Xinlong Wang, Jing Liu, (参考訳) 視覚的接地(VG)は、与えられた自然言語表現にマッチする前景のエンティティを見つけることを目的としている。 従来のVGタスクのデータセットやメソッドは、与えられた表現がターゲットオブジェクトを文字通り参照しなければならないという前提に大きく依存しており、現実のシナリオにおけるエージェントの実践的配置を著しく妨げている。 ユーザは通常,すべての詳細を網羅する代わりに,所望のオブジェクトに対して意図に基づく表現を提供することを好むため,エージェントが意図に基づく指示を解釈する必要がある。 そこで本研究では,意図駆動型視覚言語(V-L)の理解をさらに進める。 人間の意図の解釈に向けて古典的なVGを促進するために,意図駆動型視覚グラウンドディング(IVG)タスクを提案し,インテンションVGと呼ばれる大規模IVGデータセットを自由形式の意図表現で構築する。 基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。 また,IVGタスクを実現するためのベースラインとして,様々なモデルが設定されている。 IntentionVGデータセットとベースラインに関する大規模な実験により,V-Lフィールドにおける本手法の必要性と有効性を示した。 この方向への今後の研究を促進するため、新たに構築したデータセットとベースラインはhttps://github.com/Rubics-Xuan/IVG.comで公開されます。

Visual grounding (VG) aims at locating the foreground entities that match the given natural language expressions. Previous datasets and methods for classic VG task mainly rely on the prior assumption that the given expression must literally refer to the target object, which greatly impedes the practical deployment of agents in real-world scenarios. Since users usually prefer to provide intention-based expression for the desired object instead of covering all the details, it is necessary for the agents to interpret the intention-driven instructions. Thus, in this work, we take a step further to the intention-driven visual-language (V-L) understanding. To promote classic VG towards human intention interpretation, we propose a new intention-driven visual grounding (IVG) task and build a large-scale IVG dataset termed IntentionVG with free-form intention expressions. Considering that practical agents need to move and find specific targets among various scenarios to realize the grounding task, our IVG task and IntentionVG dataset have taken the crucial properties of both multi-scenario perception and egocentric view into consideration. Besides, various types of models are set up as the baselines to realize our IVG task. Extensive experiments on our IntentionVG dataset and baselines demonstrate the necessity and efficacy of our method for the V-L field. To foster future research in this direction, our newly built dataset and baselines will be publicly available at https://github.com/Rubics-Xuan/IVG.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# 離散偏光軸を持つ六方晶窒化ホウ素中の近接コヒーレント量子エミッタ

Near-coherent quantum emitters in hexagonal boron nitride with discrete polarization axes ( http://arxiv.org/abs/2402.11786v2 )

ライセンス: Link先を確認
Jake Horder, Dominic Scognamiglio, Ádám Ganyecz, Viktor Ivády, Mehran Kianinia, Milos Toth, Igor Aharonovich, (参考訳) 六方晶窒化ホウ素(hBN)は近年、固体の量子放出体として注目されている。 しかし、hBNエミッタは、スケーラブルな量子技術への展開に必要な特性を欠いていると報告されている。 ここでは、スペクトルホールバーニング分光法と共鳴偏光測定を用いて、C2v対称性の欠陥を示す3つの離散偏光軸で、単体およびアンサンブルの両方でほぼコヒーレントなhBN量子エミッタを観測する。 この結果は、集積量子フォトニクスにおけるhBN量子エミッタの実装に向けた重要なマイルストーンとなっている。

Hexagonal boron nitride (hBN) has recently gained attention as a solid state host of quantum emitters. However, hBN emitters reported to date lack the properties needed for their deployment in scalable quantum technologies. Here we employ spectral hole burning spectroscopy and resonant polarization measurements to observe nearly-coherent hBN quantum emitters, both as singles and in ensembles, with three discrete polarization axes indicative of a C2v symmetry defect. Our results constitute an important milestone towards the implementation of hBN quantum emitters in integrated quantum photonics.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# PARCv2:時空間ダイナミクスモデリングのための物理対応リカレント畳み込みニューラルネットワーク

PARCv2: Physics-aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics Modeling ( http://arxiv.org/abs/2402.12503v3 )

ライセンス: Link先を確認
Phong C. H. Nguyen, Xinlun Cheng, Shahab Azarfar, Pradeep Seshadri, Yen T. Nguyen, Munho Kim, Sanghun Choi, H. S. Udaykumar, Stephen Baek, (参考訳) 非定常, 高速な過渡的, 対流に支配される物理問題をモデル化することは, 物理認識深層学習(PADL)の課題である。 複素系の物理学は、偏微分方程式(PDE)と非線型構造を持つ補助構成モデルの大きなシステムと、鋭い勾配と急速に変形する材料界面を示す進化状態場によって制御される。 本稿では,一般非線形場進化問題をモデル化するために,多元的かつ一般化可能な帰納的バイアス法について検討する。 本研究は、一般物理系の時空間力学を誘導的にモデル化する微分器積分器アーキテクチャを組み込んだ最近の物理認識再帰畳み込み(PARC)に焦点を当てる。 PARCの能力を拡張して、非定常、過渡、および対流支配のシステムをシミュレートする。 拡張モデルは PARCv2 と呼ばれ、拡散-反応-拡散方程式をモデル化する微分作用素と、安定な長期予測のためのハイブリッド積分解法を備える。 PARCv2は、バーガース方程式とナヴィエ・ストークス方程式という、流体力学の標準的なベンチマーク問題の両方でテストされ、エネルギー材料におけるより複雑な衝撃誘起反応問題に適用される。 我々はPARCv2の挙動を、他の物理インフォームドおよび学習バイアスモデルと比較し、非定常および対流支配的力学系をモデル化する可能性を示した。

Modeling unsteady, fast transient, and advection-dominated physics problems is a pressing challenge for physics-aware deep learning (PADL). The physics of complex systems is governed by large systems of partial differential equations (PDEs) and ancillary constitutive models with nonlinear structures, as well as evolving state fields exhibiting sharp gradients and rapidly deforming material interfaces. Here, we investigate an inductive bias approach that is versatile and generalizable to model generic nonlinear field evolution problems. Our study focuses on the recent physics-aware recurrent convolutions (PARC), which incorporates a differentiator-integrator architecture that inductively models the spatiotemporal dynamics of generic physical systems. We extend the capabilities of PARC to simulate unsteady, transient, and advection-dominant systems. The extended model, referred to as PARCv2, is equipped with differential operators to model advection-reaction-diffusion equations, as well as a hybrid integral solver for stable, long-time predictions. PARCv2 is tested on both standard benchmark problems in fluid dynamics, namely Burgers and Navier-Stokes equations, and then applied to more complex shock-induced reaction problems in energetic materials. We evaluate the behavior of PARCv2 in comparison to other physics-informed and learning bias models and demonstrate its potential to model unsteady and advection-dominant dynamics regimes.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# MuLan: プログレッシブでインタラクティブなマルチオブジェクト拡散のためのマルチモーダルLLMエージェント

MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion ( http://arxiv.org/abs/2402.12741v2 )

ライセンス: Link先を確認
Sen Li, Ruochen Wang, Cho-Jui Hsieh, Minhao Cheng, Tianyi Zhou, (参考訳) 既存のテキスト画像モデルは、特に空間的位置、相対的サイズ、重複、属性バインディングを扱う際に、複数のオブジェクトの画像を生成するのに依然として苦労している。 これらの課題を効果的に解決するために、我々は、複雑な計画とフィードバック制御を伴って、段階的に多目的を生成できる訓練不要なマルチモーダルLLMエージェント(MuLan)を開発した。 MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。 既存のLLM法とは異なり、MuLanは最初は高レベルプランしか作成せず、各サブタスクにおける各オブジェクトの正確なサイズと位置はLLMとアテンションガイダンスによって決定される。 さらに、MuLanは視覚言語モデル(VLM)を採用し、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。 したがって、 MuLan の各ステップにおける各モデルは、それが専門とする簡単なサブタスクにのみ対処する必要がある。 このマルチステッププロセスにより、ユーザは生成プロセスを監視し、テキストプロンプトを通じて任意の中間ステップで望ましい変更を行うことができ、それによって人間とAIのコラボレーションエクスペリエンスが向上する。 空間的関係を持つ多対象を含む200個のプロンプトと、異なるベンチマークから属性バインディングを収集し、MuLanを評価する。 その結果,Mulanはベースライン上で複数のオブジェクトを生成するのに優れており,その創造性は人間ユーザとのコラボレーションの際の優位性を示している。 コードはhttps://github.com/measure-infinity/mulan-codeで公開されている。

Existing text-to-image models still struggle to generate images of multiple objects, especially in handling their spatial positions, relative sizes, overlapping, and attribute bindings. To efficiently address these challenges, we develop a training-free Multimodal-LLM agent (MuLan), as a human painter, that can progressively generate multi-object with intricate planning and feedback control. MuLan harnesses a large language model (LLM) to decompose a prompt to a sequence of sub-tasks, each generating only one object by stable diffusion, conditioned on previously generated objects. Unlike existing LLM-grounded methods, MuLan only produces a high-level plan at the beginning while the exact size and location of each object are determined upon each sub-task by an LLM and attention guidance. Moreover, MuLan adopts a vision-language model (VLM) to provide feedback to the image generated in each sub-task and control the diffusion model to re-generate the image if it violates the original prompt. Hence, each model in every step of MuLan only needs to address an easy sub-task it is specialized for. The multi-step process also allows human users to monitor the generation process and make preferred changes at any intermediate step via text prompts, thereby improving the human-AI collaboration experience. We collect 200 prompts containing multi-objects with spatial relationships and attribute bindings from different benchmarks to evaluate MuLan. The results demonstrate the superiority of MuLan in generating multiple objects over baselines and its creativity when collaborating with human users. The code is available at https://github.com/measure-infinity/mulan-code.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# RealCompo: テキストと画像の拡散モデルを改善する現実性と構成性のバランス

RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models ( http://arxiv.org/abs/2402.12908v2 )

ライセンス: Link先を確認
Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Kai-Ni Wang, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui, (参考訳) 拡散モデルはテキスト・画像生成において顕著な進歩を遂げた。 しかし、既存のモデルでは、複数オブジェクトの合成生成に直面する場合、多くの困難がある。 本稿では,テキスト・ツー・イメージ・モデルと空間認識画像拡散モデル(例えば,レイアウト,キーポイント,セグメンテーションマップ)のそれぞれの利点を活用して,生成した画像のリアリズムと構成性を両立することを目的とした,トレーニングフリーで移動しやすい新しいテキスト・ツー・イメージ生成フレームワークであるRealCompoを提案する。 直感的で斬新なバランサが提案され、デノナイズプロセスにおいて2つのモデルの強度を動的にバランスさせ、任意のモデルのプラグアンドプレイを余分な訓練なしで使用できるようにする。 広汎な実験により、RealCompoは、生成した画像の良好なリアリズムと合成性を保ちながら、最先端のテキスト画像モデルと空間認識画像拡散モデルを多目的合成生成で一貫して上回っていることが示された。 特に、RealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。 私たちのコードは、https://github.com/YangLing0818/RealCompoで利用可能です。

Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose RealCompo, a new training-free and transferred-friendly text-to-image generation framework, which aims to leverage the respective advantages of text-to-image models and spatial-aware image diffusion models (e.g., layout, keypoints and segmentation maps) to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and spatial-aware image diffusion models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Notably, our RealCompo can be seamlessly extended with a wide range of spatial-aware image diffusion models and stylized diffusion models. Our code is available at: https://github.com/YangLing0818/RealCompo
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# TransfORmersに向けて: トランスフォーマーによる混合整数プログラムの解法革新

Toward TransfORmers: Revolutionizing the Solution of Mixed Integer Programs with Transformers ( http://arxiv.org/abs/2402.13380v3 )

ライセンス: Link先を確認
Joshua F. Cooper, Seung Jin Choi, I. Esra Buyuktahtakin, (参考訳) 本研究では,混合整数プログラムの課題に対処するため,トランスフォーマーモデルを用いた革新的なディープラーニングフレームワークを提案する。 我々の知る限り、我々のアプローチは、トランスフォーマーを用いて混合整数プログラミング(MIP)問題のバイナリ変数を予測する最初の方法である。 具体的には、エンコーダデコーダ変換器のシーケンシャルデータ処理能力を活用し、CLSPの各期間における生産設定決定を示すバイナリ変数の予測に適している。 この問題は本質的に動的であり、制約の下でシーケンシャルな意思決定を扱う必要がある。 本稿では,変圧器ニューラルネットワークを用いてCLSPソリューションを学習する効率的なアルゴリズムを提案する。 提案した後処理トランスフォーマーアルゴリズムは、テストされた240KベンチマークCLSPインスタンスに対して、ソリューション時間、最適ギャップ、パーセントの効率で、最先端の解決器であるCPLEXとLong Short-Term Memory(LSTM)を超越する。 MLモデルをトレーニングした後、モデル上で推論を行い、MIPを線形プログラム(LP)に還元する。 これにより、MLベースのアルゴリズムをLPソルバと組み合わせて多項式時間近似アルゴリズムに変換し、よく知られたNP-Hard問題をほぼ完全な解品質で解く。

In this study, we introduce an innovative deep learning framework that employs a transformer model to address the challenges of mixed-integer programs, specifically focusing on the Capacitated Lot Sizing Problem (CLSP). Our approach, to our knowledge, is the first to utilize transformers to predict the binary variables of a mixed-integer programming (MIP) problem. Specifically, our approach harnesses the encoder decoder transformer's ability to process sequential data, making it well-suited for predicting binary variables indicating production setup decisions in each period of the CLSP. This problem is inherently dynamic, and we need to handle sequential decision making under constraints. We present an efficient algorithm in which CLSP solutions are learned through a transformer neural network. The proposed post-processed transformer algorithm surpasses the state-of-the-art solver, CPLEX and Long Short-Term Memory (LSTM) in solution time, optimal gap, and percent infeasibility over 240K benchmark CLSP instances tested. After the ML model is trained, conducting inference on the model, reduces the MIP into a linear program (LP). This transforms the ML-based algorithm, combined with an LP solver, into a polynomial-time approximation algorithm to solve a well-known NP-Hard problem, with almost perfect solution quality.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# EasyRL4Rec: 強化学習に基づくレコメンダシステムのための使いやすいライブラリ

EasyRL4Rec: An Easy-to-use Library for Reinforcement Learning Based Recommender Systems ( http://arxiv.org/abs/2402.15164v3 )

ライセンス: Link先を確認
Yuanqing Yu, Chongming Gao, Jiawei Chen, Heng Tang, Yuefeng Sun, Qian Chen, Weizhi Ma, Min Zhang, (参考訳) 強化学習(RL)に基づくレコメンダシステム(RS)は,長期的ユーザエンゲージメントを高める可能性に対して注目を集めている。 しかし、この分野での研究は、ユーザフレンドリーなフレームワークの欠如、一貫性のない評価指標、既存研究の再現の難しさなど、課題に直面している。 これらの問題に対処するために、我々は、RLベースのRS用に特別に設計された使いやすいコードライブラリであるEasyRL4Recを紹介した。 このライブラリは5つの公開データセットに基づいて軽量で多様なRL環境を提供し、リッチなオプションを備えたコアモジュールを含み、モデル開発を簡素化する。 長期的な成果に焦点を当てた統一された評価標準を提供し、状態モデリングのための調整された設計とレコメンデーションシナリオのためのアクション表現を提供する。 さらに,現在の手法による洞察力のある実験から得られた知見についても紹介する。 EasyRL4Recは、RLベースのRSのドメインにおけるモデル開発と実験プロセスの促進を目指している。 図書館は一般公開されている。

Reinforcement Learning (RL)-Based Recommender Systems (RSs) have gained rising attention for their potential to enhance long-term user engagement. However, research in this field faces challenges, including the lack of user-friendly frameworks, inconsistent evaluation metrics, and difficulties in reproducing existing studies. To tackle these issues, we introduce EasyRL4Rec, an easy-to-use code library designed specifically for RL-based RSs. This library provides lightweight and diverse RL environments based on five public datasets and includes core modules with rich options, simplifying model development. It provides unified evaluation standards focusing on long-term outcomes and offers tailored designs for state modeling and action representation for recommendation scenarios. Furthermore, we share our findings from insightful experiments with current methods. EasyRL4Rec seeks to facilitate the model development and experimental process in the domain of RL-based RSs. The library is available for public use.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# DeepLight:マルチモードリモートセンシングデータによる夜間光の高分解能観測の再構築

DeepLight: Reconstructing High-Resolution Observations of Nighttime Light With Multi-Modal Remote Sensing Data ( http://arxiv.org/abs/2402.15659v3 )

ライセンス: Link先を確認
Lixian Zhang, Runmin Dong, Shuai Yuan, Jinxiao Zhang, Mengxuan Chen, Juepeng Zheng, Haohuan Fu, (参考訳) 夜間光(NTL)リモートセンシング観測は、貧困評価、都市持続可能な開発、炭素排出量といった一連の持続可能な開発目標(SDG)の達成に向けた進捗を定量的に評価するためのユニークなプロキシとして機能する。 しかし、既存のNTL観測はしばしば広範に劣化と矛盾に悩まされ、SDGによって定義された指標の計算に有効性を制限する。 本研究では,マルチモーダルリモートセンシングデータを用いた高解像度NTL画像の再構成手法を提案する。 この研究を支援するために,5つの異種センサのデータからなる包括的データセットであるDeepLightMDを紹介した。 さらに,多モード超解像における空間的不均一なモダリティデータ間の橋梁のキャリブレーションを考慮したDeepLightSRを提案する。 DeepLightSRは、キャリブレーションを意識したアライメント、補助-主モード融合、空間的不均一性に効果的に対処するための補助組込み改良、多種多様な代表的特徴の融合、および8-times$ Super- resolution (SR)タスクのパフォーマンス向上を統合している。 大規模な実験は、PSNR (2.01 dB $ \sim $ 13.25 dB) と PIQE (0.49 $ \sim $ 9.32) の改善によって証明されたように、8つの競合する手法よりもDeepLightSRの方が優れていることを示している。 本研究は,高分解能NTLデータの再構成において,提案するデータセットとモデルの実用的意義を強調し,SDGの進行を効率的に定量的に評価する。

Nighttime light (NTL) remote sensing observation serves as a unique proxy for quantitatively assessing progress toward meeting a series of Sustainable Development Goals (SDGs), such as poverty estimation, urban sustainable development, and carbon emission. However, existing NTL observations often suffer from pervasive degradation and inconsistency, limiting their utility for computing the indicators defined by the SDGs. In this study, we propose a novel approach to reconstruct high-resolution NTL images using multi-modal remote sensing data. To support this research endeavor, we introduce DeepLightMD, a comprehensive dataset comprising data from five heterogeneous sensors, offering fine spatial resolution and rich spectral information at a national scale. Additionally, we present DeepLightSR, a calibration-aware method for building bridges between spatially heterogeneous modality data in the multi-modality super-resolution. DeepLightSR integrates calibration-aware alignment, an auxiliary-to-main multi-modality fusion, and an auxiliary-embedded refinement to effectively address spatial heterogeneity, fuse diversely representative features, and enhance performance in $8\times$ super-resolution (SR) tasks. Extensive experiments demonstrate the superiority of DeepLightSR over 8 competing methods, as evidenced by improvements in PSNR (2.01 dB $ \sim $ 13.25 dB) and PIQE (0.49 $ \sim $ 9.32). Our findings underscore the practical significance of our proposed dataset and model in reconstructing high-resolution NTL data, supporting efficiently and quantitatively assessing the SDG progress.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# chainBoost: ブロックチェーンベースのリソース市場のためのセキュアなパフォーマンス向上ツール

chainBoost: A Secure Performance Booster for Blockchain-based Resource Markets ( http://arxiv.org/abs/2402.16095v2 )

ライセンス: Link先を確認
Zahra Motaqy, Mohamed E. Najd, Ghada Almashaqbeh, (参考訳) 暗号通貨とブロックチェーン技術は、デジタルサービスを再構築するための革新的なモデルを提供する。 Web 3.0への移行によって、最近のシステムは、通貨交換媒体の上に計算アウトソーシングやファイルストレージなどの分散サービスを提供し始めた。 誰でも参加して、他人に仕える暗号通貨の支払いを収集できるようにすることで、これらのシステムはデジタルリソースを取引するための分散市場を創出する。 しかし、これらの市場の約束と実用性の間にはまだ大きなギャップがある。 既存のイニシアチブはまだ初期段階にあり、すでにセキュリティと効率の障害に直面している。 同時に、有望なアイデア、特にサイドチェーンに関する既存の作業は、これらの問題に対処する潜在能力の活用に不足しています。 このギャップを埋めるため、分散リソース市場のための安全なパフォーマンス向上剤である chainBoost を提案する。 サービス関連の操作を高速化し、ブロックチェーンサイズを削減し、低オーバーヘッドでフレキシブルなサービス支払い交換モダリティをサポートする。 chainBoostの中核はサイドチェーンで、メインチェーンとの(セキュリティとセマンティック)相互依存性を持ち、システムが重/頻繁な操作をオフロードする。 これを実現するために、一時的かつ永続的なブロックからなる新しいサイドチェーンアーキテクチャ、サイドチェーンをプルークするブロック抑制機構、両チェーン間の任意のデータ交換を許可する同期プロトコル、堅牢性とレジリエンスをサポートする自己回復プロトコルを開発する。 chainBoostのセキュリティを分析し、分散ファイルストレージ市場のための概念実証プロトタイプをユースケースとして実装する。 ラウンド当たり2000トランザクションの市場処理では,スループットが最大11倍,確認時間が94倍に向上した。 chainBoostがメインのブロックチェーンサイズを約90%削減できることも示している。

Cryptocurrencies and blockchain technology provide an innovative model for reshaping digital services. Driven by the movement toward Web 3.0, recent systems started to provide distributed services, such as computation outsourcing or file storage, on top of the currency exchange medium. By allowing anyone to join and collect cryptocurrency payments for serving others, these systems create decentralized markets for trading digital resources. Yet, there is still a big gap between the promise of these markets and their practical viability. Existing initiatives are still early-stage and have already encountered security and efficiency obstacles. At the same time, existing work around promising ideas, specifically sidechains, fall short in exploiting their full potential in addressing these problems. To bridge this gap, we propose chainBoost, a secure performance booster for decentralized resource markets. It expedites service related operations, reduces the blockchain size, and supports flexible service-payment exchange modalities at low overhead. At its core, chainBoost employs a sidechain, that has a (security and semantic) mutual-dependence with the mainchain, to which the system offloads heavy/frequent operations. To enable it, we develop a novel sidechain architecture composed of temporary and permanent blocks, a block suppression mechanism to prune the sidechain, a syncing protocol to permit arbitrary data exchange between the two chains, and an autorecovery protocol to support robustness and resilience. We analyze the security of chainBoost, and implement a proof-of-concept prototype for a distributed file storage market as a use case. For a market handling around 2000 transactions per round, our experiments show up to 11x improvement in throughput and 94\% reduction in confirmation time. They also show that chainBoost can reduce the main blockchain size by around 90%.
翻訳日:2024-05-27 21:06:23 公開日:2024-05-24
# インフォームドメタラーニング

Informed Meta-Learning ( http://arxiv.org/abs/2402.16105v3 )

ライセンス: Link先を確認
Katarzyna Kobalczyk, Mihaela van der Schaar, (参考訳) 現実のアプリケーションで一般的なノイズや低データのレシエーションでは、機械学習の重要な課題は、データ効率と堅牢性を促進する帰納的バイアスを効果的に取り入れることである。 メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。 前者は純粋にデータ駆動の事前のソースに依存しているが、後者は事前のドメイン知識によってガイドされる。 本稿では,自然言語などの非構造化知識表現から事前知識の取り込みを容易にし,人間と機械のクロスタスク知識共有における相補性を解放する,ハイブリッドパラダイムを定式化する。 我々は,情報メタ学習の基礎的構成要素を確立し,この枠組みの具体的インスタンス化、すなわちインフォームド・ニューラル・プロセスを示す。 一連の実験を通じて,データ効率の向上,観測ノイズに対する堅牢性,タスク分散シフトに対する情報メタラーニングのメリットを実証した。

In noisy and low-data regimes prevalent in real-world applications, a key challenge of machine learning lies in effectively incorporating inductive biases that promote data efficiency and robustness. Meta-learning and informed ML stand out as two approaches for incorporating prior knowledge into ML pipelines. While the former relies on a purely data-driven source of priors, the latter is guided by prior domain knowledge. In this paper, we formalise a hybrid paradigm, informed meta-learning, facilitating the incorporation of priors from unstructured knowledge representations, such as natural language; thus, unlocking complementarity in cross-task knowledge sharing of humans and machines. We establish the foundational components of informed meta-learning and present a concrete instantiation of this framework--the Informed Neural Process. Through a series of experiments, we demonstrate the potential benefits of informed meta-learning in improving data efficiency, robustness to observational noise and task distribution shifts.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# コードコメントデータ生成と分類のためのLLM駆動のシンボリックアプローチ

NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification ( http://arxiv.org/abs/2402.16910v2 )

ライセンス: Link先を確認
Hanna Abi Akl, (参考訳) 我々は,C言語におけるコードコメント分類のための合成データを生成するために,記号ベース学習技術と大言語モデル(LLM)エージェントを組み合わせたニューラルシンボリック(NeSy)ワークフローを提案する。 また、このワークフローを用いて制御された合成データを生成することにより、LLM生成の顕著な弱点が修正され、コードコメント分類タスクにおける古典的な機械学習モデルの性能が向上することを示す。 我々の最良のモデルであるニューラルネットワークは、データ拡張後の1.033%の増加でマクロF1スコアが91.412%に達する。

We present a neuro-symbolic (NeSy) workflow combining a symbolic-based learning technique with a large language model (LLM) agent to generate synthetic data for code comment classification in the C programming language. We also show how generating controlled synthetic data using this workflow fixes some of the notable weaknesses of LLM-based generation and increases the performance of classical machine learning models on the code comment classification task. Our best model, a Neural Network, achieves a Macro-F1 score of 91.412% with an increase of 1.033% after data augmentation.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# DS-Agent:ケースベース推論による大規模言語モデルを活用したデータサイエンスの自動化

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning ( http://arxiv.org/abs/2402.17453v4 )

ライセンス: Link先を確認
Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang, (参考訳) 本研究では,大規模言語モデル(LLM)をベースとしたエージェントが,タスク要求を理解し,最適な機械学習モデルを構築し,訓練することを目的として,データサイエンスタスクを自動化する可能性について検討する。 その成功にもかかわらず、既存のLLMエージェントは、このシナリオ内で不合理な実験計画を発生させることで妨げられている。 この目的のために, LLMエージェントとケースベース推論(CBR)を利用した新しい自動フレームワークDS-Agentを提案する。 開発段階では、DS-AgentはCBRフレームワークに従って自動イテレーションパイプラインを構築し、Kaggleから専門家の知識を柔軟に活用し、フィードバックメカニズムを通じて一貫したパフォーマンス改善を促進する。 さらにDS-Agentは、開発段階で成功したソリューションを直接コード生成に適応させるため、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装しており、LCMの基本能力に対する需要を著しく減らしている。 GPT-4を用いたDS-Agentは、開発段階では100倍の成功率を達成すると同時に、デプロイ段階では、代替LLMの平均1パスレートを36倍改善する。 どちらの段階でもDS-AgentはGPT-4で1ラン当たり1.60ドルと0.13ドルという最高の成績を収めている。 我々のデータとコードはhttps://github.com/guosyjlu/DS-Agent.comでオープンソース化されています。

In this work, we investigate the potential of large language models (LLMs) based agents to automate data science tasks, with the goal of comprehending task requirements, then building and training the best-fit machine learning models. Despite their widespread success, existing LLM agents are hindered by generating unreasonable experiment plans within this scenario. To this end, we present DS-Agent, a novel automatic framework that harnesses LLM agent and case-based reasoning (CBR). In the development stage, DS-Agent follows the CBR framework to structure an automatic iteration pipeline, which can flexibly capitalize on the expert knowledge from Kaggle, and facilitate consistent performance improvement through the feedback mechanism. Moreover, DS-Agent implements a low-resource deployment stage with a simplified CBR paradigm to adapt past successful solutions from the development stage for direct code generation, significantly reducing the demand on foundational capabilities of LLMs. Empirically, DS-Agent with GPT-4 achieves 100\% success rate in the development stage, while attaining 36\% improvement on average one pass rate across alternative LLMs in the deployment stage. In both stages, DS-Agent achieves the best rank in performance, costing \$1.60 and \$0.13 per run with GPT-4, respectively. Our data and code are open-sourced at https://github.com/guosyjlu/DS-Agent.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# STC-ViT:気象予報用時空間連続視変換器

STC-ViT: Spatio Temporal Continuous Vision Transformer for Weather Forecasting ( http://arxiv.org/abs/2402.17966v2 )

ライセンス: Link先を確認
Hira Saleem, Flora Salim, Cormac Purcell, (参考訳) 運用上の天気予報システムは計算コストの高い物理モデルに依存している。 近年, 変圧器を用いたモデルでは, 気象予報による最先端の結果が得られている。 しかし、変圧器は、動的気象系の時空間的連続的な特徴を学習する能力を制限する離散モデルである。 天気予報のための時空間連続視変換器であるSTC-ViTを用いてこの問題に対処する。 STC-ViTは、連続した天気変化を時間とともに学習するために、マルチヘッドアテンション機構を備えた連続時間ニューラルODE層を組み込んでいる。 注意機構は、複雑な気象力学をモデル化するトランスフォーマーアーキテクチャにおける微分可能な関数として符号化される。 我々は,STC-ViTを,操作型数値気象予測(NWP)モデルと深層学習に基づく天気予報モデルと比較した。 STC-ViTは、低解像度のデータと少ない計算能力でしか訓練されていないが、グローバルな予測において、現在のデータ駆動方式と競合して動作する。

Operational weather forecasting system relies on computationally expensive physics-based models. Recently, transformer based models have shown remarkable potential in weather forecasting achieving state-of-the-art results. However, transformers are discrete models which limit their ability to learn the continuous spatio-temporal features of the dynamical weather system. We address this issue with STC-ViT, a Spatio-Temporal Continuous Vision Transformer for weather forecasting. STC-ViT incorporates the continuous time Neural ODE layers with multi-head attention mechanism to learn the continuous weather evolution over time. The attention mechanism is encoded as a differentiable function in the transformer architecture to model the complex weather dynamics. We evaluate STC-ViT against a operational Numerical Weather Prediction (NWP) model and several deep learning based weather forecasting models. STC-ViT performs competitively with current data-driven methods in global forecasting while only being trained at lower resolution data and with less compute power.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# DecisionNCE: インプシット推論学習による身体的マルチモーダル表現

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning ( http://arxiv.org/abs/2402.18137v2 )

ライセンス: Link先を確認
Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan, (参考訳) マルチモーダル事前学習は、自律ロボットにおける表現学習の目標のトリニティのための効果的な戦略である。 1) 局地的及びグローバルな業務の進展を抽出すること。 2) 視覚表現の時間的一貫性を強制すること。 3) 軌跡レベル言語接頭辞の取得。 既存のほとんどの手法は、しばしば準最適解に到達する別々の目的によってこれらにアプローチする。 本稿では,イメージシーケンスから意味のあるタスクの進行情報を同時に抽出し,それらを言語命令とシームレスに整合させる汎用的な統合目的を提案する。 暗黙の選好により、視覚的軌跡が、不一致ペアよりも本質的に対応する言語命令と整合している場合、人気のBradley-Terryモデルは、適切な報酬パラメータ化によって表現学習に変換できる。 結果として得られたフレームワークであるDecisionNCEはInfoNCEスタイルの目的を反映するが、決定タスクに特化して調整されており、局所的およびグローバルなタスクの進行特徴をエレガントに抽出し、暗黙の時間的コントラスト学習によって時間的一貫性を強制し、マルチモーダルな関節符号化による軌道レベルの命令グラウンドを確実にする、具体化された表現学習フレームワークを提供する。 シミュレーションロボットと実物ロボットの両方の評価は、DecisionNCEが様々な下流政策学習タスクを効果的に促進し、統一表現と報酬学習のための汎用的なソリューションを提供することを示す。 Project Page: https://2toinf.github.io/DecisionNCE/

Multimodal pretraining is an effective strategy for the trinity of goals of representation learning in autonomous robots: 1) extracting both local and global task progressions; 2) enforcing temporal consistency of visual representation; 3) capturing trajectory-level language grounding. Most existing methods approach these via separate objectives, which often reach sub-optimal solutions. In this paper, we propose a universal unified objective that can simultaneously extract meaningful task progression information from image sequences and seamlessly align them with language instructions. We discover that via implicit preferences, where a visual trajectory inherently aligns better with its corresponding language instruction than mismatched pairs, the popular Bradley-Terry model can transform into representation learning through proper reward reparameterizations. The resulted framework, DecisionNCE, mirrors an InfoNCE-style objective but is distinctively tailored for decision-making tasks, providing an embodied representation learning framework that elegantly extracts both local and global task progression features, with temporal consistency enforced through implicit time contrastive learning, while ensuring trajectory-level instruction grounding via multimodal joint encoding. Evaluation on both simulated and real robots demonstrates that DecisionNCE effectively facilitates diverse downstream policy learning tasks, offering a versatile solution for unified representation and reward learning. Project Page: https://2toinf.github.io/DecisionNCE/
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# ニューラルアクティベーション事前を用いたアウト・オブ・ディストリビューション検出

Out-of-Distribution Detection using Neural Activation Prior ( http://arxiv.org/abs/2402.18162v4 )

ライセンス: Link先を確認
Weilin Wan, Weizhong Zhang, Quan Zhou, Fan Yi, Cheng Jin, (参考訳) アウト・オブ・ディストリビューション検出(OOD)は、目に見えないシナリオを扱うために、現実世界に機械学習モデルをデプロイするための重要なテクニックである。 本稿では,OOD検出のためのシンプルで効果的なニューラルアクティベーションプリミティブ(NAP)を提案する。 我々の神経活性化は、十分に訓練されたニューラルネットワークのグローバルプール層の前のチャネルにおいて、分布内(ID)サンプルによって大きな応答で活性化される少数のニューロンの確率がOODサンプルよりも著しく高いという重要な観察に基づいている。 直感的な説明として、IDデータセットで完全に訓練されたモデルでは、各チャネルがIDデータセット内の特定のパターンを検出する役割を担い、入力サンプルでパターンを検出すると、少数のニューロンが大きな応答で活性化される。 次に、これらの強力な活性化ニューロンのOOD検出における役割を明らかにするために、この前報に基づく新たなスコアリング関数を提案する。 当社のアプローチはプラグアンドプレイであり、IDデータ分類のパフォーマンス低下には至らず、トレーニングや外部データセットによる追加のトレーニングや統計処理は必要ありません。 従来の手法は主にニューラルネットワークのポストグローバルプール機能に依存していたが、私たちが利用するチャネル内分布情報はグローバルプール演算子によって破棄される。 その結果,本手法は既存のアプローチと直交しており,様々なアプリケーションで効果的に組み合わせることができる。 実験の結果,提案手法はCIFARベンチマークとImageNetデータセット上での最先端性能を実現し,提案手法のパワーを実証した。 最後に,本手法をトランスフォーマに拡張し,実験結果から,NAPはトランスフォーマ上でのOOD検出性能を大幅に向上させることができることが示唆された。

Out-of-distribution detection (OOD) is a crucial technique for deploying machine learning models in the real world to handle the unseen scenarios. In this paper, we first propose a simple yet effective Neural Activation Prior (NAP) for OOD detection. Our neural activation prior is based on a key observation that, for a channel before the global pooling layer of a fully trained neural network, the probability of a few neurons being activated with a large response by an in-distribution (ID) sample is significantly higher than that by an OOD sample. An intuitive explanation is that for a model fully trained on ID dataset, each channel would play a role in detecting a certain pattern in the ID dataset, and a few neurons can be activated with a large response when the pattern is detected in an input sample. Then, a new scoring function based on this prior is proposed to highlight the role of these strongly activated neurons in OOD detection. Our approach is plug-and-play and does not lead to any performance degradation on ID data classification and requires no extra training or statistics from training or external datasets. Notice that previous methods primarily rely on post-global-pooling features of the neural networks, while the within-channel distribution information we leverage would be discarded by the global pooling operator. Consequently, our method is orthogonal to existing approaches and can be effectively combined with them in various applications. Experimental results show that our method achieves the state-of-the-art performance on CIFAR benchmark and ImageNet dataset, which demonstrates the power of the proposed prior. Finally, we extend our method to Transformers and the experimental findings indicate that NAP can also significantly enhance the performance of OOD detection on Transformers, thereby demonstrating the broad applicability of this prior knowledge.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# Orchid: シーケンスモデリングのためのフレキシブルでデータ依存の畳み込み

Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling ( http://arxiv.org/abs/2402.18508v2 )

ライセンス: Link先を確認
Mahdi Karami, Ali Ghodsi, (参考訳) ディープラーニングの急速に発展する分野では、表現力と計算効率の両方のモデルに対する需要は、これまで以上に重要とされてきた。 本稿では,従来の注意機構の2次複雑さに対処するためのアーキテクチャであるOrchidを紹介する。 このアーキテクチャの中核に新しいデータ依存のグローバル畳み込み層があり、専用の条件付きニューラルネットワークを使用して、入力シーケンスにカーネル条件を文脈的に適合させる。 データ依存的畳み込み動作におけるシフト等価性を維持する2つの単純な条件付きネットワークを設計する。 提案した畳み込みカーネルの動的性質は、長いシーケンスに対する準線形スケーラビリティを維持しながら、Orchidに高い表現性を与える。 言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。 実験により,このアーキテクチャは,BERTやVision Transformerなどの従来のアテンションベースアーキテクチャよりもモデルサイズが小さいだけでなく,高密度アテンション層の限界を超えて,実行可能なシーケンス長も拡張できることを示した。 この成果は、シーケンスモデリングのためのより効率的でスケーラブルなディープラーニングモデルに向けた重要なステップである。

In the rapidly evolving field of deep learning, the demand for models that are both expressive and computationally efficient has never been more critical. This paper introduces Orchid, a novel architecture designed to address the quadratic complexity of traditional attention mechanisms without compromising the ability to capture long-range dependencies and in-context learning. At the core of this architecture lies a new data-dependent global convolution layer, which contextually adapts its kernel conditioned on input sequence using a dedicated conditioning neural network. We design two simple conditioning networks that maintain shift equivariance in our data-dependent convolution operation. The dynamic nature of the proposed convolution kernel grants Orchid high expressivity while maintaining quasilinear scalability for long sequences. We evaluate the proposed model across multiple domains, including language modeling and image classification, to highlight its performance and generality. Our experiments demonstrate that this architecture not only outperforms traditional attention-based architectures such as BERT and Vision Transformers with smaller model sizes, but also extends the feasible sequence length beyond the limitations of the dense attention layers. This achievement represents a significant step towards more efficient and scalable deep learning models for sequence modeling.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# フロッケ工学的パワーロー相互作用スピンモデルにおける2モードのスクイーズ

Two-mode Squeezing in Floquet Engineered Power-law Interacting Spin Models ( http://arxiv.org/abs/2402.18642v2 )

ライセンス: Link先を確認
Arman Duha, Thomas Bilitewski, (参考訳) 2次元の2層構造に閉じ込められた量子スピン1/2 XXZモデルの非平衡ダイナミクスについて検討し、逆パワーロー相互作用によるカップリング、距離$r$1/r^{\alpha}$、局所場を経由したスピンの時空間制御について検討した。 2つの層における逆磁化を持つスピンの初期状態は動的に不安定であり、相関した励起対が指数関数的に生成される。 階層間の2モードのスケザリングによる拡張性のある絡み合いの生成は、一般的にはパワーローモデルで達成できる。 さらに,空間的・時間的に構築された相互作用が生成する絡み合いを著しく増加させ,ハイゼンベルク制限スケーリングを実現することを実証した。 この研究は、パワーロースピンモデルを実現する様々な実験原子、分子、光学プラットフォームに関係しており、時空間制御の利点を示して、量子エンハンスセンシングの潜在的な応用とともに、メロジカルに有用な絡み合いの生成を最大化する。

We study the non-equilibrium dynamics of a quantum spin 1/2 XXZ model confined in a two-dimensional bi-layer system, with couplings mediated by inverse power-law interactions, falling off with distance $r$ as $1/r^{\alpha}$, and spatio-temporal control of the spins enabled via local fields. An initial state of spins with opposite magnetization in the two layers is dynamically unstable resulting in exponential generation of correlated pairs of excitations. We find that scalable generation of entanglement in the form of two-mode squeezing between the layers can generically be achieved in powerlaw models. We further demonstrate that spatially-temporally engineered interactions allow to significantly increase the generated entanglement and in fact achieve Heisenberg limited scaling. This work is relevant to a wide variety of experimental atomic, molecular, and optical platforms, which realize powerlaw spin models, and demonstrates the advantage of spatio-temporal control to maximize the generation of metrologically useful entanglement, with potential applications in quantum-enhanced sensing.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# 大規模言語モデルは多言語をどう扱うか?

How do Large Language Models Handle Multilingualism? ( http://arxiv.org/abs/2402.18815v2 )

ライセンス: Link先を確認
Yiran Zhao, Wenxuan Zhang, Guizhen Chen, Kenji Kawaguchi, Lidong Bing, (参考訳) 大規模言語モデル(LLM)は、様々な言語にまたがる印象的な機能を示している。 本研究では,LLMが多言語主義をどのように扱うかを検討する。 階層間の言語比の変化とネットワーク構造と特定の機能の関係に基づいて,LLMの多言語ワークフロー(\texttt{MWork}$): LLMはまずクエリを理解し,多言語入力を英語に変換してタスク解決する。 中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識をそれぞれ取り入れている。 最終レイヤでは、LLMはクエリの本来の言語と一致したレスポンスを生成する。 ラベル付きデータなしで、異なる言語での入力に対して活性化されたニューロンを特定するために、Parallel Language-specific Neuron Detection ($\texttt{PLND}$)を導入する。 $\texttt{PLND}$を使用すると、様々な層や構造にまたがる言語固有のニューロンの非活性化を含む広範な実験を通じて、$\texttt{MWork}$を検証する。 さらに$\texttt{MWork}$は、小さなデータセットで言語固有のニューロンの微調整を可能にする。 このアプローチにより、ハイリソース言語では$3.6\%、すべてのタスクにおいて$400$のドキュメントで$2.3\%の平均的な改善が達成される。

Large language models (LLMs) have demonstrated impressive capabilities across diverse languages. This study explores how LLMs handle multilingualism. Based on observed language ratio shifts among layers and the relationships between network structures and certain capabilities, we hypothesize the LLM's multilingual workflow ($\texttt{MWork}$): LLMs initially understand the query, converting multilingual inputs into English for task-solving. In the intermediate layers, they employ English for thinking and incorporate multilingual knowledge with self-attention and feed-forward structures, respectively. In the final layers, LLMs generate responses aligned with the original language of the query. To verify $\texttt{MWork}$, we introduce Parallel Language-specific Neuron Detection ($\texttt{PLND}$) to identify activated neurons for inputs in different languages without any labeled data. Using $\texttt{PLND}$, we validate $\texttt{MWork}$ through extensive experiments involving the deactivation of language-specific neurons across various layers and structures. Moreover, $\texttt{MWork}$ allows fine-tuning of language-specific neurons with a small dataset, enhancing multilingual abilities in a specific language without compromising others. This approach results in an average improvement of $3.6\%$ for high-resource languages and $2.3\%$ for low-resource languages across all tasks with just $400$ documents.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# 拡張フローマッチング:一般化連続性方程式を用いた条件付き生成法

Extended Flow Matching: a Method of Conditional Generation with Generalized Continuity Equation ( http://arxiv.org/abs/2402.18839v3 )

ライセンス: Link先を確認
Noboru Isobe, Masanori Koyama, Kohei Hayashi, Kenji Fukumizu, (参考訳) 条件生成の課題は生成モデルの最も重要な応用の1つであり、フローベースモデルに基づく多くの手法が開発されている。 しかし、現在使われているフローベースモデルの多くは、条件分布の生成方法に明示的な帰納バイアスを導入するために構築されていない。 これは例えば、スタイル転送のタスクにおいて予期せぬ振舞いを引き起こす可能性がある。 本研究では,条件空間から分布空間への連続写像に対応する「行列場」を学習するフローマッチングの直接拡張である拡張フローマッチング(EFM)を導入する。 本研究では,行列場を通した条件生成に誘導バイアスを導入し,ディリクレエネルギーや分布の感度を最小化することを目的としたEMMのバージョンであるMMOT-EFMを用いて,この事実を実証する。 条件生成におけるEMFの競争性を支持する実験結果とともに,本理論を提示する。

The task of conditional generation is one of the most important applications of generative models, and numerous methods have been developed to date based on the celebrated flow-based models. However, many flow-based models in use today are not built to allow one to introduce an explicit inductive bias to how the conditional distribution to be generated changes with respect to conditions. This can result in unexpected behavior in the task of style transfer, for example. In this research, we introduce extended flow matching (EFM), a direct extension of flow matching that learns a ``matrix field'' corresponding to the continuous map from the space of conditions to the space of distributions. We show that we can introduce inductive bias to the conditional generation through the matrix field and demonstrate this fact with MMOT-EFM, a version of EFM that aims to minimize the Dirichlet energy or the sensitivity of the distribution with respect to conditions. We will present our theory along with experimental results that support the competitiveness of EFM in conditional generation.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# SynGhost:事前訓練された言語モデルにおける非知覚的および普遍的タスク非依存のバックドアアタック

SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models ( http://arxiv.org/abs/2402.18945v2 )

ライセンス: Link先を確認
Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen, Gongshen Liu, (参考訳) 事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。 しかし,バックドア攻撃はタスク非依存のエントリポイントとして,そのようなフェーズを悪用していることを実証的に示す。 本稿では,まずエントロピーをベースとした防毒対策である$\mathtt{maxEntropy}$を提案する。 次に、 PLM における非受容的で普遍的なタスク非依存のバックドア攻撃である $\mathtt{SynGhost}$ を提示する。 具体的には、$\mathtt{SynGhost}$ hostilelyは異なる構文を通してクリーンなサンプルを操作し、プリミティブ表現を邪魔することなくバックドアを表現空間にマップする。 $\mathtt{SynGhost}$はさらに、コントラスト学習を活用して普遍性を実現し、表現空間内のバックドアの均一な分布を実行する。 また,構文特性の観点から,異なる構文間の干渉を軽減するための認識モジュールも導入する。 実験によると、$\mathtt{SynGhost}$はより深刻な脅威を持つ。 2つのチューニングパラダイムで様々な下流タスクに深刻な有害性を与えるだけでなく、どのPLMにも深刻な有害性を与える。 一方、$\mathtt{SynGhost}$ は、パープレキシティ、ファインプルーニング、提案された $\mathtt{maxEntropy}$ に基づく3つの対策に対して知覚できない。

Pre-training has been a necessary phase for deploying pre-trained language models (PLMs) to achieve remarkable performance in downstream tasks. However, we empirically show that backdoor attacks exploit such a phase as a vulnerable entry point for task-agnostic. In this paper, we first propose $\mathtt{maxEntropy}$, an entropy-based poisoning filtering defense, to prove that existing task-agnostic backdoors are easily exposed, due to explicit triggers used. Then, we present $\mathtt{SynGhost}$, an imperceptible and universal task-agnostic backdoor attack in PLMs. Specifically, $\mathtt{SynGhost}$ hostilely manipulates clean samples through different syntactic and then maps the backdoor to representation space without disturbing the primitive representation. $\mathtt{SynGhost}$ further leverages contrastive learning to achieve universal, which performs a uniform distribution of backdoors in the representation space. In light of the syntactic properties, we also introduce an awareness module to alleviate the interference between different syntactic. Experiments show that $\mathtt{SynGhost}$ holds more serious threats. Not only do severe harmfulness to various downstream tasks on two tuning paradigms but also to any PLMs. Meanwhile, $\mathtt{SynGhost}$ is imperceptible against three countermeasures based on perplexity, fine-pruning, and the proposed $\mathtt{maxEntropy}$.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# フェルミオン・オブザーバブルとハミルトニアンを推定するための簡易かつ効率的な関節計測方法

A Simple and Efficient Joint Measurement Strategy for Estimating Fermionic Observables and Hamiltonians ( http://arxiv.org/abs/2402.19230v2 )

ライセンス: Link先を確認
Joanna Majsak, Daniel McNulty, Michał Oszmaniec, (参考訳) 量子化学と相関するフェルミオン系に関係のあるフェルミオン可観測物とハミルトンを簡易に推定する手法を提案する。 提案手法は,N$モードフェルミオン系におけるマヨラナ作用素の任意の積のノイズバージョンを共同測定する手法の実装に基づいている。 私たちが使っている測定値を実現するには i) マヨラナフェルミオン作用素の積を実現するユニタリの集合上のランダム化 (ii) 適宜選択されたフェルミオンガウスユニタリの定数サイズの集合からランダムにサンプリングされたユニタリ 三 フェルミオン占有数の測定 (4)適切な後処理。 提案手法では, フェミオン陰影トモグラフィで得られる性能と, フェミオン陰影トモグラフィで得られる性能を, それぞれ$\mathcal{O}(N \log(N)/\epsilon^2)$と$\mathcal{O}(N^2 \log(N)/\epsilon^2)$の2次および4次マヨナ単相の予測値を, それぞれ$\epsilon$精度で推定することができる。 例えば、Jordan-Wigner変換を介して$N$モードフェルミオンシステムを符号化する量子ビットの長方形格子のように、我々のスキームは回路深さ$\mathcal{O}(N^{1/2})$ with $\mathcal{O}(N^{3/2})$ two-qubit gatesで実装でき、深さ$\mathcal{O}(N)$および$\mathcal{O}(N^2)$ 2-qubit gatesを必要とするフェルミオンおよびマッチゲートの古典的影の改善を提供する。 我々の手法を模範分子ハミルトニアンにベンチマークし、フェルミオン古典影に匹敵する性能を観察することによって、我々は既存の戦略に対する新しい競争力のある代替手段を実証する。

We propose a simple scheme to estimate fermionic observables and Hamiltonians relevant in quantum chemistry and correlated fermionic systems. Our approach is based on implementing a measurement that jointly measures noisy versions of any product of two or four Majorana operators in an $N$ mode fermionic system. To realize our measurement we use: (i) a randomization over a set of unitaries that realize products of Majorana fermion operators; (ii) a unitary, sampled at random from a constant-size set of suitably chosen fermionic Gaussian unitaries; (iii) a measurement of fermionic occupation numbers; (iv) suitable post-processing. Our scheme can estimate expectation values of all quadratic and quartic Majorana monomials to $\epsilon$ precision using $\mathcal{O}(N \log(N)/\epsilon^2)$ and $\mathcal{O}(N^2 \log(N)/\epsilon^2)$ measurement rounds respectively, matching the performance offered by fermionic shadow tomography. In certain settings, such as a rectangular lattice of qubits which encode an $N$ mode fermionic system via the Jordan-Wigner transformation, our scheme can be implemented in circuit depth $\mathcal{O}(N^{1/2})$ with $\mathcal{O}(N^{3/2})$ two-qubit gates, offering an improvement over fermionic and matchgate classical shadows that require depth $\mathcal{O}(N)$ and $\mathcal{O}(N^2)$ two-qubit gates. By benchmarking our method on exemplary molecular Hamiltonians and observing performances comparable to fermionic classical shadows, we demonstrate a novel, competitive alternative to existing strategies.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# クロスドメインなオープンボキャブラリ動作認識におけるCLIPに基づくビデオ学習者の再考

Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition ( http://arxiv.org/abs/2403.01560v2 )

ライセンス: Link先を確認
Kun-Yu Lin, Henghui Ding, Jiaming Zhou, Yu-Ming Tang, Yi-Xing Peng, Zhilin Zhao, Chen Change Loy, Wei-Shi Zheng, (参考訳) 近年のCLIP(Contrastive Language- Image Pretraining)の成功により,映像データに強力なCLIPを適応させることが提案されている。 CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できるだろうか? そこで我々は,CROSS- domain Open-Vocabulary Action Recognition ベンチマーク XOV-Action を構築し,最先端のCLIPベースのビデオ学習者5名を対象に,様々なドメインギャップ下で包括的な評価を行う。 評価の結果,従来手法では未確認ビデオ領域での動作認識性能が制限されていたことが示され,クロスドメインオープンな動作認識タスクの潜在的な課題が明らかになった。 本稿では,シーンバイアスという課題に焦点をあて,新たなシーン対応ビデオテキストアライメント手法を提案する。 我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。 大規模な実験により,本手法の有効性が示された。 ベンチマークとコードはhttps://github.com/KunyuLin/XOV-Action/.comで公開される。

Building upon the impressive success of CLIP (Contrastive Language-Image Pretraining), recent pioneer works have proposed to adapt the powerful CLIP to video data, leading to efficient and effective video learners for open-vocabulary action recognition. Inspired by that humans perform actions in diverse environments, our work delves into an intriguing question: Can CLIP-based video learners effectively generalize to video domains they have not encountered during training? To answer this, we establish a CROSS-domain Open-Vocabulary Action recognition benchmark named XOV-Action, and conduct a comprehensive evaluation of five state-of-the-art CLIP-based video learners under various types of domain gaps. The evaluation demonstrates that previous methods exhibit limited action recognition performance in unseen video domains, revealing potential challenges of the cross-domain open-vocabulary action recognition task. In this paper, we focus on one critical challenge of the task, namely scene bias, and accordingly contribute a novel scene-aware video-text alignment method. Our key idea is to distinguish video representations apart from scene-encoded text representations, aiming to learn scene-agnostic video representations for recognizing actions across domains. Extensive experiments demonstrate the effectiveness of our method. The benchmark and code will be available at https://github.com/KunyuLin/XOV-Action/.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# ComFe: ファンデーションモデル、トランスフォーマー、コンポーネント機能を備えた解釈可能なイメージ分類器

ComFe: Interpretable Image Classifiers With Foundation Models, Transformers and Component Features ( http://arxiv.org/abs/2403.04125v3 )

ライセンス: Link先を確認
Evelyn Mannix, Howard Bondell, (参考訳) 解釈可能なコンピュータビジョンモデルは、画像パッチの埋め込みと潜伏空間内のプロトタイプの間の距離を比較することで、それらの推論を説明することができる。 しかしながら、これらのアプローチの多くは追加の複雑さを導入し、複数のトレーニングステップを必要とし、ブラックボックスアプローチと比較してパフォーマンスコストがかかることが多い。 本研究では,高スケーラブルで,非解釈不可能な手法と比較して精度と堅牢性を向上できる新しい解釈可能な画像分類手法であるComFeを紹介する。 コンピュータビジョン基礎モデルの最近の発展に触発されて、ComFeはトランスフォーマーデコーダヘッドと階層的な混合モデリングアプローチを使用して、データセットごとにハイパーパラメータを個別にチューニングすることなく、様々な細かいビジョンベンチマークにわたる以前の解釈可能なモデルと比較して高い精度を得る。 グローバルなイメージラベルのみを使用し、セグメンテーションやパートアノテーションを含まないことで、ComFeはイメージ内の一貫したコンポーネント機能を特定し、これらの機能のうちどれが予測に有益であるかを判断できる。

Interpretable computer vision models are able to explain their reasoning through comparing the distances between the image patch embeddings and prototypes within a latent space. However, many of these approaches introduce additional complexity, can require multiple training steps and often have a performance cost in comparison to black-box approaches. In this work, we introduce Component Features (ComFe), a novel interpretable-by-design image classification approach that is highly scalable and can obtain better accuracy and robustness in comparison to non-interpretable methods. Inspired by recent developments in computer vision foundation models, ComFe uses a transformer-decoder head and a hierarchical mixture-modelling approach with a foundation model backbone to obtain higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyper-parameters for each dataset. With only global image labels and no segmentation or part annotations, ComFe can identify consistent component features within an image and determine which of these features are informative in making a prediction.
翻訳日:2024-05-27 20:56:39 公開日:2024-05-24
# 複数物体追跡のための軌道長テール分布への埋め込み

Delving into the Trajectory Long-tail Distribution for Muti-object Tracking ( http://arxiv.org/abs/2403.04700v2 )

ライセンス: Link先を確認
Sijia Chen, En Yu, Jinyang Li, Wenbing Tao, (参考訳) マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な領域であり、幅広い実践的実装がある。 現在の研究は、追跡アルゴリズムの開発と後処理技術の強化に重点を置いている。 しかし、自分自身で追跡するデータの性質について、徹底的な調査は行われていない。 本研究では、追跡データの分布パターンを探索し、既存のMOTデータセットにおける顕著な長期分布問題を特定する。 歩行者間における軌道長の分布に有意な不均衡がみられ,この現象を「歩行者軌道長テール分布」と呼ぶ。 この課題に対処するために、我々はこの歪んだ分布の効果を緩和するために設計されたベスポーク戦略を導入する。 具体的には,SVA(Stationary Camera View Data Augmentation)とDVA(Dynamic Camera View Data Augmentation)の2つのデータ拡張戦略を提案する。 SVAは、テールクラスの歩行者軌道をバックトラックし、予測することであり、DVAは、拡散モデルを使用してシーンの背景を変更することである。 GSは歩行者を無関係のグループに分け、各グループでソフトマックス操作を行う。 提案手法は,多数の既存のトラッキングシステムに組み込むことが可能であり,多目的トラッキング性能に対する長期分布の影響を低減させるため,大規模な実験により本手法の有効性が検証された。 コードはhttps://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOTで公開されている。

Multiple Object Tracking (MOT) is a critical area within computer vision, with a broad spectrum of practical implementations. Current research has primarily focused on the development of tracking algorithms and enhancement of post-processing techniques. Yet, there has been a lack of thorough examination concerning the nature of tracking data it self. In this study, we pioneer an exploration into the distribution patterns of tracking data and identify a pronounced long-tail distribution issue within existing MOT datasets. We note a significant imbalance in the distribution of trajectory lengths across different pedestrians, a phenomenon we refer to as ``pedestrians trajectory long-tail distribution''. Addressing this challenge, we introduce a bespoke strategy designed to mitigate the effects of this skewed distribution. Specifically, we propose two data augmentation strategies, including Stationary Camera View Data Augmentation (SVA) and Dynamic Camera View Data Augmentation (DVA) , designed for viewpoint states and the Group Softmax (GS) module for Re-ID. SVA is to backtrack and predict the pedestrian trajectory of tail classes, and DVA is to use diffusion model to change the background of the scene. GS divides the pedestrians into unrelated groups and performs softmax operation on each group individually. Our proposed strategies can be integrated into numerous existing tracking systems, and extensive experimentation validates the efficacy of our method in reducing the influence of long-tail distribution on multi-object tracking performance. The code is available at https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# Ada-Tracker:フレーム間および適応テンプレートマッチングによる軟部組織追跡

Ada-Tracker: Soft Tissue Tracking via Inter-Frame and Adaptive-Template Matching ( http://arxiv.org/abs/2403.06479v2 )

ライセンス: Link先を確認
Jiaxin Guo, Jiangliu Wang, Zhaoshuo Li, Tongyu Jia, Qi Dou, Yun-Hui Liu, (参考訳) 軟部組織追跡はコンピュータによる介入に不可欠である。 既存のアプローチは主に、対応するマッチングを回復するために、テンプレートとビデオから差別的特徴を抽出することに依存している。 しかし, 手術現場では, 組織の形態や外観が変化しているため, 手術現場での応用は困難である。 この問題に対処するために、我々は光学的流れを利用して、自然にピクセル単位の組織変形を捉え、追跡テンプレートを適応的に補正する。 具体的には、まずフレーム間マッチング機構を実装し、連続するフレームからの光の流れに基づいて、関心の粗い領域を抽出する。 出現変化に対処し、ドリフトを緩和するために、推定値の信頼性に基づいて追跡テンプレートを更新する適応的テンプレートマッチング法を提案する。 我々のアプローチであるAda-Trackerは、局所的な変形を捉えた短時間の動的モデリングと、グローバルな時間的補償を導入して長期の動的モデリングの両方を楽しむ。 我々は、Hamlyn、SCARED、Kidney境界データセットから生成される公開SurgTベンチマークに対する我々のアプローチを評価する。 実験結果から, Ada-Tracker の精度は良好であり, 先行する作業に対してより堅牢であることがわかった。 コードはhttps://github.com/wrld/Ada-Tracker.comで入手できる。

Soft tissue tracking is crucial for computer-assisted interventions. Existing approaches mainly rely on extracting discriminative features from the template and videos to recover corresponding matches. However, it is difficult to adopt these techniques in surgical scenes, where tissues are changing in shape and appearance throughout the surgery. To address this problem, we exploit optical flow to naturally capture the pixel-wise tissue deformations and adaptively correct the tracked template. Specifically, we first implement an inter-frame matching mechanism to extract a coarse region of interest based on optical flow from consecutive frames. To accommodate appearance change and alleviate drift, we then propose an adaptive-template matching method, which updates the tracked template based on the reliability of the estimates. Our approach, Ada-Tracker, enjoys both short-term dynamics modeling by capturing local deformations and long-term dynamics modeling by introducing global temporal compensation. We evaluate our approach on the public SurgT benchmark, which is generated from Hamlyn, SCARED, and Kidney boundary datasets. The experimental results show that Ada-Tracker achieves superior accuracy and performs more robustly against prior works. Code is available at https://github.com/wrld/Ada-Tracker.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# TRAWL:LLM支援による外部知識強化勧告

TRAWL: External Knowledge-Enhanced Recommendation with LLM Assistance ( http://arxiv.org/abs/2403.06642v2 )

ライセンス: Link先を確認
Weiqing Luo, Chonggang Song, Lingling Yi, Gong Cheng, (参考訳) セマンティック情報と行動データを組み合わせることは、レコメンデーションシステムにおいて重要な研究領域である。 有望なアプローチは、振る舞いに基づく推薦システムを豊富な意味情報で強化するために、外部知識を活用することである。 しかし、このアプローチは、生の外部知識の認知と意味表現の適応の2つの主要な課題に直面している。 これらの課題に対処するために, LLM Assistance (TRAWL) を用いた外部知識強化勧告手法を提案する。 本手法は,大規模言語モデル(LLM)を用いて生の外部データから関係する推薦知識を抽出し,アダプタトレーニングに対照的な学習戦略を用いる。 パブリックデータセットと実世界のオンラインレコメンデーションシステムによる実験は、我々のアプローチの有効性を検証する。

Combining semantic information with behavioral data is a crucial research area in recommender systems. A promising approach involves leveraging external knowledge to enrich behavioral-based recommender systems with abundant semantic information. However, this approach faces two primary challenges: denoising raw external knowledge and adapting semantic representations. To address these challenges, we propose an External Knowledge-Enhanced Recommendation method with LLM Assistance (TRAWL). This method utilizes large language models (LLMs) to extract relevant recommendation knowledge from raw external data and employs a contrastive learning strategy for adapter training. Experiments on public datasets and real-world online recommender systems validate the effectiveness of our approach.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 直接クロスモーダルマッピングと幾何正規化による高速テキスト・ツー・3次元顔生成・操作

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization ( http://arxiv.org/abs/2403.06702v2 )

ライセンス: Link先を確認
Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji, (参考訳) テキストから3D対応顔(T3D Face)の生成と操作は、機械学習における新たなホットスポットであり、依然として低効率と低品質に悩まされている。 本稿では,高速かつ高精度なT3D顔生成と操作のためのエンド・ツー・エンド・エンド・エフェクト・ネットワークを提案し,これを$E^3$-FaceNetと呼ぶ。 既存の複雑な生成パラダイムとは異なり、$E^3$-FaceNetはテキスト命令から3D対応の視覚空間への直接マッピングを利用する。 我々は,多視点世代間の一貫性を維持するために,新しいスタイルコードエンハンサーを導入し,モジュール間のセマンティックアライメントを強化する。 3つのベンチマークデータセットの大規模な実験により、$E^3$-FaceNetは画像のような3D顔の生成と操作を達成できるだけでなく、桁違いの推測速度も改善できることが示された。 たとえば、Latent3Dと比較すると、$E^3$-FaceNetは5世代をほぼ470倍スピードアップするが、それでも世代品質は上回っている。 私たちのコードはhttps://github.com/Aria-Zhangjl/E3-FaceNet.orgで公開されています。

Text-to-3D-aware face (T3D Face) generation and manipulation is an emerging research hot spot in machine learning, which still suffers from low efficiency and poor quality. In this paper, we propose an End-to-End Efficient and Effective network for fast and accurate T3D face generation and manipulation, termed $E^3$-FaceNet. Different from existing complex generation paradigms, $E^3$-FaceNet resorts to a direct mapping from text instructions to 3D-aware visual space. We introduce a novel Style Code Enhancer to enhance cross-modal semantic alignment, alongside an innovative Geometric Regularization objective to maintain consistency across multi-view generations. Extensive experiments on three benchmark datasets demonstrate that $E^3$-FaceNet can not only achieve picture-like 3D face generation and manipulation, but also improve inference speed by orders of magnitudes. For instance, compared with Latent3D, $E^3$-FaceNet speeds up the five-view generations by almost 470 times, while still exceeding in generation quality. Our code is released at https://github.com/Aria-Zhangjl/E3-FaceNet.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# UPS: クロスモーダル適応によるPDE問題解決のための効率的な基礎モデルの構築

UPS: Efficiently Building Foundation Models for PDE Solving via Cross-Modal Adaptation ( http://arxiv.org/abs/2403.07187v2 )

ライセンス: Link先を確認
Junhong Shen, Tanya Marwah, Ameet Talwalkar, (参考訳) 我々は、様々な領域、次元、解像度の時空間PDEの多種多様なファミリーのための統一ニューラル演算子を開発するための、データおよび計算効率のよいアプローチであるUnified PDE Solvers(UPS)を提案する。 UPSは異なるPDEを共有表現空間に埋め込み、それらをFNO変換アーキテクチャを使って処理する。 データオンデマンドで計算コストのかかるスクラッチからネットワークをトレーニングする代わりに、事前訓練されたLCMからトランスフォーマーをウォームスタートさせ、データの改善と計算効率の向上を図りながら、モダリティギャップを小さくするために明示的なアライメントを行う。 クロスモーダルUPSは、PDEBenchから1Dおよび2D PDEファミリの広い範囲における最先端の結果を達成し、4倍の少ないデータと26倍の計算量で既存の統一モデルより優れている。 一方、未知のPDEファミリーや係数への数発の転送も可能である。

We present Unified PDE Solvers (UPS), a data- and compute-efficient approach to developing unified neural operators for diverse families of spatiotemporal PDEs from various domains, dimensions, and resolutions. UPS embeds different PDEs into a shared representation space and processes them using a FNO-transformer architecture. Rather than training the network from scratch, which is data-demanding and computationally expensive, we warm-start the transformer from pretrained LLMs and perform explicit alignment to reduce the modality gap while improving data and compute efficiency. The cross-modal UPS achieves state-of-the-art results on a wide range of 1D and 2D PDE families from PDEBench, outperforming existing unified models using 4 times less data and 26 times less compute. Meanwhile, it is capable of few-shot transfer to unseen PDE families and coefficients.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 幸せにする:イメージ拡散モデルを通して感情を呼び起こす

Make Me Happier: Evoking Emotions Through Image Diffusion Models ( http://arxiv.org/abs/2403.08255v2 )

ライセンス: Link先を確認
Qing Lin, Jingfeng Zhang, Yew Soon Ong, Mengmi Zhang, (参考訳) 画像生成の急速な進歩にもかかわらず、感情的な画像編集は未探索のままである。 イメージのセマンティクス、文脈、構造は感情的な反応を誘発し、心理的障害の治療、製品の商業化、芸術デザインなど、様々な現実世界の応用に有用な感情的な画像編集技術を作る。 本稿では,感情を刺激するイメージ生成の新たな課題について紹介する。 この課題に対処するために、ソースイメージを効果的に理解し、編集し、望ましい感情や感情を伝える拡散モデルを提案する。 さらに、感情編集データセットの欠如により、34万対の画像と感情アノテーションからなるユニークなデータセットを提供する。 さらに, 人間の心理物理学実験を行い, 全手法を体系的に評価するための4つの新しい評価指標を導入する。 実験により,本手法が全ての競争基準を超えることを示す。 我々の拡散モデルは、原画像から感情的手がかりを識別し、所望の感情を誘発する画像を編集し、原画像の意味的構造を保存できる。 すべてのコード、モデル、データセットが公開されます。

Despite the rapid progress in image generation, emotional image editing remains under-explored. The semantics, context, and structure of an image can evoke emotional responses, making emotional image editing techniques valuable for various real-world applications, including treatment of psychological disorders, commercialization of products, and artistic design. For the first time, we present a novel challenge of emotion-evoked image generation, aiming to synthesize images that evoke target emotions while retaining the semantics and structures of the original scenes. To address this challenge, we propose a diffusion model capable of effectively understanding and editing source images to convey desired emotions and sentiments. Moreover, due to the lack of emotion editing datasets, we provide a unique dataset consisting of 340,000 pairs of images and their emotion annotations. Furthermore, we conduct human psychophysics experiments and introduce four new evaluation metrics to systematically benchmark all the methods. Experimental results demonstrate that our method surpasses all competitive baselines. Our diffusion model is capable of identifying emotional cues from original images, editing images that elicit desired emotions, and meanwhile, preserving the semantic structure of the original images. All code, model, and dataset will be made public.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 動的ヒューマンシーンインタラクションモデリングのスケールアップ

Scaling Up Dynamic Human-Scene Interaction Modeling ( http://arxiv.org/abs/2403.08629v2 )

ライセンス: Link先を確認
Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang, (参考訳) ヒューマン・シーン・インタラクション・モデリングにおけるデータ不足と高度なモーション・シンセサイザーの課題に先立ち、新しいHSIモーション・シンセサイザー法とともにTRUMANSデータセットを導入する。 TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーされたHSIデータセットであり、100の屋内シーンで15時間以上の人間のインタラクションを含んでいる。 人体全体の動きと部分レベルの物体の動きを複雑に捉え、接触のリアリズムに焦点をあてる。 このデータセットは、物理的環境を正確な仮想モデルに変換し、人間と物体の両方の外観と動きに広範囲に拡張し、相互作用の忠実さを維持しながら拡張することでさらにスケールアップされる。 TRUMANSを用いて,任意の長さのHSIシーケンスを効率よく生成する拡散型自己回帰モデルを提案し,シーンコンテキストと意図した動作を考慮に入れた。 実験では,3次元シーンのデータセット(例: PROX, Replica, ScanNet, ScanNet++)に対して,従来のモーションキャプチャーシーケンスを忠実に模倣した動きを生成できる,顕著なゼロショット一般化性を示した。

Confronting the challenges of data scarcity and advanced motion synthesis in human-scene interaction modeling, we introduce the TRUMANS dataset alongside a novel HSI motion synthesis method. TRUMANS stands as the most comprehensive motion-captured HSI dataset currently available, encompassing over 15 hours of human interactions across 100 indoor scenes. It intricately captures whole-body human motions and part-level object dynamics, focusing on the realism of contact. This dataset is further scaled up by transforming physical environments into exact virtual models and applying extensive augmentations to appearance and motion for both humans and objects while maintaining interaction fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model that efficiently generates HSI sequences of any length, taking into account both scene context and intended actions. In experiments, our approach shows remarkable zero-shot generalizability on a range of 3D scene datasets (e.g., PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic original motion-captured sequences, as confirmed by quantitative experiments and human studies.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# ビジョンファウンデーションモデルを用いたアノテーションフリーセマンティックセグメンテーション

Annotation Free Semantic Segmentation with Vision Foundation Models ( http://arxiv.org/abs/2403.09307v2 )

ライセンス: Link先を確認
Soroush Seifi, Daniel Olmeda Reino, Fabien Despinoy, Rahaf Aljundi, (参考訳) セマンティックセグメンテーション(Semantic Segmentation)は最も難しいビジョンタスクの1つで、通常は高価なピクセルレベルのアノテーションで大量のトレーニングデータを必要とする。 基礎モデル、特に視覚言語モデルの成功により、最近の研究は、大規模なトレーニングや画像/ピクセルレベルのアノテーションを必要としながら、ゼロショットセマンティックセグメンテーションを実現しようとしている。 本研究では,既存の基盤モデルを用いてセマンティックセグメンテーションデータセットのフリーアノテーションを生成する。 CLIPを使ってオブジェクトとSAMを検出し、高品質なオブジェクトマスクを生成します。 次に、自己監督型ビジョンエンコーダDinoV2の上に軽量モジュールを構築し、そのパッチ機能をゼロショットセマンティックセグメンテーションのための事前訓練されたテキストエンコーダと整合させる。 我々のアプローチは、最小限のトレーニングで事前訓練された視覚エンコーダに言語ベースのセマンティクスをもたらすことができる。 我々のモジュールは軽量で、ファンデーションモデルのみを監督の源としており、アノテーションのない小さなトレーニングデータから見事な一般化能力を示している。

Semantic Segmentation is one of the most challenging vision tasks, usually requiring large amounts of training data with expensive pixel level annotations. With the success of foundation models and especially vision-language models, recent works attempt to achieve zeroshot semantic segmentation while requiring either large-scale training or additional image/pixel level annotations. In this work, we generate free annotations for any semantic segmentation dataset using existing foundation models. We use CLIP to detect objects and SAM to generate high quality object masks. Next, we build a lightweight module on top of a self-supervised vision encoder, DinoV2, to align the patch features with a pretrained text encoder for zeroshot semantic segmentation. Our approach can bring language-based semantics to any pretrained vision encoder with minimal training. Our module is lightweight, uses foundation models as the sole source of supervision and shows impressive generalization capability from little training data with no annotation.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# Open-Vocabulary Segmentationベンチマークにおける名前の更新

Renovating Names in Open-Vocabulary Segmentation Benchmarks ( http://arxiv.org/abs/2403.09593v2 )

ライセンス: Link先を確認
Haiwen Huang, Songyou Peng, Dan Zhang, Andreas Geiger, (参考訳) 名前は人間の認知と視覚言語モデルの両方に必須である。 オープン語彙モデルは、訓練中に見えないカテゴリに一般化するテキストプロンプトとしてクラス名を利用する。 しかし、これらの名前の精度は、しばしば既存のデータセットで見過ごされる。 本稿では,オープンボキャブラリセグメンテーションベンチマーク(RENOVATE)における「リノベーション」の枠組みを提示することにより,この問題に対処する。 我々のフレームワークは、視覚セグメントごとに名前の質を高めるリネームモデルを備えている。 実験により, 改良された名称は, 最大15%の改善率でより強力なオープン語彙モデルを訓練し, データ品質を向上し, トレーニング効率を大幅に向上させることを示す。 また, 改名により, 誤分類の精度が向上し, きめ細かなモデル解析が可能となった。 私たちは、人気のあるセグメンテーションデータセット(MS COCO、ADE20K、Cityscapes)のコードを研究コミュニティに提供します。

Names are essential to both human cognition and vision-language models. Open-vocabulary models utilize class names as text prompts to generalize to categories unseen during training. However, the precision of these names is often overlooked in existing datasets. In this paper, we address this underexplored problem by presenting a framework for "renovating" names in open-vocabulary segmentation benchmarks (RENOVATE). Our framework features a renaming model that enhances the quality of names for each visual segment. Through experiments, we demonstrate that our renovated names help train stronger open-vocabulary models with up to 15% relative improvement and significantly enhance training efficiency with improved data quality. We also show that our renovated names improve evaluation by better measuring misclassification and enabling fine-grained model analysis. We will provide our code and relabelings for several popular segmentation datasets (MS COCO, ADE20K, Cityscapes) to the research community.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 3次元医用画像のジェネレーティブエンハンスメント

Generative Enhancement for 3D Medical Images ( http://arxiv.org/abs/2403.12852v2 )

ライセンス: Link先を確認
Lingting Zhu, Noel Codella, Dongdong Chen, Zhenchao Jin, Lu Yuan, Lequan Yu, (参考訳) プライバシの懸念と高い収集やアノテーションのコストによる3D画像データセットの可用性の制限は、医用画像の分野で大きな課題となっている。 将来有望な代替手段は、合成医療データを使用することであるが、バックボーン設計の困難さと、2D画像と比較して3Dトレーニングサンプルが少ないため、リアルな3D医療画像合成のためのソリューションはほとんどない。 本稿では,3次元医用画像の合成と,条件付き拡散モデルを用いた既存のデータセットの強化のための新しい生成手法であるGEM-3Dを提案する。 本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。 3Dの医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは既存のデータセットから汎用的な3D画像を生成する、柔軟で効果的なソリューションを提供する。 GEM-3Dは、情報スライス選択とランダムな位置での生成と、編集可能なマスクボリュームを組み合わせて、拡散サンプリングの大きなバリエーションを導入することで、データセットの強化を可能にする。 さらに、情報スライスには患者情報が含まれているため、GEM-3Dは、所望の制御で、反ファクト画像合成とデータセットレベルのデエンハンスメントを促進することができる。 脳MRIと腹部CT画像の実験では、GEM-3Dは高画質の3D医療画像を容積整合性で合成することができ、推論中にデータセットを拡張するための簡単なソリューションを提供する。 コードはhttps://github.com/HKU-MedAI/GEM-3Dで入手できる。

The limited availability of 3D medical image datasets, due to privacy concerns and high collection or annotation costs, poses significant challenges in the field of medical imaging. While a promising alternative is the use of synthesized medical data, there are few solutions for realistic 3D medical image synthesis due to difficulties in backbone design and fewer 3D training samples compared to 2D counterparts. In this paper, we propose GEM-3D, a novel generative approach to the synthesis of 3D medical images and the enhancement of existing datasets using conditional diffusion models. Our method begins with a 2D slice, noted as the informed slice to serve the patient prior, and propagates the generation process using a 3D segmentation mask. By decomposing the 3D medical images into masks and patient prior information, GEM-3D offers a flexible yet effective solution for generating versatile 3D images from existing datasets. GEM-3D can enable dataset enhancement by combining informed slice selection and generation at random positions, along with editable mask volumes to introduce large variations in diffusion sampling. Moreover, as the informed slice contains patient-wise information, GEM-3D can also facilitate counterfactual image synthesis and dataset-level de-enhancement with desired control. Experiments on brain MRI and abdomen CT images demonstrate that GEM-3D is capable of synthesizing high-quality 3D medical images with volumetric consistency, offering a straightforward solution for dataset enhancement during inference. The code is available at https://github.com/HKU-MedAI/GEM-3D.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 一度だけサンプル: 自己協力的拡散GANによるワンステップテキスト・画像合成

You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs ( http://arxiv.org/abs/2403.12931v3 )

ライセンス: Link先を確認
Yihong Luo, Xiaolong Chen, Xinghua Qu, Jing Tang, (参考訳) 高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであるYOSOを紹介する。 YOSOは拡散過程をGANと統合し、2つの世界のベストを達成する。 具体的には、デノナイジングジェネレータ自体による分布を円滑にし、自己協調学習を行う。 提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。 さらに,本手法は,LoRAファインチューニングにおいても,高品質なワンステップテキスト・ツー・イメージ合成を実現するために,事前学習したテキスト・ツー・イメージ拡散を微調整できることを示す。 特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散トランスフォーマーを提供する。 私たちのコードはhttps://github.com/Luo-Yihong/YOSOで提供されます。

We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. YOSO integrates the diffusion process with GANs to achieve the best of two worlds. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without extra explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 移動体上のガウススティング:自然カメラ運動に対するブラーと転がりシャッター補償

Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion ( http://arxiv.org/abs/2403.13327v2 )

ライセンス: Link先を確認
Otto Seiskari, Jerry Ylilammi, Valtteri Kaatrasalo, Pekka Rantalankila, Matias Turkulainen, Juho Kannala, Arno Solin, (参考訳) 高品質なシーン再構成とガウススティング(3DGS)に基づく新しいビュー合成は、通常、安定して高品質な写真を必要とするが、ハンドヘルドカメラで撮影するには実用的ではない。 本稿では,カメラの動きに適応し,動きのぼやけやローリングシャッター歪みに苦しむハンドヘルド映像データによる高品質なシーン再構成を実現する手法を提案する。 本手法は,物理画像形成過程の詳細なモデリングに基づいて,視覚慣性オドメトリー(VIO)を用いて推定した速度を利用する。 カメラポーズは、単一の画像フレームの露光時間中に非静的と見なされ、カメラポーズは再構築プロセスにおいてさらに最適化される。 スクリーン空間近似を利用して、3DGSフレームワークにローリングシャッターとモーションブラー効果を効率よく組み込む、微分可能なレンダリングパイプラインを定式化する。 合成データと実データの両方を用いて,既存の手法よりもカメラの動きを軽減し,自然条件下での3DGSを推し進めた。

High-quality scene reconstruction and novel view synthesis based on Gaussian Splatting (3DGS) typically require steady, high-quality photographs, often impractical to capture with handheld cameras. We present a method that adapts to camera motion and allows high-quality scene reconstruction with handheld video data suffering from motion blur and rolling shutter distortion. Our approach is based on detailed modelling of the physical image formation process and utilizes velocities estimated using visual-inertial odometry (VIO). Camera poses are considered non-static during the exposure time of a single image frame and camera poses are further optimized in the reconstruction process. We formulate a differentiable rendering pipeline that leverages screen space approximation to efficiently incorporate rolling-shutter and motion blur effects into the 3DGS framework. Our results with both synthetic and real data demonstrate superior performance in mitigating camera motion over existing methods, thereby advancing 3DGS in naturalistic settings.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 包括的・説明可能な行動品質評価のための階層型ニューロシンボリックアプローチ

Hierarchical NeuroSymbolic Approach for Comprehensive and Explainable Action Quality Assessment ( http://arxiv.org/abs/2403.13798v2 )

ライセンス: Link先を確認
Lauren Okamoto, Paritosh Parmar, (参考訳) 行動品質評価(AQA)は、人間の行動のパフォーマンスや実行を定量的に評価するためにコンピュータビジョンを適用する。 現在のAQAアプローチはエンドツーエンドのニューラルモデルであり、透明性が欠如しており、主観的な人間の判断を地道として訓練されているためバイアスを受ける傾向がある。 これらの問題に対処するために、ニューラルネットワークを用いてビデオデータから解釈可能なシンボルを抽象化し、それらのシンボルに規則を適用することによって品質評価を行うAQAのニューロシンボリックパラダイムを導入する。 私たちはケーススタディとしてダイビングを取ります。 ドメインの専門家は、私たちのシステムを好み、ダイビングにおけるAQAに対する純粋に神経的なアプローチよりも、より情報に富むものを見つけました。 また,現状の行動認識と時間的セグメンテーションを実現し,その要素を分割し,視覚的証拠を客観的に評価する詳細なレポートを自動生成する。 ドメインの専門家グループが検証したように、このレポートは審査員のスコアリングを支援し、審査員を訓練し、ダイバーにフィードバックを提供するために使われるかもしれない。 注釈付きトレーニングデータとコード:https://github.com/laurenok24/NSAQA。

Action quality assessment (AQA) applies computer vision to quantitatively assess the performance or execution of a human action. Current AQA approaches are end-to-end neural models, which lack transparency and tend to be biased because they are trained on subjective human judgements as ground-truth. To address these issues, we introduce a neuro-symbolic paradigm for AQA, which uses neural networks to abstract interpretable symbols from video data and makes quality assessments by applying rules to those symbols. We take diving as the case study. We found that domain experts prefer our system and find it more informative than purely neural approaches to AQA in diving. Our system also achieves state-of-the-art action recognition and temporal segmentation, and automatically generates a detailed report that breaks the dive down into its elements and provides objective scoring with visual evidence. As verified by a group of domain experts, this report may be used to assist judges in scoring, help train judges, and provide feedback to divers. Annotated training data and code: https://github.com/laurenok24/NSAQA.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# リモートセンシング画像におけるチャネルデータ拡張の物理的情報整合性の推定

Estimating Physical Information Consistency of Channel Data Augmentation for Remote Sensing Images ( http://arxiv.org/abs/2403.14547v2 )

ライセンス: Link先を確認
Tom Burgert, Begüm Demir, (参考訳) 深層学習(DL)手法へのデータ拡張の適用は、教師付き、半教師付き、自己教師付き画像分類において、最先端の結果を達成する上で重要な役割を担っている。 特に、チャネル変換(例えば、太陽電池、グレースケール、明るさ調整)は、リモートセンシング(RS)画像分類タスクのためのデータ拡張パイプラインに統合される。 しかし、RS画像への適切な適用については矛盾する信念が存在する。 批判の共通点は、チャネル拡張技術の応用が物理的に矛盾するスペクトルデータ(ピクセルシグネチャ)につながる可能性があることである。 公開討論の場では,チャネル拡張手法がRS画像の物理的情報に影響を及ぼすかどうかを推定する手法を提案する。 提案手法は, 取得条件や植生の現象的状態などの要因によって自然に生じるずれを考慮に入れた時系列内の画素シグネチャのアライメントを測定するスコアを推定する。 物理一貫性を評価するために,オリジナルおよび拡張ピクセルシグネチャに関連するスコアを比較した。 マルチラベル画像分類タスクの実験結果から,元の画素署名のずれが期待されるスコアを超えるチャネル拡張は,拡張なしで訓練されたベースラインモデルの性能を向上できないことが示された。

The application of data augmentation for deep learning (DL) methods plays an important role in achieving state-of-the-art results in supervised, semi-supervised, and self-supervised image classification. In particular, channel transformations (e.g., solarize, grayscale, brightness adjustments) are integrated into data augmentation pipelines for remote sensing (RS) image classification tasks. However, contradicting beliefs exist about their proper applications to RS images. A common point of critique is that the application of channel augmentation techniques may lead to physically inconsistent spectral data (i.e., pixel signatures). To shed light on the open debate, we propose an approach to estimate whether a channel augmentation technique affects the physical information of RS images. To this end, the proposed approach estimates a score that measures the alignment of a pixel signature within a time series that can be naturally subject to deviations caused by factors such as acquisition conditions or phenological states of vegetation. We compare the scores associated with original and augmented pixel signatures to evaluate the physical consistency. Experimental results on a multi-label image classification task show that channel augmentations yielding a score that exceeds the expected deviation of original pixel signatures can not improve the performance of a baseline model trained without augmentation.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 臨床および機能的MRI像を用いたパーキンソン病軌跡の予測 : 再生・複製研究

Predicting Parkinson's disease trajectory using clinical and functional MRI features: a reproduction and replication study ( http://arxiv.org/abs/2403.15405v2 )

ライセンス: Link先を確認
Elodie Germani, Nikhil Baghwat, Mathieu Dugré, Rémi Gau, Albert Montillo, Kevin Nguyen, Andrzej Sokolowski, Madeleine Sharp, Jean-Baptiste Poline, Tristan Glatard, (参考訳) パーキンソン病(英: Parkinson's disease,PD)は、神経変性疾患の1つで、病態がよく分かっておらず、早期の診断や疾患進行の予測に確立されたバイオマーカーがない。 最近、いくつかの神経イメージングバイオマーカーが研究されているが、これらはいくつかの可変性の原因に影響を受けやすい。 この文脈では、このようなバイオマーカーの堅牢性の評価が不可欠である。 この研究は、PDの潜在的な神経イメージングバイオマーカーの複製可能性を研究する大規模なプロジェクトの一部である。 そこで我々は,Nguyen et al ,2021 に記載されたモデルを用いて,人口,臨床,神経画像の特徴(静止状態 fMRI から抽出したfALFF と ReHo )を用いて,個人のPD 状態と進行を予測し,再現し,再現しようとする。 我々は、Nguyen et al ,2021のように、Parkinson's Progression Markers Initiativeデータセット(PPMI, ppmi-info.org)を使用し、論文やコードで利用可能な情報を使って、オリジナルのコホート、画像特徴、機械学習モデルを可能な限り正確に再現することを目的としている。 また,コホート選択,特徴抽出パイプライン,入力特徴の集合の方法論的変動について検討した。 再現の成功は異なる基準で評価された。 特に,本研究に最も近い解析パイプライン (R2 > 0) を用いて, 結果と一致した結果を得た。 オリジナルの作品を再生・複製する際の課題は、特に臨床環境での神経画像研究の複雑さによって説明される可能性が高い。 今後,このような研究の再現性を高めるための推奨事項を提示する。

Parkinson's disease (PD) is a common neurodegenerative disorder with a poorly understood physiopathology and no established biomarkers for the diagnosis of early stages and for prediction of disease progression. Several neuroimaging biomarkers have been studied recently, but these are susceptible to several sources of variability. In this context, an evaluation of the robustness of such biomarkers is essential. This study is part of a larger project investigating the replicability of potential neuroimaging biomarkers of PD. Here, we attempt to reproduce (same data, same method) and replicate (different data or method) the models described in Nguyen et al., 2021 to predict individual's PD current state and progression using demographic, clinical and neuroimaging features (fALFF and ReHo extracted from resting-state fMRI). We use the Parkinson's Progression Markers Initiative dataset (PPMI, ppmi-info.org), as in Nguyen et al.,2021 and aim to reproduce the original cohort, imaging features and machine learning models as closely as possible using the information available in the paper and the code. We also investigated methodological variations in cohort selection, feature extraction pipelines and sets of input features. The success of the reproduction was assessed using different criteria. Notably, we obtained significantly better than chance performance using the analysis pipeline closest to that in the original study (R2 > 0), which is consistent with its findings. The challenges encountered while reproducing and replicating the original work are likely explained by the complexity of neuroimaging studies, in particular in clinical settings. We provide recommendations to further facilitate the reproducibility of such studies in the future.
翻訳日:2024-05-27 20:46:55 公開日:2024-05-24
# 逆浄化のためのロバスト拡散モデル

Robust Diffusion Models for Adversarial Purification ( http://arxiv.org/abs/2403.16067v2 )

ライセンス: Link先を確認
Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao, (参考訳) 拡散モデル (DM) に基づく対向的浄化 (AP) は、対向的訓練 (AT) の最も強力な代替手段であることが示されている。 しかし、これらの手法は、事前訓練された拡散モデル自体が敵攻撃に対しても堅牢ではないという事実を無視している。 さらに、拡散処理は意味情報を容易に破壊し、高品質な画像を生成することができるが、逆処理後の元の入力画像とは全く異なるので、標準精度が劣化する。 これらの問題を克服するためには、計算的に禁止されている事前学習拡散モデルを再訓練または微調整するために、敵の訓練戦略を活用することが自然な考えである。 本稿では,従来のDMとは無関係に,DMの再訓練や微調整を回避できる新しい逆過程を提案する。 この堅牢なガイダンスは、より多くのセマンティックコンテンツを保持する精製例を生成するだけでなく、DMの正確さと損耗のトレードオフを初めて緩和すると同時に、DMベースのAPが新たな攻撃に対して効果的な適応能力を提供する。 CIFAR-10, CIFAR-100, ImageNet で大規模な実験を行い, 提案手法が最先端の結果を達成し, 異なる攻撃に対する一般化を示すことを示す。

Diffusion models (DMs) based adversarial purification (AP) has shown to be the most powerful alternative to adversarial training (AT). However, these methods neglect the fact that pre-trained diffusion models themselves are not robust to adversarial attacks as well. Additionally, the diffusion process can easily destroy semantic information and generate a high quality image but totally different from the original input image after the reverse process, leading to degraded standard accuracy. To overcome these issues, a natural idea is to harness adversarial training strategy to retrain or fine-tune the pre-trained diffusion model, which is computationally prohibitive. We propose a novel robust reverse process with adversarial guidance, which is independent of given pre-trained DMs and avoids retraining or fine-tuning the DMs. This robust guidance can not only ensure to generate purified examples retaining more semantic content but also mitigate the accuracy-robustness trade-off of DMs for the first time, which also provides DM-based AP an efficient adaptive ability to new attacks. Extensive experiments are conducted on CIFAR-10, CIFAR-100 and ImageNet to demonstrate that our method achieves the state-of-the-art results and exhibits generalization against different attacks.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# XMoE: きめ細かな適応的エキスパート選択によるスパースモデル

XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection ( http://arxiv.org/abs/2403.18926v2 )

ライセンス: Link先を確認
Yuanhang Yang, Shiyi Qi, Wenchao Gu, Chaozheng Wang, Cuiyun Gao, Zenglin Xu, (参考訳) Sparse Mixture-of-Experts (MoE)モデルを含むスパースモデルは、Transformerモデルをスケールするための効果的なアプローチとして現れている。 しかし、多くのパラメータがゼロまたは低いアクティベーション値の乗算によって計算に不要に関わっているため、計算の非効率さに悩まされることが多い。 この問題に対処するために,スパースモデルの有効性と効率性を両立させる新しいMOEである \tool を提案する。 \toolは小さなエキスパートとしきい値ベースのルータを活用して、トークンが必須パラメータのみを選択的にエンゲージできるようにする。 言語モデリングと機械翻訳タスクに関する広範な実験により,性能を犠牲にすることなく,MoE層での計算負荷を50%以上削減し,モデル性能を向上させることができることを示した。 さらに,高密度モデルに適用することで,推論時のスパース計算を可能にした。 包括的な分析を行い、https://github.com/ysngki/XMoE.comでコードを公開しています。

Sparse models, including sparse Mixture-of-Experts (MoE) models, have emerged as an effective approach for scaling Transformer models. However, they often suffer from computational inefficiency since a significant number of parameters are unnecessarily involved in computations via multiplying values by zero or low activation values. To address this issue, we present \tool, a novel MoE designed to enhance both the efficacy and efficiency of sparse MoE models. \tool leverages small experts and a threshold-based router to enable tokens to selectively engage only essential parameters. Our extensive experiments on language modeling and machine translation tasks demonstrate that \tool can enhance model performance while decreasing the computation load at MoE layers by over 50\% without sacrificing performance. Furthermore, we present the versatility of \tool by applying it to dense models, enabling sparse computation during inference. We provide a comprehensive analysis and make our code available at https://github.com/ysngki/XMoE.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# 変圧器に基づく言語モデルにおけるファクチュアルリコールのメカニズムの解釈

Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models ( http://arxiv.org/abs/2403.19521v4 )

ライセンス: Link先を確認
Ang Lv, Yuhan Chen, Kaiyi Zhang, Yulong Wang, Lifeng Liu, Ji-Rong Wen, Jian Xie, Rui Yan, (参考訳) 本稿では,Transformer-based language model (LLMs) を用いて,現実的なリコール処理を行う機構について検討する。 1) 「フランスの首都はここにある」というプロンプトを与えられた場合、「フランス」のようなトピックトークンを文脈から抽出し、後続のMPPに渡す。 2)アテンションヘッドの出力は等しい重量で集約され、残ストリームに追加されるので、その後のMLPは、個々のヘッドから派生した情報を消去または増幅する''アクティベーション'として機能する。 その結果、トピックトークン ``France'' が残留ストリームで際立っている。 (3) 深いMLPは ``France' を受け取り、残りのストリームを正しい回答の方向、すなわち ``Paris' にリダイレクトするコンポーネントを生成する。 '' このプロシージャは ``get\_capital($X$,'' のような暗黙の関数を適用するのに似ており、引数 $X$ はアテンションヘッドによって渡されるトピックトークン情報である。 そこで本研究では,MLPの出力を人間の理解するコンポーネントに分解する手法を提案する。 さらに,モデルの最終層において,正しい予測を抑える普遍的反過信機構が観察された。 我々は、事実的リコールの信頼性を高めるために、この解釈を活用することで、この抑制を緩和する。 上記の解釈は, GPT-2ファミリー, 1.3B OPT, 最大7B Llama-2, ゼロショットおよび少数ショット設定の様々な言語モデルを用いて, 事実知識の領域にまたがる様々なタスクにまたがって評価される。

In this paper, we delve into several mechanisms employed by Transformer-based language models (LLMs) for factual recall tasks. We outline a pipeline consisting of three major steps: (1) Given a prompt ``The capital of France is,'' task-specific attention heads extract the topic token, such as ``France,'' from the context and pass it to subsequent MLPs. (2) As attention heads' outputs are aggregated with equal weight and added to the residual stream, the subsequent MLP acts as an ``activation,'' which either erases or amplifies the information originating from individual heads. As a result, the topic token ``France'' stands out in the residual stream. (3) A deep MLP takes ``France'' and generates a component that redirects the residual stream towards the direction of the correct answer, i.e., ``Paris.'' This procedure is akin to applying an implicit function such as ``get\_capital($X$),'' and the argument $X$ is the topic token information passed by attention heads. To achieve the above quantitative and qualitative analysis for MLPs, we proposed a novel analytic method aimed at decomposing the outputs of the MLP into components understandable by humans. Additionally, we observed a universal anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall confidence. The above interpretations are evaluated across diverse tasks spanning various domains of factual knowledge, using various language models from the GPT-2 families, 1.3B OPT, up to 7B Llama-2, and in both zero- and few-shot setups.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# エピデミック予測のためのソーシャルメディアからのイベント検出

Event Detection from Social Media for Epidemic Prediction ( http://arxiv.org/abs/2404.01679v2 )

ライセンス: Link先を確認
Tanmay Parekh, Anh Mac, Jiarui Yu, Yuxuan Dong, Syed Shahriar, Bonnie Liu, Eric Yang, Kuan-Hao Huang, Wei Wang, Nanyun Peng, Kai-Wei Chang, (参考訳) ソーシャルメディアは、ソーシャルトレンドやイベントに関するタイムリーなアップデートを提供する、簡単にアクセスできるプラットフォームである。 感染、症状、社会的相互作用などの流行関連事象に関する議論は、流行発生時の政策決定を知らせる上で重要である。 本研究は,ソーシャルメディア投稿から流行関連事象を抽出・解析する枠組みを開発することにより,今後の流行の予防と早期警戒のためにイベント検出(ED)を開拓した。 この目的のために,7種類の病原性イベントからなる疫病イベントオントロジーをキュレートし,COVID-19パンデミックに焦点をあてた人間関連イベントを用いたTwitterデータセットを構築した。 実験では、新型コロナウイルスベースのSPEEDでトレーニングされたEDモデルが、サルポックス、ジカ、デングの3つの目に見えない流行の流行を効果的に検出する方法が明らかにされている。 さらに,本フレームワークによる抽出イベントの急激な増加は,WHOのMonkeypox流行宣言より4~9週間早く警告できることを示した。 この枠組みの実用性は、新興の流行に対するより良い準備の基盤を築き上げている。

Social media is an easy-to-access platform providing timely updates about societal trends and events. Discussions regarding epidemic-related events such as infections, symptoms, and social interactions can be crucial for informing policymaking during epidemic outbreaks. In our work, we pioneer exploiting Event Detection (ED) for better preparedness and early warnings of any upcoming epidemic by developing a framework to extract and analyze epidemic-related events from social media posts. To this end, we curate an epidemic event ontology comprising seven disease-agnostic event types and construct a Twitter dataset SPEED with human-annotated events focused on the COVID-19 pandemic. Experimentation reveals how ED models trained on COVID-based SPEED can effectively detect epidemic events for three unseen epidemics of Monkeypox, Zika, and Dengue; while models trained on existing ED datasets fail miserably. Furthermore, we show that reporting sharp increases in the extracted events by our framework can provide warnings 4-9 weeks earlier than the WHO epidemic declaration for Monkeypox. This utility of our framework lays the foundations for better preparedness against emerging epidemics.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# パラメータ化された行動空間に対するモデルに基づく強化学習

Model-based Reinforcement Learning for Parameterized Action Spaces ( http://arxiv.org/abs/2404.03037v3 )

ライセンス: Link先を確認
Renhao Zhang, Haotian Fu, Yilin Miao, George Konidaris, (参考訳) 本稿では,パラメータ化行動マルコフ決定プロセス(PAMDP)のためのモデルベース強化学習アルゴリズム - パラメータ化行動を用いた動的学習と予測制御(DLPA)を提案する。 エージェントはパラメータ化された動作条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。 リプシッツ連続性(英語版)のレンズを用いて達成された値の計画において、生成された軌跡と最適軌跡との差を理論的に定量化する。 いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と漸近性能が得られることが示された。

We propose a novel model-based reinforcement learning algorithm -- Dynamics Learning and predictive control with Parameterized Actions (DLPA) -- for Parameterized Action Markov Decision Processes (PAMDPs). The agent learns a parameterized-action-conditioned dynamics model and plans with a modified Model Predictive Path Integral control. We theoretically quantify the difference between the generated trajectory and the optimal trajectory during planning in terms of the value they achieved through the lens of Lipschitz Continuity. Our empirical results on several standard benchmarks show that our algorithm achieves superior sample efficiency and asymptotic performance than state-of-the-art PAMDP methods.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# LLMのマインドズアイ:大規模言語モデルにおける空間推論の可視化

Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models ( http://arxiv.org/abs/2404.03622v2 )

ライセンス: Link先を確認
Wenshan Wu, Shaoguang Mao, Yadong Zhang, Yan Xia, Li Dong, Lei Cui, Furu Wei, (参考訳) 大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。 しかし、人間の認知の重要な側面である空間的推論におけるそれらの能力は、いまだに未解明のままである。 人間は「心の目」と呼ばれるプロセスを通じて、目に見えない物体や行動の心的イメージを創造し、目に見えない世界の想像力を可能にしている。 この認知能力に触発されて、我々はVoTプロンプトを提案する。 VoTは、LLMの空間的推論を、その推論トレースを可視化することによって引き起こし、その後の推論ステップを導くことを目的としている。 自然言語ナビゲーションや視覚ナビゲーション,視覚タイリングなど,マルチホップ空間推論タスクにVoTを用いた。 実験により,VoTはLLMの空間推論能力を著しく向上することが示された。 特に、VoTはこれらのタスクにおいて既存のマルチモーダル・大規模言語モデル(MLLM)よりも優れていた。 VoTはLDMで驚くほどうまく機能するが、空間的推論を促進するメンタルイメージを生成する能力は、心の目の動きに似ており、MLLMにおけるその可能性を示している。

Large language models (LLMs) have exhibited impressive performance in language comprehension and various reasoning tasks. However, their abilities in spatial reasoning, a crucial aspect of human cognition, remain relatively unexplored. Human possess a remarkable ability to create mental images of unseen objects and actions through a process known as the Mind's Eye, enabling the imagination of the unseen world. Inspired by this cognitive capacity, we propose Visualization-of-Thought (VoT) prompting. VoT aims to elicit spatial reasoning of LLMs by visualizing their reasoning traces, thereby guiding subsequent reasoning steps. We employed VoT for multi-hop spatial reasoning tasks, including natural language navigation, visual navigation, and visual tiling in 2D grid worlds. Experimental results demonstrated that VoT significantly enhances the spatial reasoning abilities of LLMs. Notably, VoT outperformed existing multimodal large language models (MLLMs) in these tasks. While VoT works surprisingly well on LLMs, the ability to generate mental images to facilitate spatial reasoning resembles the mind's eye process, suggesting its potential viability in MLLMs.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# WorDepth: 単眼深度推定に先立つ変分言語

WorDepth: Variational Language Prior for Monocular Depth Estimation ( http://arxiv.org/abs/2404.03635v3 )

ライセンス: Link先を確認
Ziyao Zeng, Hyoungseob Park, Daniel Wang, Fengyu Yang, Yangchao Wu, Stefano Soatto, Byung-Woo Hong, Dong Lao, Alex Wong, (参考訳) 単一画像からの3次元3次元再構成は、固有の曖昧さ、すなわちスケールに関する不適切な問題である。 テキスト記述(s)から3Dシーンを予測するのも同様に、例えば、記述されたオブジェクトの空間配置が不適切である。 本研究では,2つの本質的にあいまいなモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。 これをテストするために、単眼深度推定(単眼深度推定)、一眼画像から深度マップを予測する問題、シーンを記述した追加のテキストキャプションに焦点をあてる。 この目的のために,テキストキャプションを平均および標準偏差として符号化することから始め,変分フレームワークを用いて,テキストキャプションに対応する3次元シーンの可算的再現の分布を先行として学習する。 特定の再構成や深度マップを「選択」するために、与えられた画像を条件付きサンプルにより符号化し、変分テキストエンコーダの潜時空間からサンプリングし、出力深度マップに復号する。 1つの最適化ステップでは、標準ガウス語からのテキスト記述とサンプルからの平均偏差と標準偏差を予測し、もう1つは(画像)条件付きサンプルを用いてサンプルをサンプリングする。 トレーニングが完了すると、条件付きサンプルを用いて、エンコードされたテキストから深度を直接予測する。 室内(NYUv2)と屋外(KITTI)のシナリオに対する我々のアプローチを実証する。

Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To "select" a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# 理想としてのアライメント:フェデレーション型医用ビジョンランゲージ事前トレーニングのためのクロスモーダルアライメントバインディング

Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training ( http://arxiv.org/abs/2404.03854v2 )

ライセンス: Link先を確認
Zitao Shuai, Liyue Shen, (参考訳) 視覚言語事前学習(VLP)は、マルチモーダル表現学習の効率的なスキームとして生まれてきたが、事前学習には大規模なマルチモーダルデータが必要であるため、特に医学的応用において障害となる。 データ制限を克服するために、フェデレートドラーニング(FL)は、データのプライバシを保護しながら、医療用VLPのデータセットをスケールアップする有望な戦略である。 しかし、クライアントデータは実世界のシナリオでは不均一であることが多く、不均一なクライアントデータに対する局所的な訓練がマルチモーダル表現学習を歪め、偏りのあるクロスモーダルアライメントにつながることが観察される。 この課題に対処するため,FedAID(Federated Align as IDeal)フレームワークを提案する。 具体的には、ローカルトレーニング中にクライアントデータセットから多様なセマンティクスを学習しながら、グローバル集約機能の歪みを低減するために、ローカルモデルによって学習されたクロスモデル整列表現空間を、ガイダンスベースの正規化により非バイアス付きモデルに結合することを提案する。 さらに、分布に基づくmin-max最適化を用いて、フェデレート事前学習の各通信ターンにおける非バイアスのクロスモーダルアライメントを学習する。 実世界のデータセットを用いた実験により,データ不均一性のある医療用VLPのための効率的なフェデレーション型マルチモーダル学習を効果的に促進できることが実証された。

Vision-language pre-training (VLP) has arised as an efficient scheme for multimodal representation learning, but it requires large-scale multimodal data for pre-training, making it an obstacle especially for medical applications. To overcome the data limitation, federated learning (FL) can be a promising strategy to scale up the dataset for medical VLP while protecting data privacy. However, client data are often heterogeneous in real-world scenarios, and we observe that local training on heterogeneous client data would distort the multimodal representation learning and lead to biased cross-modal alignment. To address this challenge, we propose a Federated Align as IDeal (FedAID) framework for federated VLP with robustness to data heterogeneity, to bind local clients with an ideal crossmodal alignment. Specifically, to reduce distortions on global-aggregated features while learning diverse semantics from client datasets during local training, we propose to bind the cross-model aligned representation space learned by local models with an unbiased one via guidance-based regularization. Moreover, we employ a distribution-based min-max optimization to learn the unbiased cross-modal alignment at each communication turn of federated pre-training. The experiments on real-world datasets demonstrate our method successfully promotes efficient federated multimodal learning for medical VLP with data heterogeneity.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# スコアアイデンティティ蒸留:1ステップ生成のための予混合拡散モデルの指数的高速蒸留

Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation ( http://arxiv.org/abs/2404.04057v3 )

ライセンス: Link先を確認
Mingyuan Zhou, Huangjie Zheng, Zhendong Wang, Mingzhang Yin, Hai Huang, (参考訳) Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。 SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。 半単純分布として前方拡散過程を再構成することにより、3つのスコア関連アイデンティティを活用して革新的な損失機構を創出する。 この機構は、独自の合成画像を用いてジェネレータを訓練することにより、高速なFID削減を実現する。 4つのベンチマークデータセットで評価すると、SiDアルゴリズムは蒸留中の高いイテレーション効率を示し、生成品質の観点から1段階か2段階か、データフリーか、あるいはトレーニングデータに依存しているか、競合する蒸留アプローチを超越する。 この成果は、拡散蒸留における効率と有効性のためのベンチマークを再定義するだけでなく、拡散ベース生成の幅広い分野にも及んでいる。 PyTorchの実装はhttps://github.com/mingyuanzhou/SiDで公開されている。

We introduce Score identity Distillation (SiD), an innovative data-free method that distills the generative capabilities of pretrained diffusion models into a single-step generator. SiD not only facilitates an exponentially fast reduction in Fr\'echet inception distance (FID) during distillation but also approaches or even exceeds the FID performance of the original teacher diffusion models. By reformulating forward diffusion processes as semi-implicit distributions, we leverage three score-related identities to create an innovative loss mechanism. This mechanism achieves rapid FID reduction by training the generator using its own synthesized images, eliminating the need for real data or reverse-diffusion-based generation, all accomplished within significantly shortened generation time. Upon evaluation across four benchmark datasets, the SiD algorithm demonstrates high iteration efficiency during distillation and surpasses competing distillation approaches, whether they are one-step or few-step, data-free, or dependent on training data, in terms of generation quality. This achievement not only redefines the benchmarks for efficiency and effectiveness in diffusion distillation but also in the broader field of diffusion-based generation. The PyTorch implementation is available at https://github.com/mingyuanzhou/SiD
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル

What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v8 )

ライセンス: Link先を確認
Mark Stefik, (参考訳) 便利なロボット(テレロボットを含む)を作ることは困難であり、堅牢で汎用的な自律ロボットを作ることは困難である。 現在のスマートロボットは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を使って作成されている。 これらの手法は、ディープラーニング、生成AI、基礎モデル(FM)で見られるパフォーマンスと一般性の飛躍に繋がらない。 現代のロボットは、ホームケア、看護助手、家事の仕方など、人よりはマシなことを学ばない。 ロボットサービスアプリケーションの願望に応えるには、その作り方を改善する必要がある。 2足歩行ロボット(ボディ)の高コストは、研究と展開の両方において大きな障害となる。 より深い問題は、主流のFM(「ミンド」)が現実世界の文脈における知覚、行動、学習をサポートしていないことである。 うまくコミュニケーションしたり協力したりするロボットに繋がることはない。 実験をしたり、他人に質問したり、模倣学習を適当に行おうとするロボットに導かれることはない。 それらは、サービスアプリケーションに広くデプロイされるのに十分な知識を持つロボットにつながらない。 本稿では、人間互換サービスロボットが知っておくべきことに焦点を当てる。 ブートストラップのための経験的(別名「ロボティック」)FMの開発を推奨している。

It is hard to make robots (including telerobots) that are useful, and harder to make autonomous robots that are robust and general. Current smart robots are created using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning, generative AI, and foundation models (FMs). Today's robots do not learn to provide home care, to be nursing assistants, or to do household chores nearly as well as people do. Addressing the aspirational opportunities of robot service applications requires improving how they are created. The high cost of bipedal multi-sensory robots ("bodies") is a significant obstacle for both research and deployment. A deeper issue is that mainstream FMs ("minds") do not support sensing, acting, and learning in context in the real world. They do not lead to robots that communicate well or collaborate. They do not lead to robots that try to learn by experimenting, by asking others, or by imitation learning as appropriate. They do not lead to robots that know enough to be deployed widely in service applications. This paper focuses on what human-compatible service robots need to know. It recommends developing experiential (aka "robotic") FMs for bootstrapping them.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# 視覚変換器へのLLaMAデコーダの適用

Adapting LLaMA Decoder to Vision Transformer ( http://arxiv.org/abs/2404.06773v3 )

ライセンス: Link先を確認
Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo, (参考訳) 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。 まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、カジュアルマスクを自己注意に直接適用することで、注意崩壊の問題が生じ、ネットワークトレーニングに失敗する。 本稿では,この課題を克服するために,画像トークンの背後にクラストークンを配置し,因果自己認識により画像全体の情報を効率的にキャプチャする手法を提案する。 さらに,学習開始時の自己注意にカジュアルマスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。 イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAに似ており、直接教師付き学習を可能にする。 その因果自己注意は計算効率を高め、注意マップのランクを上げることによって複雑な表現を学ぶ。 iLLaMAはエンコーダのみのパフォーマンスと競合し、5.7Mパラメータで75.1%のImageNetトップ1の精度を達成した。 モデルを310Mにスケールアップし、ImageNet-21Kで事前トレーニングすることで、精度は86.0%に向上した。 大規模な実験では、校正、形状・テクスチャバイアス、量子化互換性、ADE20Kセグメンテーション、CIFAR転送学習といったiLLaMAの信頼性特性が示されている。 LLMの波における視覚モデル設計への新たな視点を、我々の研究が生み出すことを願っている。 事前訓練されたモデルとコードはここにある。

This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# 動物運動キャプチャーのための飛行船形成と行動解析

Airship Formations for Animal Motion Capture and Behavior Analysis ( http://arxiv.org/abs/2404.08986v2 )

ライセンス: Link先を確認
Eric Price, Aamir Ahmad, (参考訳) UAVを野生動物の観察やモーションキャプチャーに利用することで、野生の動物、特に開けた地形の牧草地の研究に多様体の利点を提供する。 空中の視界は、地上では不可能なスケールと深さでの観測を可能にし、グループ行動に対する新たな洞察を提供する。 しかし、野生生物のフィールドスタディの本質は、従来の固定翼とマルチコプターのシステムに限界を与え、飛行時間、騒音、安全面がそれらの効果に影響を与える。 それでも、飛行船は地上操作の観点からも制御の観点からも困難であり、風の影響を受けやすい。 本研究では,飛行船形状を用いて,飛行船設計,シミュレーション,制御,ボードコンピュータビジョン,自律動作,フィールド実験の実践的側面など,様々な角度から野生の馬を追跡・追跡・視覚的に記録するシステムを紹介する。

Using UAVs for wildlife observation and motion capture offers manifold advantages for studying animals in the wild, especially grazing herds in open terrain. The aerial perspective allows observation at a scale and depth that is not possible on the ground, offering new insights into group behavior. However, the very nature of wildlife field-studies puts traditional fixed wing and multi-copter systems to their limits: limited flight time, noise and safety aspects affect their efficacy, where lighter than air systems can remain on station for many hours. Nevertheless, airships are challenging from a ground handling perspective as well as from a control point of view, being voluminous and highly affected by wind. In this work, we showcase a system designed to use airship formations to track, follow, and visually record wild horses from multiple angles, including airship design, simulation, control, on board computer vision, autonomous operation and practical aspects of field experiments.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# 非階層型変圧器を用いたピアノ自動書き起こしのためのスコーリング間隔

Scoring Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription ( http://arxiv.org/abs/2404.09466v4 )

ライセンス: Link先を確認
Yujia Yan, Zhiyao Duan, (参考訳) 半マルコフ条件ランダムフィールド(semi-CRF)フレームワークは、イベントベースのピアノの書き起こしを約束している。 このフレームワークでは、すべてのイベント(ノートまたはペダル)は特定のイベントタイプに結びついた閉じたインターバルとして表現される。 神経半CRFアプローチでは、各候補区間のスコアを割り当てるインターバルスコア行列が必要となる。 しかし、間隔を測るための効率的で表現力豊かなアーキテクチャを設計するのは簡単ではない。 本稿では,変圧器における注目スコアの仕方に類似したスケール内積演算を用いた簡易なスコアリング手法を提案する。 理論的には、重複しない区間を符号化する特別な構造のため、内部積演算は、正しい転写結果が得られる理想的なスコアリング行列を表現するのに十分である。 次に,低分解能特徴写像のみで動作するエンコーダのみの非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。 実験により,提案手法は,Maestroデータセット上のF1測度を用いて,すべてのサブタスクにまたがる新しい最先端性能を実現することを示す。

The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.
翻訳日:2024-05-27 20:37:11 公開日:2024-05-24
# Ctrl-Adapter:任意の拡散モデルに分散制御を適応するための効率的でヴァーサタイルなフレームワーク

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model ( http://arxiv.org/abs/2404.09967v2 )

ライセンス: Link先を確認
Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal, (参考訳) ControlNetは、深度マップ、スクリブル/スケッチ、人間のポーズなど、異なる条件でテキストと画像の拡散モデルに空間制御を追加するために広く使用されている。 しかし、コントロール可能なビデオ生成に関しては、機能空間のミスマッチのため、コントロールネットを新しいバックボーンに直接統合することはできない。 さらに、異なるフレームに独立してControlNetを適用することは、オブジェクトの時間的一貫性を効果的に維持することはできない。 これらの課題に対処するために、Ctrl-Adapterを紹介した。Ctrl-Adapterは、任意の画像/ビデオ拡散モデルに、事前訓練された制御ネットの適応を通じて、多様な制御を追加する、効率的で汎用的なフレームワークである。 Ctrl-Adapterは、画像とビデオの制御、スパースフレームのビデオ制御、(MoEルータを介して)きめ細かいパッチレベルのマルチコンディション制御、見えない条件へのゼロショット適応、ビデオ編集、ビデオスタイル転送、テキスト誘導モーションコントロールなど、様々なダウンストリームタスクをサポートするなど、強力で多様な機能を提供する。 6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデル(SDXL、PixArt-$\alpha$、I2VGen-XL、SVD、Latte、Hotshot-XL)により、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致し、DAVIS 2017における最先端の計算(10GPU時間)を達成する。

ControlNets are widely used for adding spatial control to text-to-image diffusion models with different conditions, such as depth maps, scribbles/sketches, and human poses. However, when it comes to controllable video generation, ControlNets cannot be directly integrated into new backbones due to feature space mismatches, and training ControlNets for new backbones can be a significant burden for many users. Furthermore, applying ControlNets independently to different frames cannot effectively maintain object temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion model through the adaptation of pretrained ControlNets. Ctrl-Adapter offers strong and diverse capabilities, including image and video control, sparse-frame video control, fine-grained patch-level multi-condition control (via an MoE router), zero-shot adaptation to unseen conditions, and supports a variety of downstream tasks beyond spatial control, including video editing, video style transfer, and text-guided motion control. With six diverse U-Net/DiT-based image/video diffusion models (SDXL, PixArt-$\alpha$, I2VGen-XL, SVD, Latte, Hotshot-XL), Ctrl-Adapter matches the performance of pretrained ControlNets on COCO and achieves the state-of-the-art on DAVIS 2017 with significantly lower computation (< 10 GPU hours).
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 非フラットな仮定に基づく論証の確立と計算的側面

Instantiations and Computational Aspects of Non-Flat Assumption-based Argumentation ( http://arxiv.org/abs/2404.11431v2 )

ライセンス: Link先を確認
Tuomo Lehtonen, Anna Rapberger, Francesca Toni, Markus Ulbricht, Johannes P. Wallner, (参考訳) 仮定に基づく議論(ABA)のための既存の計算ツールのほとんどは、より一般的なケースを無視して、いわゆるフラットフレームワークに焦点を当てている。 本稿では,非平坦なABAにおける推論に対するインスタンス化に基づくアプローチについて検討する。 ABAとバイポーラ議論フレームワーク(BAF)のセマンティックス保存翻訳を利用する。 コンパイル可能性理論を利用することで、構築されたBAFが一般に指数関数のサイズになることを示す。 議論の数と計算コストを低く抑えるために、冗長な議論を識別する3つの方法を提案する。 さらに,ポリサイズインスタンス化を許容するABAの断片を同定する。 非平坦なABAにおける推論のための2つのアルゴリズム的アプローチを提案する。 第1のアプローチはBAFインスタンス化を利用し、第2のアプローチは引数を構築することなく直接動作する。 経験的評価は、BAF推論の複雑さが低いことを反映して、前者が後者を多くのケースで上回っていることを示している。 この結果は、直接アプローチがインスタンスベースのアプローチを支配しているフラットなABAとは対照的である。

Most existing computational tools for assumption-based argumentation (ABA) focus on so-called flat frameworks, disregarding the more general case. In this paper, we study an instantiation-based approach for reasoning in possibly non-flat ABA. We make use of a semantics-preserving translation between ABA and bipolar argumentation frameworks (BAFs). By utilizing compilability theory, we establish that the constructed BAFs will in general be of exponential size. In order to keep the number of arguments and computational cost low, we present three ways of identifying redundant arguments. Moreover, we identify fragments of ABA which admit a poly-sized instantiation. We propose two algorithmic approaches for reasoning in possibly non-flat ABA. The first approach utilizes the BAF instantiation while the second works directly without constructing arguments. An empirical evaluation shows that the former outperforms the latter on many instances, reflecting the lower complexity of BAF reasoning. This result is in contrast to flat ABA, where direct approaches dominate instantiation-based approaches.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 視覚言語モデルを用いた効果的なHOI検出のための対話型セマンティックアライメントの探索

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model ( http://arxiv.org/abs/2404.12678v3 )

ライセンス: Link先を確認
Jihao Dong, Renjie Pan, Hua Yang, (参考訳) 人間-物体相互作用(Human-Object Interaction、HOI)は、対象対を局所化し、その相互作用を理解することを目的としている。 近年,二段変圧器を用いた手法が競争性能を実証している。 しかし,これらの手法はしばしばオブジェクトの外観に焦点を合わせ,グローバルな文脈情報を無視する。 さらに、視覚とテキストの埋め込みを効果的に整合させる視覚言語モデルCLIPは、ゼロショットHOI検出において大きな可能性を示している。 従来の事実に基づいて,CLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる新しいHOI検出器ISA-HOIを導入する。 まず、画像中のインタラクション機能を改善するために、画像のグローバルなコンテキストとオブジェクトの局所的な特徴を抽出する。 一方,動詞ラベルのテキスト的特徴をクロスモーダル融合により拡張するVerb Semantic Improvement (VSI) モジュールを提案する。 最終的に, HICO-DETとV-COCOのベンチマークにおいて, トレーニングのエポックスを大幅に減らし, ゼロショット環境での最先端性能を向上する。

Human-Object Interaction (HOI) detection aims to localize human-object pairs and comprehend their interactions. Recently, two-stage transformer-based methods have demonstrated competitive performance. However, these methods frequently focus on object appearance features and ignore global contextual information. Besides, vision-language model CLIP which effectively aligns visual and text embeddings has shown great potential in zero-shot HOI detection. Based on the former facts, We introduce a novel HOI detector named ISA-HOI, which extensively leverages knowledge from CLIP, aligning interactive semantics between visual and textual features. We first extract global context of image and local features of object to Improve interaction Features in images (IF). On the other hand, we propose a Verb Semantic Improvement (VSI) module to enhance textual features of verb labels via cross-modal fusion. Ultimately, our method achieves competitive results on the HICO-DET and V-COCO benchmarks with much fewer training epochs, and outperforms the state-of-the-art under zero-shot settings.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# MambaUIE&SR:2.8 GFLOPsで海の秘密を解き放つ

MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs ( http://arxiv.org/abs/2404.13884v2 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, (参考訳) 水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。 近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。 さらに、CNNとTransformerを組み合わせることで、グローバルとローカルの情報を効果的に組み合わせて強化することができる。 しかし、このアプローチはTransformerの二次的な複雑さの影響を受けており、パフォーマンスを最大化することはできない。 近年,状態空間モデル(SSM)に基づくアーキテクチャであるMambaが提案されている。 本稿では、このSSMベースのUIEモデルの可能性について、効率性と有効性の両方の観点から検討する。 しかし, 画像強調に欠かせない局所的なきめ細かい特徴を十分に活用できないため, 直接マンバを施す性能は低い。 具体的には、効率的なUIEのためにMambaUIEアーキテクチャをカスタマイズする。 具体的には、ローカル情報をマイクロレベルでマイニングしながら、マクロレベルでグローバルなコンテキスト情報をキャプチャするために、視覚状態空間(VSS)ブロックを導入する。 また、これらの2種類の情報に対して、ブロック内特徴集約のための動的相互作用ブロック(DIB)と空間フィードフォワードネットワーク(SGFN)を提案する。 MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。 UIEBデータセットを用いた実験により,本手法はSOTA法と比較してGFLOPsを67.4%削減することがわかった。 我々の知る限りでは、これはSSMに基づいて構築された最初のUIEモデルであり、UIEの精度に関するFLOPの制限を破るものです。 MambaUIE at https://github.com/1024AILab/MambaUIE.com

Underwater Image Enhancement (UIE) techniques aim to address the problem of underwater image degradation due to light absorption and scattering. In recent years, both Convolution Neural Network (CNN)-based and Transformer-based methods have been widely explored. In addition, combining CNN and Transformer can effectively combine global and local information for enhancement. However, this approach is still affected by the secondary complexity of the Transformer and cannot maximize the performance. Recently, the state-space model (SSM) based architecture Mamba has been proposed, which excels in modeling long distances while maintaining linear complexity. This paper explores the potential of this SSM-based model for UIE from both efficiency and effectiveness perspectives. However, the performance of directly applying Mamba is poor because local fine-grained features, which are crucial for image enhancement, cannot be fully utilized. Specifically, we customize the MambaUIE architecture for efficient UIE. Specifically, we introduce visual state space (VSS) blocks to capture global contextual information at the macro level while mining local information at the micro level. Also, for these two kinds of information, we propose a Dynamic Interaction Block (DIB) and Spatial feed-forward Network (SGFN) for intra-block feature aggregation. MambaUIE is able to efficiently synthesize global and local information and maintains a very small number of parameters with high accuracy. Experiments on UIEB datasets show that our method reduces GFLOPs by 67.4% (2.715G) relative to the SOTA method. To the best of our knowledge, this is the first UIE model constructed based on SSM that breaks the limitation of FLOPs on accuracy in UIE. The official repository of MambaUIE at https://github.com/1024AILab/MambaUIE.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 大規模言語モデルにおける情報再編成による推論の改善

Information Re-Organization Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2404.13985v2 )

ライセンス: Link先を確認
Xiaoxia Cheng, Zeqi Tan, Wei Xue, Weiming Lu, (参考訳) 大きな言語モデル(LLM)の推論能力を改善することには、かなりの関心が寄せられている。 最近のアプローチは、より正確な最終回答を得るための推論プロセスの改善に重点を置いている。 しかしながら、文脈的に認識された推論を含むシナリオでは、これらの手法は、推論を進める前に、文脈から論理的関係を最初に識別することの重要性を無視する。 この監視は、表面的な理解とコンテキストとの相互作用をもたらし、推論結果の品質と信頼性を損なう可能性がある。 本稿では,LLMの推論能力を高めるために,情報再構成(InfoRE)手法を提案する。 本手法では,まず,文書や段落などの文脈的内容から論理的関係を抽出し,その後,ノイズを最小限に抑えるために冗長な内容を抽出する。 そして、推論過程において、再編成された情報を利用する。 これにより、LLMはこれらの論理的関係を明確に認識し、潜在的なノイズを排除して高品質な応答を確保することで、文脈的内容の理解を深めることができる。 Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。 ゼロショット設定のみを用いて全タスクで平均4%の絶対的な改善を実現し,LCMの推論性能向上の可能性を強調した。 ソースコードはhttps://github.com/hustcxx/InfoRE.comで公開されています。

Improving the reasoning capabilities of large language models (LLMs) has attracted considerable interest. Recent approaches primarily focus on improving the reasoning process to yield a more precise final answer. However, in scenarios involving contextually aware reasoning, these methods neglect the importance of first identifying logical relationships from the context before proceeding with the reasoning. This oversight could lead to a superficial understanding and interaction with the context, potentially undermining the quality and reliability of the reasoning outcomes. In this paper, we propose an information re-organization (InfoRE) method before proceeding with the reasoning to enhance the reasoning ability of LLMs. Our re-organization method involves initially extracting logical relationships from the contextual content, such as documents or paragraphs, and subsequently pruning redundant content to minimize noise. Then, we utilize the re-organized information in the reasoning process. This enables LLMs to deeply understand the contextual content by clearly perceiving these logical relationships, while also ensuring high-quality responses by eliminating potential noise. To demonstrate the effectiveness of our approach in improving the reasoning ability, we conduct experiments using Llama2-70B, GPT-3.5, and GPT-4 on various contextually aware multi-hop reasoning tasks. Using only a zero-shot setting, our method achieves an average absolute improvement of 4% across all tasks, highlighting its potential to improve the reasoning performance of LLMs. Our source code is available at https://github.com/hustcxx/InfoRE.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 一般回転制約下における無限多腕バンドの適応的アプローチ

An Adaptive Approach for Infinitely Many-armed Bandits under Generalized Rotting Constraints ( http://arxiv.org/abs/2404.14202v2 )

ライセンス: Link先を確認
Jung-hun Kim, Milan Vojnovic, Se-Young Yun, (参考訳) 本研究では、休息状態において、アームの平均報酬が各プルで減少する可能性があるが、そうでなければ変化しない、無限に多くの武器を持つバンディット問題を考察する。 報奨金の累積金額をスローローティングケースと呼ぶ$V_T$と、突然ローティングケースと呼ばれる$S_T$の累積個数をバウンドする$S_T$の2つのシナリオを探索する。 ローティング報酬による課題に対処するため,ローッティング報酬によるバイアスと分散トレードオフを管理するために,適応的なスライディングウインドウを備えたUPBを利用するアルゴリズムを導入する。 提案アルゴリズムは, 遅い, 突然のローティングシナリオの双方に対して, 厳密な後悔境界を達成できる。 最後に,数値実験を用いてアルゴリズムの性能を示す。

In this study, we consider the infinitely many-armed bandit problems in a rested rotting setting, where the mean reward of an arm may decrease with each pull, while otherwise, it remains unchanged. We explore two scenarios regarding the rotting of rewards: one in which the cumulative amount of rotting is bounded by $V_T$, referred to as the slow-rotting case, and the other in which the cumulative number of rotting instances is bounded by $S_T$, referred to as the abrupt-rotting case. To address the challenge posed by rotting rewards, we introduce an algorithm that utilizes UCB with an adaptive sliding window, designed to manage the bias and variance trade-off arising due to rotting rewards. Our proposed algorithm achieves tight regret bounds for both slow and abrupt rotting scenarios. Lastly, we demonstrate the performance of our algorithm using numerical experiments.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 機械学習における大規模言語モデルを用いたデータセットの文書化

Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning ( http://arxiv.org/abs/2404.15320v2 )

ライセンス: Link先を確認
Joan Giner-Miguelez, Abel Gómez, Jordi Cabot, (参考訳) 欧州AI法や機械学習(ML)コミュニティにおける関連する声といった最近の規制イニシアチブは、前例のプロセスや社会的懸念など、信頼できるAIのいくつかの重要な側面に沿ってデータセットを記述する必要性を強調している。 しかしながら、この情報は典型的には、ドキュメントに付随する非構造化テキストとして表示され、その自動解析と処理を妨げる。 本研究では,大規模言語モデル (LLM) と文書からこれらの次元を自動的に抽出し,それらを用いたデータセット記述を充実させる一連の手順について検討する。 このアプローチは、データパブリッシャや実践者が、データセットの発見性を改善し、現在のAI規則への準拠を評価し、トレーニングされたMLモデルの全体的な品質を改善するために、マシン可読なドキュメントを作成する上で役立ちます。 本稿では,2つの学術雑誌(Nature's Scientific Data and Elsevier's Data in Brief)に掲載された12の学術論文に対するアプローチを,GPT3.5とFlan-UL2の2つの異なるLCMを用いて評価する。 その結果, 抽出手法の精度は良好であった。 コンクリートは寸法によって異なるが, GPT3.5は幻覚の傾向が強いものの, FLAN-UL2 (69,13%) よりも若干精度が良い(81,21%)。 我々は、我々のアプローチを実装したオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをオープンソースリポジトリでリリースしました。

Recent regulatory initiatives like the European AI Act and relevant voices in the Machine Learning (ML) community stress the need to describe datasets along several key dimensions for trustworthy AI, such as the provenance processes and social concerns. However, this information is typically presented as unstructured text in accompanying documentation, hampering their automated analysis and processing. In this work, we explore using large language models (LLM) and a set of prompting strategies to automatically extract these dimensions from documents and enrich the dataset description with them. Our approach could aid data publishers and practitioners in creating machine-readable documentation to improve the discoverability of their datasets, assess their compliance with current AI regulations, and improve the overall quality of ML models trained on them. In this paper, we evaluate the approach on 12 scientific dataset papers published in two scientific journals (Nature's Scientific Data and Elsevier's Data in Brief) using two different LLMs (GPT3.5 and Flan-UL2). Results show good accuracy with our prompt extraction strategies. Concrete results vary depending on the dimensions, but overall, GPT3.5 shows slightly better accuracy (81,21%) than FLAN-UL2 (69,13%) although it is more prone to hallucinations. We have released an open-source tool implementing our approach and a replication package, including the experiments' code and results, in an open-source repository.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 競合リスクの存在下でのEHRデータに対する静的および動的ランダム森林モデルの比較:中央線関連血流感染の予測

Comparison of static and dynamic random forests models for EHR data in the presence of competing risks: predicting central line-associated bloodstream infection ( http://arxiv.org/abs/2404.16127v2 )

ライセンス: Link先を確認
Elena Albu, Shan Gao, Pieter Stijnen, Frank Rademakers, Christel Janssens, Veerle Cossey, Yves Debaveye, Laure Wynants, Ben Van Calster, (参考訳) 病院の入院に関する予後の結果は、一般的に検閲に苦しめられず、分類的にも時間的にもモデル化できる。 競合イベントは一般的だが、しばしば無視される。 本研究は無作為林(RF)モデルを用いて中央線関連血液ストリーム感染症(CLABSI)の発症リスクを予測した。 27478例(CLABSI, 1466例, 28426例)を対象とし, 静的および動的RFモデルの構築(CLABSI vs. CLABSI), マルチノミアル(CLABSI, 退院, 退院, 退院, 退院), 生存(CLABSIまで), 競合リスク(CLABSIまでの時間, 退院, 退院), 7日間のCLABSIリスクの予測を行った。 列車/テストスプリット100回にわたってモデル性能を評価した。 AUROCはベースライン予測では0.74で、カテーテルエピソードでは5日目の予測では0.78まで上昇し、その後低下した。 生存モデルはCLABSI(E:O比1.2から1.6)のリスクを過大評価し、AUROCは他のモデルよりも約0.01低かった。 二項モデルと多項モデルでは計算時間が低かった。 複数の結果イベントを含むモデル(複数のリスクと競合するリスク)は、バイナリやサバイバルモデルとは異なる内部構造を示す。 検閲がない場合、複雑なモデリング選択はCLABSI予測のバイナリモデルと比較して予測性能を著しく改善しない。 発生時に競合するイベントを検閲する生存モデルは避けるべきである。

Prognostic outcomes related to hospital admissions typically do not suffer from censoring, and can be modeled either categorically or as time-to-event. Competing events are common but often ignored. We compared the performance of random forest (RF) models to predict the risk of central line-associated bloodstream infections (CLABSI) using different outcome operationalizations. We included data from 27478 admissions to the University Hospitals Leuven, covering 30862 catheter episodes (970 CLABSI, 1466 deaths and 28426 discharges) to build static and dynamic RF models for binary (CLABSI vs no CLABSI), multinomial (CLABSI, discharge, death or no event), survival (time to CLABSI) and competing risks (time to CLABSI, discharge or death) outcomes to predict the 7-day CLABSI risk. We evaluated model performance across 100 train/test splits. Performance of binary, multinomial and competing risks models was similar: AUROC was 0.74 for baseline predictions, rose to 0.78 for predictions at day 5 in the catheter episode, and decreased thereafter. Survival models overestimated the risk of CLABSI (E:O ratios between 1.2 and 1.6), and had AUROCs about 0.01 lower than other models. Binary and multinomial models had lowest computation times. Models including multiple outcome events (multinomial and competing risks) display a different internal structure compared to binary and survival models. In the absence of censoring, complex modelling choices do not considerably improve the predictive performance compared to a binary model for CLABSI prediction in our studied settings. Survival models censoring the competing events at their time of occurrence should be avoided.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# オープンソース生成AIの中期的リスクと機会

Near to Mid-term Risks and Opportunities of Open-Source Generative AI ( http://arxiv.org/abs/2404.17047v2 )

ライセンス: Link先を確認
Francisco Eiras, Aleksandar Petrov, Bertie Vidgen, Christian Schroeder de Witt, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Botos Csaba, Fabro Steibel, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Marvin Imperial, Juan A. Nolazco-Flores, Lori Landay, Matthew Jackson, Paul Röttger, Philip H. S. Torr, Trevor Darrell, Yong Suk Lee, Jakob Foerster, (参考訳) 今後数年間で、ジェネレーティブAIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震的な変化の可能性は、潜在的なリスクについて活発に議論を巻き起こし、特にAI開発をリードする大手テック企業からの厳しい規制を要求した。 この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。 我々は、生成的AIモデルの短期的および中期的オープンソース化の責任について論じる。 ステージを設定するために、まずAIオープンネス分類システムを導入し、それを現在の40の大規模言語モデルに適用する。 次に、オープンソースとクローズドソースAIの異なる利点とリスクを概説し、ベストプラクティスから技術的および科学的貢献の要求まで、潜在的なリスク軽減を提示します。 このレポートは、現在公の場でAIの安全性やその他の社会的影響に関する議論に欠如している声を加えることを願っている。

In the next few years, applications of Generative AI are expected to revolutionize a number of different areas, ranging from science & medicine to education. The potential for these seismic changes has triggered a lively debate about potential risks and resulted in calls for tighter regulation, in particular from some of the major tech companies who are leading in AI development. This regulation is likely to put at risk the budding field of open-source Generative AI. We argue for the responsible open sourcing of generative AI models in the near and medium term. To set the stage, we first introduce an AI openness taxonomy system and apply it to 40 current large language models. We then outline differential benefits and risks of open versus closed source AI and present potential risk mitigation, ranging from best practices to calls for technical and scientific contributions. We hope that this report will add a much needed missing voice to the current public discourse on near to mid-term AI safety and other societal impact.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# 等変極小学習機械による部分微分方程式の解法

Solving Partial Differential Equations with Equivariant Extreme Learning Machines ( http://arxiv.org/abs/2404.18530v4 )

ライセンス: Link先を確認
Hans Harder, Jean Rabault, Ricardo Vinuesa, Mikael Mortensen, Sebastian Peitz, (参考訳) 偏微分方程式(PDE)の予測に極端学習機を用いる。 提案手法では,状態空間を複数のウィンドウに分割し,一つのモデルを用いて個別に予測する。 少数のデータポイントしか必要とせず(場合によっては、我々の手法は1つのフルステートスナップショットから学習することができる)、高い精度でPDEのフローを予測できる。 さらに, サンプル効率を高め, 等式を強制するために, 追加の対称性をいかに活用できるかを示す。

We utilize extreme-learning machines for the prediction of partial differential equations (PDEs). Our method splits the state space into multiple windows that are predicted individually using a single model. Despite requiring only few data points (in some cases, our method can learn from a single full-state snapshot), it still achieves high accuracy and can predict the flow of PDEs over long time horizons. Moreover, we show how additional symmetries can be exploited to increase sample efficiency and to enforce equivariance.
翻訳日:2024-05-27 20:27:27 公開日:2024-05-24
# グラフ変換器のオーバーグローバル化問題について

Less is More: on the Over-Globalizing Problem in Graph Transformers ( http://arxiv.org/abs/2405.01102v2 )

ライセンス: Link先を確認
Yujie Xing, Xiao Wang, Yibo Li, Hai Huang, Chuan Shi, (参考訳) Graph Transformerは、そのグローバルなアテンションメカニズムのため、グラフ構造化データを扱うための新しいツールとして登場した。 グローバルアテンション機構が完全に連結されたグラフにおいてより広い受容場を考慮していることはよく知られており、多くの人が有用な情報を全てのノードから抽出できると考えている。 本稿では,グローバル化プロパティが常にグラフトランスフォーマーに利益をもたらすかという,この信念に挑戦する。 グラフトランスフォーマーにおける過剰なグローバル化問題は,経験的エビデンスと理論的解析の両方を提示することにより明らかにする。すなわち,現在の注意機構は,これらの遠隔ノードに過度に焦点を絞っているのに対して,近いノードは実際には有用な情報のほとんどを含むが,比較的弱っている。 次に, クラスタ間およびクラスタ内変換器を含む協調学習用バイレベルグローバルグラフトランス (CoBFormer) を提案する。 さらに,理論的保証によりモデルの一般化能力を向上させるための協調学習を提案する。 各種グラフに対する大規模な実験は,提案したCoBFormerの有効性をよく検証する。

Graph Transformer, due to its global attention mechanism, has emerged as a new tool in dealing with graph-structured data. It is well recognized that the global attention mechanism considers a wider receptive field in a fully connected graph, leading many to believe that useful information can be extracted from all the nodes. In this paper, we challenge this belief: does the globalizing property always benefit Graph Transformers? We reveal the over-globalizing problem in Graph Transformer by presenting both empirical evidence and theoretical analysis, i.e., the current attention mechanism overly focuses on those distant nodes, while the near nodes, which actually contain most of the useful information, are relatively weakened. Then we propose a novel Bi-Level Global Graph Transformer with Collaborative Training (CoBFormer), including the inter-cluster and intra-cluster Transformers, to prevent the over-globalizing problem while keeping the ability to extract valuable information from distant nodes. Moreover, the collaborative training is proposed to improve the model's generalization ability with a theoretical guarantee. Extensive experiments on various graphs well validate the effectiveness of our proposed CoBFormer.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# グラバーミクサー量子交互演算子アンザッツの性能上界

Performance Upper Bound of Grover-Mixer Quantum Alternating Operator Ansatz ( http://arxiv.org/abs/2405.03173v2 )

ライセンス: Link先を確認
Ningyi Xie, Jiahua Xu, Tiejin Chen, Xinwei Lee, Yoshiyuki Saito, Nobuyoshi Asai, Dongsheng Cai, (参考訳) QAOA(Quantum Alternating Operator Ansatz)は、組合せ最適化問題を解くための量子アルゴリズムの一分野である。 特定の変種であるGrover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA)は、等価な目的値を共有する状態間で均一な振幅を保証する。 この性質は、アルゴリズムを問題構造から独立させ、代わりに問題内の目的値の分布に焦点を当てる。 本研究では,所与の深さを持つGM-QAOA回路から計算基底状態を測定する確率上限を証明し,これはQAOAコストの重要な要因である。 これを用いて、最適解をサンプリングする確率と、最大最適化問題の近似比の上限を、目的値分布に依存するように導出する。 数値解析により,分布を問題サイズにリンクし,問題サイズ,QAOA深度,性能上限を関連づけた回帰モデルを構築する。 この結果から, GM-QAOAはサンプリング確率を2次的に向上させ, 回路深度を問題サイズとともに指数関数的に拡大して一貫した性能を維持する必要があることが示唆された。

The Quantum Alternating Operator Ansatz (QAOA) represents a branch of quantum algorithms for solving combinatorial optimization problems. A specific variant, the Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA), ensures uniform amplitude across states that share equivalent objective values. This property makes the algorithm independent of the problem structure, focusing instead on the distribution of objective values within the problem. In this work, we prove the probability upper bound for measuring a computational basis state from a GM-QAOA circuit with a given depth, which is a critical factor in QAOA cost. Using this, we derive the upper bounds for the probability of sampling an optimal solution, and for the approximation ratio of maximum optimization problems, both dependent on the objective value distribution. Through numerical analysis, we link the distribution to the problem size and build the regression models that relate the problem size, QAOA depth, and performance upper bound. Our results suggest that the GM-QAOA provides a quadratic enhancement in sampling probability and requires circuit depth that scales exponentially with problem size to maintain consistent performance.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# 大規模言語モデルヒューリスティックスによるQ-Learningの強化

Enhancing Q-Learning with Large Language Model Heuristics ( http://arxiv.org/abs/2405.03341v3 )

ライセンス: Link先を確認
Xiefeng Wu, (参考訳) Qラーニングは、シーケンシャルな意思決定タスクにおけるフィードバックからの学習に優れていますが、大きな改善を達成するには、広範囲なサンプリングが必要です。 報酬形成は学習効率を高めることができるが、非ポテンシャルベースの手法はパフォーマンスに影響を与えるバイアスを導入し、潜在的な報酬形成はバイアスのないが、状態-作用ペアに対するヒューリスティックを提供する能力が欠如しており、複雑な環境での有効性を制限している。 大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。 これらの課題に対処するために,LLMをヒューリスティックとして活用し,強化学習のためのQ関数の学習を支援するフレームワークである「textbf{LLM-guided Q-learning」を提案する。 我々の理論的分析は,本手法が幻覚に適応し,サンプル効率を向上し,最終的な性能のバイアスを回避することを実証している。 実験結果から,本アルゴリズムは汎用的で頑健であり,非効率な探索を防止できることが示唆された。

Q-learning excels in learning from feedback within sequential decision-making tasks but often requires extensive sampling to achieve significant improvements. While reward shaping can enhance learning efficiency, non-potential-based methods introduce biases that affect performance, and potential-based reward shaping, though unbiased, lacks the ability to provide heuristics for state-action pairs, limiting its effectiveness in complex environments. Large language models (LLMs) can achieve zero-shot learning for simpler tasks, but they suffer from low inference speeds and occasional hallucinations. To address these challenges, we propose \textbf{LLM-guided Q-learning}, a framework that leverages LLMs as heuristics to aid in learning the Q-function for reinforcement learning. Our theoretical analysis demonstrates that this approach adapts to hallucinations, improves sample efficiency, and avoids biasing final performance. Experimental results show that our algorithm is general, robust, and capable of preventing ineffective exploration.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# DeepSeek-V2: 強力な、経済的、効率的混合型言語モデル

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ( http://arxiv.org/abs/2405.04434v4 )

ライセンス: Link先を確認
DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu, Chenggang Zhao, Chengqi Dengr, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Yang, Haowei Zhang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Li, Hui Qu, J. L. Cai, Jian Liang, Jianzhong Guo, Jiaqi Ni, Jiashi Li, Jin Chen, Jingyang Yuan, Junjie Qiu, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Lean Wang, Lecong Zhang, Lei Xu, Leyi Xia, Liang Zhao, Liyue Zhang, Meng Li, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Ning Tian, Panpan Huang, Peiyi Wang, Peng Zhang, Qihao Zhu, Qinyu Chen, Qiushi Du, R. J. Chen, R. L. Jin, Ruiqi Ge, Ruizhe Pan, Runxin Xu, Ruyi Chen, S. S. Li, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaoqing Wu, Shengfeng Ye, Shirong Ma, Shiyu Wang, Shuang Zhou, Shuiping Yu, Shunfeng Zhou, Size Zheng, T. Wang, Tian Pei, Tian Yuan, Tianyu Sun, W. L. Xiao, Wangding Zeng, Wei An, Wen Liu, Wenfeng Liang, Wenjun Gao, Wentao Zhang, X. Q. Li, Xiangyue Jin, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaojin Shen, Xiaokang Chen, Xiaosha Chen, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Liu, Xin Xie, Xingkai Yu, Xinnan Song, Xinyi Zhou, Xinyu Yang, Xuan Lu, Xuecheng Su, Y. Wu, Y. K. Li, Y. X. Wei, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Li, Yaohui Wang, Yi Zheng, Yichao Zhang, Yiliang Xiong, Yilong Zhao, Ying He, Ying Tang, Yishi Piao, Yixin Dong, Yixuan Tan, Yiyuan Liu, Yongji Wang, Yongqiang Guo, Yuchen Zhu, Yuduan Wang, Yuheng Zou, Yukun Zha, Yunxian Ma, Yuting Yan, Yuxiang You, Yuxuan Liu, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhen Huang, Zhen Zhang, Zhenda Xie, Zhewen Hao, Zhihong Shao, Zhiniu Wen, Zhipeng Xu, Zhongyu Zhang, Zhuoshu Li, Zihan Wang, Zihui Gu, Zilin Li, Ziwei Xie, (参考訳) We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。 MLAはキーバリュー(KV)キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証する一方、DeepSeekMoEはスパース計算によって経済的コストで強力なモデルをトレーニングすることができる。 DeepSeek-V2はDeepSeek 67Bと比較して大幅にパフォーマンスが向上し、トレーニングコストの42.5%を削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させた。 我々は8.1Tトークンからなる高品質でマルチソースなコーパスでDeepSeek-V2を事前訓練し、その可能性を完全に解放するために、Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)を実行した。 評価結果によると、21Bのアクティベートパラメータしか持たないDeepSeek-V2とそのチャットバージョンは、オープンソースモデルの中でも最高レベルのパフォーマンスを実現している。

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# 適応オミッションを許容するほぼ最適合意:なぜ無作為性が必要なのか?

Nearly-Optimal Consensus Tolerating Adaptive Omissions: Why is a Lot of Randomness Needed? ( http://arxiv.org/abs/2405.04762v2 )

ライセンス: Link先を確認
Mohammad T. Hajiaghayi, Dariusz R. Kowalski, Jan Olkowski, (参考訳) 同期分散システムにおいて,通信リンクから障害当事者への通信がメッセージの送信を省略できる場合,$n$の自律的パーティによる合意に達するという問題について検討する。 障害当事者は、適応的で完全な情報、計算に縛られない敵によって選択され、制御される。 我々は、$O(\sqrt{n}\log^2 n)$ラウンドで動作するランダム化アルゴリズムを設計し、$O(n^2\log^3 n)$通信ビットを送信する。 したがって、Abraham et al (PODC'19) と $\Omega (\sqrt{n/\log n})$ は Bar-Joseph と Ben-Or (PODC'98) によるラウンド数に対する下界である。 また、通信の複雑さを(ほぼ)最適に保ちながら、時間的複雑さをある値に減らすのに、どの程度のランダム性が必要か、十分な量を定量化します。 我々は、MCアルゴリズムが$O(R)$のランダムソースへの呼び出しを使用する場合、$\Omega(\frac{n^2}{\max\{R,n\}\log n})$のラウンドで動作できないことを証明した。 これは、多項式計算時間に制限された逆数に対するコンセンサスに関する長い研究とは対照的であり、暗号プリミティブを破ることができず、Ghinea et al (EUROCRYPT'22) の論文で、確率1-(cr)^{-r}$の最適$O(r)$ラウンド解が与えられる。 我々の下界は、敵が計算的に非有界である場合、そのような結果を排除することによって、これらの2つの条件を厳密に分離する。 上界側では、$R\in\tilde{O}(n^{3/2})$に対して、高確率での$\tilde{O}(\frac{n^2}{R})$ラウンドにおけるコンセンサスを解くアルゴリズムが存在する。 アルゴリズムの通信複雑性はランダムネスの量R$に依存しず、多対数係数で最適である。

We study the problem of reaching agreement in a synchronous distributed system by $n$ autonomous parties, when the communication links from/to faulty parties can omit messages. The faulty parties are selected and controlled by an adaptive, full-information, computationally unbounded adversary. We design a randomized algorithm that works in $O(\sqrt{n}\log^2 n)$ rounds and sends $O(n^2\log^3 n)$ communication bits, where the number of faulty parties is $\Theta(n)$. Our result is simultaneously tight for both these measures within polylogarithmic factors: due to the $\Omega(n^2)$ lower bound on communication by Abraham et al. (PODC'19) and $\Omega(\sqrt{n/\log n})$ lower bound on the number of rounds by Bar-Joseph and Ben-Or (PODC'98). We also quantify how much randomness is necessary and sufficient to reduce time complexity to a certain value, while keeping the communication complexity (nearly) optimal. We prove that no MC algorithm can work in less than $\Omega(\frac{n^2}{\max\{R,n\}\log n})$ rounds if it uses less than $O(R)$ calls to a random source, assuming a constant fraction of faulty parties. This can be contrasted with a long line of work on consensus against an {\em adversary limited to polynomial computation time}, thus unable to break cryptographic primitives, culminating in a work by Ghinea et al. (EUROCRYPT'22), where an optimal $O(r)$-round solution with probability $1-(cr)^{-r}$ is given. Our lower bound strictly separates these two regimes, by excluding such results if the adversary is computationally unbounded. On the upper bound side, we show that for $R\in\tilde{O}(n^{3/2})$ there exists an algorithm solving consensus in $\tilde{O}(\frac{n^2}{R})$ rounds with high probability, where tilde notation hides a polylogarithmic factor. The communication complexity of the algorithm does not depend on the amount of randomness $R$ and stays optimal within polylogarithmic factor.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# 初期化はトランスフォーマーの合成関数が推論や記憶によって適合するかどうかに必須である

Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing ( http://arxiv.org/abs/2405.05409v2 )

ライセンス: Link先を確認
Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu, (参考訳) トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。 本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。 パラメータ初期化尺度は、モデルが基底となる構成原始体をキャプチャする推論解を学習するか、あるいは構成構造を理解せずに単純に写像を記憶する対称解を学習するかを決定する上で重要な役割を担っている。 モデル内の情報フローとベクトル表現を解析することにより、これらの解の型の基礎となる異なるメカニズムを明らかにする。 さらに、推論解は複雑さのバイアスが低く、単一のアンカーの個々のマッピングを学習できる重要な要素である、と仮定する。 これらのメカニズムの理解に基づいて、様々な複雑さのデータに直面した場合、初期化スケールの異なるモデルの学習行動を予測できる。 本研究は,トランスフォーマーが学習した解の種類と,構成課題を学習・一般化する能力について,初期化尺度が果たす役割について,貴重な知見を提供するものである。

Transformers have shown impressive capabilities across various tasks, but their performance on compositional problems remains a topic of debate. In this work, we investigate the mechanisms of how transformers behave on unseen compositional tasks. We discover that the parameter initialization scale plays a critical role in determining whether the model learns inferential solutions, which capture the underlying compositional primitives, or symmetric solutions, which simply memorize mappings without understanding the compositional structure. By analyzing the information flow and vector representations within the model, we reveal the distinct mechanisms underlying these solution types. We further find that inferential solutions exhibit low complexity bias, which we hypothesize is a key factor enabling them to learn individual mappings for single anchors. Building upon the understanding of these mechanisms, we can predict the learning behavior of models with different initialization scales when faced with data of varying complexity. Our findings provide valuable insights into the role of initialization scale in shaping the type of solution learned by transformers and their ability to learn and generalize compositional tasks.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# 多ビットキャビティQEDシステムのエントロピックダイナミクスの研究

Investigating entropic dynamics of multiqubit cavity QED system ( http://arxiv.org/abs/2405.05696v2 )

ライセンス: Link先を確認
Hui-hui Miao, (参考訳) 多ビット空洞量子力学系のエントロピー力学をシミュレートし、エントロピーの様々な側面を探索する。 Tavis-Cummings-Hubbardモデルの修正版では、原子は光ツイーザーを介して光学キャビティに保持され、トンネル効果によって異なるキャビティの間をジャンプすることができる。 原子と空洞との相互作用は異なる電子遷移をもたらし、対応する種類の光子の生成と消滅をもたらす。 電子スピンとパウリ排他原理が考慮される。 モデルには共有結合の形成と崩壊、フォノンの生成と消滅も導入されている。 システムは二部構成です。 あらゆる種類の相互作用がエントロピーに与える影響について研究した。 そして、異なる部分系のフォン・ノイマンエントロピーを比較する。 その結果,システムパラメータを選択的に選択することで,エントロピー力学を制御できることが示され,各サブシステムのエントロピー値が不等式関係を満たすことが示唆された。

Entropic dynamics of a multiqubit cavity quantum electrodynamics system is simulated and various aspects of entropy are explored. In the modified version of the Tavis-Cummings-Hubbard model, atoms are held in optical cavities through optical tweezers and can jump between different cavities through the tunneling effect. The interaction of atom with the cavity results in different electronic transitions and the creation and annihilation of corresponding types of photon. Electron spin and the Pauli exclusion principle are considered. Formation and break of covalent bond and creation and annihilation of phonon are also introduced into the model. The system is bipartite. The effect of all kinds of interactions on entropy is studied. And the von Neumann entropy of different subsystems is compared. The results show that the entropic dynamics can be controlled by selectively choosing system parameters, and the entropy values of different subsystems satisfy certain inequality relationships.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# 教師なしの組合せ最適化における有意な条件に対処する: 心力、最小限、カバーなど

Tackling Prevalent Conditions in Unsupervised Combinatorial Optimization: Cardinality, Minimum, Covering, and More ( http://arxiv.org/abs/2405.08424v2 )

ライセンス: Link先を確認
Fanchen Bu, Hyeonsoo Jo, Soo Yong Lee, Sungsoo Ahn, Kijung Shin, (参考訳) 組合せ最適化(CO)は自然に独立しており、微分可能な最適化に基づく機械学習が適用できない。 Karalias & Loukas (2020) はCOを微分可能な最適化に組み込む確率的手法を採用した。 彼らの研究は、確率論的目的とデランドマイゼーションという2つの主要な構成要素からなる、COの教師なし学習の研究に火をつけた。 しかし、各コンポーネントは固有の課題に直面します。 まず、様々な条件(例えば、濃度制約、最小限)の下で目的を導出するのは自明ではない。 第二に、デランドマイズ法は未探索であり、既存のデランドマイズ法はランダムサンプリングかナイーブラウンドである。 本研究は、非監督的COにおける一般的な(一般的に関与する)条件に取り組むことを目的としている。 まず、客観的な構築とデランドマイズのための目標を理論的に正当化する。 次に, 異なるCO問題に共通する諸条件に対して, 非自明な目的と, 目的を満たすためのデランドマイズを導出する。 最後に,CO問題への導出について述べる。 合成グラフと実世界のグラフに関する広範な実験により、導出の正しさを検証し、最適化品質と速度の両方で経験的優位性を示す。

Combinatorial optimization (CO) is naturally discrete, making machine learning based on differentiable optimization inapplicable. Karalias & Loukas (2020) adapted the probabilistic method to incorporate CO into differentiable optimization. Their work ignited the research on unsupervised learning for CO, composed of two main components: probabilistic objectives and derandomization. However, each component confronts unique challenges. First, deriving objectives under various conditions (e.g., cardinality constraints and minimum) is nontrivial. Second, the derandomization process is underexplored, and the existing derandomization methods are either random sampling or naive rounding. In this work, we aim to tackle prevalent (i.e., commonly involved) conditions in unsupervised CO. First, we concretize the targets for objective construction and derandomization with theoretical justification. Then, for various conditions commonly involved in different CO problems, we derive nontrivial objectives and derandomization to meet the targets. Finally, we apply the derivations to various CO problems. Via extensive experiments on synthetic and real-world graphs, we validate the correctness of our derivations and show our empirical superiority w.r.t. both optimization quality and speed.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# オープンソース生成AIのリスクと機会

Risks and Opportunities of Open-Source Generative AI ( http://arxiv.org/abs/2405.08597v2 )

ライセンス: Link先を確認
Francisco Eiras, Aleksander Petrov, Bertie Vidgen, Christian Schroeder, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Aaron Purewal, Csaba Botos, Fabro Steibel, Fazel Keshtkar, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Imperial, Juan Arturo Nolazco, Lori Landay, Matthew Jackson, Phillip H. S. Torr, Trevor Darrell, Yong Lee, Jakob Foerster, (参考訳) Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震的な変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、特にAI開発をリードする大手テック企業からの厳しい規制を要求した。 この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。 Gen AI開発のための3段階のフレームワーク(近、中、長期)を使用して、現在利用可能なもの(中、中)と、より大きな機能(長期)を備えたオープンソース生成AIモデルのリスクと機会を分析します。 全体として、オープンソースのGen AIの利点は、そのリスクを上回っている、と私たちは主張する。 そのため、我々は、モデル、トレーニング、評価データのオープンソース化を奨励し、オープンソースの生成AIに関連するリスクを管理するための一連の推奨とベストプラクティスを提供します。

Applications of Generative AI (Gen AI) are expected to revolutionize a number of different areas, ranging from science & medicine to education. The potential for these seismic changes has triggered a lively debate about the potential risks of the technology, and resulted in calls for tighter regulation, in particular from some of the major tech companies who are leading in AI development. This regulation is likely to put at risk the budding field of open-source generative AI. Using a three-stage framework for Gen AI development (near, mid and long-term), we analyze the risks and opportunities of open-source generative AI models with similar capabilities to the ones currently available (near to mid-term) and with greater capabilities (long-term). We argue that, overall, the benefits of open-source Gen AI outweigh its risks. As such, we encourage the open sourcing of models, training and evaluation data, and provide a set of recommendations and best practices for managing risks associated with open-source generative AI.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# ニューラル多目的組合せ最適化のための幾何学的パレート集合学習に向けて

Towards Geometry-Aware Pareto Set Learning for Neural Multi-Objective Combinatorial Optimization ( http://arxiv.org/abs/2405.08604v2 )

ライセンス: Link先を確認
Yongfan Lu, Zixiang Di, Bingdong Li, Shengcai Liu, Hong Qian, Peng Yang, Ke Tang, Aimin Zhou, (参考訳) 多目的組合せ最適化(MOCO)問題は、実世界の様々な応用で広く用いられている。 既存のほとんどのニューラルMOCO法は、MOCO問題を一連のSinge-Objective combinatorial Optimization (SOCO)問題に変換するために問題分解に依存する。 しかしながら、これらの手法はしばしばパレートフロントの部分領域を近似し、不明瞭な分解と時間を要する正確な超体積計算のために多様性向上に過剰な時間を費やす。 これらの制約に対処するため, GAPLと呼ばれる幾何学的パレート集合学習アルゴリズムを設計し, ハイパーボリューム予測最大化に基づくパレートアテンションモデルを用いて, ニューラルMOCOの幾何学的視点を提供する。 さらに,パレート・アテンション・モデルを用いて,パレート・セット/フロントの局所的情報と非局所的情報の両方をキャプチャする高ボリューム残差更新戦略を提案する。 また、解集合の品質をさらに向上し、超体積計算を高速化するための新しい推論手法を設計する。 3つの古典的MOCO問題に対する実験結果から, GAPLは, 優れた分解性, 効率の良い多様性向上により, 最先端のベースラインを上回っていることが示された。

Multi-objective combinatorial optimization (MOCO) problems are prevalent in various real-world applications. Most existing neural MOCO methods rely on problem decomposition to transform an MOCO problem into a series of singe-objective combinatorial optimization (SOCO) problems. However, these methods often approximate partial regions of the Pareto front and spend excessive time on diversity enhancement because of ambiguous decomposition and time-consuming precise hypervolume calculation. To address these limitations, we design a Geometry-Aware Pareto set Learning algorithm named GAPL, which provides a novel geometric perspective for neural MOCO via a Pareto attention model based on hypervolume expectation maximization. In addition, we propose a hypervolume residual update strategy to enable the Pareto attention model to capture both local and non-local information of the Pareto set/front. We also design a novel inference approach to further improve quality of the solution set and speed up hypervolume calculation. Experimental results on three classic MOCO problems demonstrate that our GAPL outperforms several state-of-the-art baselines via superior decomposition and efficient diversity enhancement.
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# ランダム摂動を用いたリカレントニューラルネットワークの勾配自由学習

Gradient-Free Training of Recurrent Neural Networks using Random Perturbations ( http://arxiv.org/abs/2405.08967v2 )

ライセンス: Link先を確認
Jesus Garcia Fernandez, Sander Keemink, Marcel van Gerven, (参考訳) リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力によって、計算の潜在的な可能性を秘めている。 時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることで、バックプロパゲーション(BP)アルゴリズムを拡張する。 しかし、このアプローチは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。 さらにBPTTは、長いシーケンスの勾配情報の伝播に苦しむことが示されており、勾配の消滅につながっている。 BPTTのような勾配に基づく手法を使う別の戦略は、摂動に基づく手法で勾配を確率的に近似することである。 この学習アプローチは極めて単純で、ネットワーク内のフォワードパスのみを必要とし、フィードバックとしてグローバルな強化信号を必要とする。 その単純さにもかかわらず、そのアップデートのランダムな性質は典型的に非効率な最適化をもたらし、ニューラルネットワークのトレーニングにおけるその有効性を制限する。 本研究では,BPTT と競合する RNN における摂動学習に対する新たなアプローチを提案する。 この目的のために、最近導入されたアクティビティベースノード摂動法(ANP)を時間領域で運用するように拡張し、より効率的な学習と一般化を実現した。 その後、我々はアプローチを検証するために様々な実験を行った。 その結果,BPTTと同等の性能,収束時間,拡張性を示し,標準ノード摂動法や重み摂動法よりも優れていた。 これらの結果から,摂動に基づく学習法は,神経形的応用に適した勾配に基づくRNNの訓練法に代わる汎用的な方法である可能性が示唆された。

Recurrent neural networks (RNNs) hold immense potential for computations due to their Turing completeness and sequential processing capabilities, yet existing methods for their training encounter efficiency challenges. Backpropagation through time (BPTT), the prevailing method, extends the backpropagation (BP) algorithm by unrolling the RNN over time. However, this approach suffers from significant drawbacks, including the need to interleave forward and backward phases and store exact gradient information. Furthermore, BPTT has been shown to struggle with propagating gradient information for long sequences, leading to vanishing gradients. An alternative strategy to using gradient-based methods like BPTT involves stochastically approximating gradients through perturbation-based methods. This learning approach is exceptionally simple, necessitating only forward passes in the network and a global reinforcement signal as feedback. Despite its simplicity, the random nature of its updates typically leads to inefficient optimization, limiting its effectiveness in training neural networks. In this study, we present a new approach to perturbation-based learning in RNNs whose performance is competitive with BPTT, while maintaining the inherent advantages over gradient-based learning. To this end, we extend the recently introduced activity-based node perturbation (ANP) method to operate in the time domain, leading to more efficient learning and generalization. Subsequently, we conduct a range of experiments to validate our approach. Our results show similar performance, convergence time and scalability when compared to BPTT, strongly outperforming standard node perturbation and weight perturbation methods. These findings suggest that perturbation-based learning methods offer a versatile alternative to gradient-based methods for training RNNs which can be ideally suited for neuromorphic applications
翻訳日:2024-05-27 20:17:43 公開日:2024-05-24
# Themis: 強い故障検出機能を備えた自動かつ効率的なディープラーニングシステムテスト

Themis: Automatic and Efficient Deep Learning System Testing with Strong Fault Detection Capability ( http://arxiv.org/abs/2405.09314v2 )

ライセンス: Link先を確認
Dong Huang, Xiaofei Xie, Heming Cui, (参考訳) 深層学習システム(DLS)はオートパイロットのような安全クリティカルなタスクに広く応用されている。 しかし、摂動入力が推論のためにDLSに入力されると、DLSはしばしば誤った出力(すなわち障害)を持つ。 DLSテスト技術(例:DeepXplore)は、障害を引き起こすデータフローを探索するために摂動入力を生成することによって、そのような障害を検出する。 DLSは無限に多くのデータフローを持つことが多いため、既存の技術では、開発者は障害を引き起こすデータフローを探索するために、DLSのニューロンにアクティベーション値のセットを手動で指定する必要がある。 残念なことに、最近の研究では、このような手作業は面倒で、少数のフォールトインジェクションデータフローしか検出できないことが示されている。 本稿では,障害発生データフローのフルカバレッジを高い確率で確保することにより,強い障害検出能力を実現する,最初の自動DLSテストシステムであるThemisを提案する。 Themisは新しいワークフローを持ち、内部のニューロンの出力がわずかに乱れたときに大きく変化するデータフローを自動的に体系的に明らかにする。 Themisを10種類のDLSで評価したところ,テミスによって検出された断層の数は,4種類のDLS試験法より平均3.78倍多かった。 測定された全てのDLSを検出された断層で再訓練することで、テミスは全ての基準線よりも平均14.7倍高い精度でこれらのDLSの加速度を上昇させた(再確認)。

Deep Learning Systems (DLSs) have been widely applied in safety-critical tasks such as autopilot. However, when a perturbed input is fed into a DLS for inference, the DLS often has incorrect outputs (i.e., faults). DLS testing techniques (e.g., DeepXplore) detect such faults by generating perturbed inputs to explore data flows that induce faults. Since a DLS often has infinitely many data flows, existing techniques require developers to manually specify a set of activation values in a DLS's neurons for exploring fault-inducing data flows. Unfortunately, recent studies show that such manual effort is tedious and can detect only a tiny proportion of fault-inducing data flows. In this paper, we present Themis, the first automatic DLS testing system, which attains strong fault detection capability by ensuring a full coverage of fault-inducing data flows at a high probability. Themis carries a new workflow for automatically and systematically revealing data flows whose internal neurons' outputs vary substantially when the inputs are slightly perturbed, as these data flows are likely fault-inducing. We evaluated Themis on ten different DLSs and found that on average the number of faults detected by Themis was 3.78X more than four notable DLS testing techniques. By retraining all evaluated DLSs with the detected faults, Themis also increased (regained) these DLSs' accuracies on average 14.7X higher than all baselines.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# 非平坦な仮定に基づく論証と論理プログラミングの対応性について

On the Correspondence of Non-flat Assumption-based Argumentation and Logic Programming with Negation as Failure in the Head ( http://arxiv.org/abs/2405.09415v2 )

ライセンス: Link先を確認
Anna Rapberger, Markus Ulbricht, Francesca Toni, (参考訳) 仮定に基づく議論(ABA)と安定モデル意味論における論理プログラム(LP)の関係はよく研究されている。 しかし、この関係を得るには、ABAフレームワークはフラットなものに制限する必要がある。 本稿では,この制限を除去し,非平坦なABAとLPの対応性を示す。 次に、この結果を、もともと双極性ABAと呼ばれる非平坦なABAの断片に対して定義された、いわゆる集合安定ABA意味論に拡張する。 本稿では,LP の集合安定セマンティクスを頭の中の失敗として定義し,集合安定な ABA セマンティクスとの対応を示す。

The relation between (a fragment of) assumption-based argumentation (ABA) and logic programs (LPs) under stable model semantics is well-studied. However, for obtaining this relation, the ABA framework needs to be restricted to being flat, i.e., a fragment where the (defeasible) assumptions can never be entailed, only assumed to be true or false. Here, we remove this restriction and show a correspondence between non-flat ABA and LPs with negation as failure in their head. We then extend this result to so-called set-stable ABA semantics, originally defined for the fragment of non-flat ABA called bipolar ABA. We showcase how to define set-stable semantics for LPs with negation as failure in their head and show the correspondence to set-stable ABA semantics.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# ContourCraft: ニューラルネットワークによるマルチゲージシミュレーションにおけるインターセクションの解決学習

ContourCraft: Learning to Resolve Intersections in Neural Multi-Garment Simulations ( http://arxiv.org/abs/2405.09522v2 )

ライセンス: Link先を確認
Artur Grigorev, Giorgio Becherini, Michael J. Black, Otmar Hilliges, Bernhard Thomaszewski, (参考訳) 近年,布地シミュレーションへの学習的アプローチが,その可能性を示し始めている。 しかし、ニューラルシミュレーションにおける衝突や交差点の扱いは、まだほとんど解決されていない問題である。 本研究では,ニューラルネットワークシミュレーションにおける交点を扱う学習ベースソリューションである \moniker{} を提案する。 交差のない入力に批判的に依存する従来のアプローチとは異なり、 \moniker{} は、衝突、自己貫通体、または手動設計の多層構造におけるエラーによって導入された交差点から頑健に回復する。 \moniker{} の技術的な中心は、インターペネレーションを罰し、その迅速な解決を促進する新しい交叉輪郭損失である。 グラフニューラルネットワーク(GNN)に基づくニューラルネットワークシミュレーション手法において,衝突回避の目的と交差損失を統合した。 本研究では,動的人体動作下での多様な多層構造の課題に対して,本手法の能力を実証する。 広範に分析した結果, 学習シミュレーションにおける衝突処理が大幅に向上し, 視覚的に魅力的な結果が得られることがわかった。

Learning-based approaches to cloth simulation have started to show their potential in recent years. However, handling collisions and intersections in neural simulations remains a largely unsolved problem. In this work, we present \moniker{}, a learning-based solution for handling intersections in neural cloth simulations. Unlike conventional approaches that critically rely on intersection-free inputs, \moniker{} robustly recovers from intersections introduced through missed collisions, self-penetrating bodies, or errors in manually designed multi-layer outfits. The technical core of \moniker{} is a novel intersection contour loss that penalizes interpenetrations and encourages rapid resolution thereof. We integrate our intersection loss with a collision-avoiding repulsion objective into a neural cloth simulation method based on graph neural networks (GNNs). We demonstrate our method's ability across a challenging set of diverse multi-layer outfits under dynamic human motions. Our extensive analysis indicates that \moniker{} significantly improves collision handling for learned simulation and produces visually compelling results.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# マスクによる物体検出における見えないバックドア攻撃

Mask-based Invisible Backdoor Attacks on Object Detection ( http://arxiv.org/abs/2405.09550v2 )

ライセンス: Link先を確認
Jeongjin Shin, (参考訳) ディープラーニングモデルは、オブジェクト検出の領域で前例のないパフォーマンスを達成し、自律運転やセキュリティなどの領域で突破する結果となった。 しかし、ディープラーニングモデルはバックドア攻撃に弱い。 これらの攻撃は、モデルがトリガーなしで標準モデルと同じように振る舞うように促すが、事前に定義されたトリガーを検出すると悪意ある振る舞いをする。 画像分類におけるバックドア攻撃に関する広範な研究にもかかわらず、物体検出への応用はいまだに未調査である。 重要な現実世界のシナリオでオブジェクト検出が広く適用されていることを考えると、これらの脆弱性の感度と潜在的な影響は過大評価できない。 本研究では,マスクベースのアプローチを用いて,物体検出に対する効果的な視覚的バックドア攻撃を提案する。 オブジェクト検出には、オブジェクトの消失、オブジェクトの誤分類、オブジェクト生成攻撃という、3つの異なる攻撃シナリオが検討された。 広範囲にわたる実験を通じて,これらの攻撃の有効性を包括的に検証し,有効対策を決定するための特定の防御方法を検討した。

Deep learning models have achieved unprecedented performance in the domain of object detection, resulting in breakthroughs in areas such as autonomous driving and security. However, deep learning models are vulnerable to backdoor attacks. These attacks prompt models to behave similarly to standard models without a trigger; however, they act maliciously upon detecting a predefined trigger. Despite extensive research on backdoor attacks in image classification, their application to object detection remains relatively underexplored. Given the widespread application of object detection in critical real-world scenarios, the sensitivity and potential impact of these vulnerabilities cannot be overstated. In this study, we propose an effective invisible backdoor attack on object detection utilizing a mask-based approach. Three distinct attack scenarios were explored for object detection: object disappearance, object misclassification, and object generation attack. Through extensive experiments, we comprehensively examined the effectiveness of these attacks and tested certain defense methods to determine effective countermeasures.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# 測定・フィードバックによるMPSとPEPSの作成

Characterizing MPS and PEPS Preparable via Measurement and Feedback ( http://arxiv.org/abs/2405.09615v2 )

ライセンス: Link先を確認
Yifan Zhang, Sarang Gopalakrishnan, Georgios Styliaris, (参考訳) 長距離の絡み合った状態の調製は、短期量子デバイスにとって大きな課題となる。 測定とフィードバック(MF)は、一定の回路深度しか持たない特定のパラダイム的長距離絡み合った状態の調製を可能にすることで、この課題を支援することが知られている。 ここでは,一定深度局所回路と単一MFラウンドを用いて調製できる状態の構造を系統的に検討する。 テンソルネットワークの枠組みを用いて、MF の下での準備性はテンソル対称性に変換される。 本稿では, マトリックス生成物状態 (MPS) と, MF を用いて調製できる射影エンタングルペア状態 (PEPS) の構造を詳述し, クリフォード様の性質と魔法の共存を明らかにした。 さらに,MF対称性を示す状態は,一次元における対称性保護トポロジカル秩序と2次元におけるトポロジカル秩序に類似し,その特性について論じる。 最後に、MFによる作用素の類似的な実装について議論し、よく知られたクリフォード・テレポーテーションに結びつく構造定理を提供する。

Preparing long-range entangled states poses significant challenges for near-term quantum devices. It is known that measurement and feedback (MF) can aid this task by allowing the preparation of certain paradigmatic long-range entangled states with only constant circuit depth. Here we systematically explore the structure of states that can be prepared using constant-depth local circuits and a single MF round. Using the framework of tensor networks, the preparability under MF translates to tensor symmetries. We detail the structure of matrix-product states (MPS) and projected entangled-pair states (PEPS) that can be prepared using MF, revealing the coexistence of Clifford-like properties and magic. Furthermore, we fully parameterize states exhibiting MF symmetries akin to the symmetry-protected topological order in one dimension and the topological order in two dimensions, and we discuss their characteristics. Finally, we discuss the analogous implementation of operators via MF, providing a structural theorem that connects to the well-known Clifford teleportation.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# DEBATE:Devilのアドボケートに基づく評価とテキスト評価

DEBATE: Devil's Advocate-Based Assessment and Text Evaluation ( http://arxiv.org/abs/2405.09935v2 )

ライセンス: Link先を確認
Alex Kim, Keonwoo Kim, Sangwon Yoon, (参考訳) 自然言語生成(NLG)モデルが普及するにつれて、機械生成テキストの品質を体系的に評価することがますます重要になっている。 近年の研究では、LCMを基準のない指標として運用する評価器を導入し、新しいタスクを十分に処理できることを実証している。 しかしながら、これらのモデルは一般的に単一エージェントのアプローチに依存しており、パフォーマンスに固有の制限をもたらすと我々は主張する。 これは、特定のテキスト構造や内容の好みを含むLLMエージェントの応答にはバイアスがあるためである。 本研究では,Devil's Advocateの概念を付加したマルチエージェントスコアリングシステムに基づくNLG評価フレームワークDEBATEを提案する。 フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示され、LLMエージェントの回答のバイアスを解消する可能性がある。 DEBATEは、NLG評価、SummEval、TopicalChatの2つのメタ評価ベンチマークにおいて、従来の最先端手法よりも大幅に優れている。 また,エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。

As natural language generation (NLG) models have become prevalent, systematically assessing the quality of machine-generated texts has become increasingly important. Recent studies introduce LLM-based evaluators that operate as reference-free metrics, demonstrating their capability to adeptly handle novel tasks. However, these models generally rely on a single-agent approach, which, we argue, introduces an inherent limit to their performance. This is because there exist biases in LLM agent's responses, including preferences for certain text structure or content. In this work, we propose DEBATE, an NLG evaluation framework based on multi-agent scoring system augmented with a concept of Devil's Advocate. Within the framework, one agent is instructed to criticize other agents' arguments, potentially resolving the bias in LLM agent's answers. DEBATE substantially outperforms the previous state-of-the-art methods in two meta-evaluation benchmarks in NLG evaluation, SummEval and TopicalChat. We also show that the extensiveness of debates among agents and the persona of an agent can influence the performance of evaluators.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# MarkLLM: LLMウォーターマーキングのためのオープンソースツールキット

MarkLLM: An Open-Source Toolkit for LLM Watermarking ( http://arxiv.org/abs/2405.10051v2 )

ライセンス: Link先を確認
Leyi Pan, Aiwei Liu, Zhiwei He, Zitian Gao, Xuandong Zhao, Yijian Lu, Binglin Zhou, Shuliang Liu, Xuming Hu, Lijie Wen, Irwin King, (参考訳) LLMの透かしは、LLM生成したテキストを識別するために、モデル出力に認識できないがアルゴリズムで検出可能な信号を埋め込んでおり、大きな言語モデルの潜在的な誤用を緩和するのに重要である。 しかし、LLM透かしアルゴリズムの豊富さ、複雑なメカニズム、複雑な評価手順や視点は、研究者やコミュニティにとって、最新の進歩を容易に実験し、理解し、評価するための課題となる。 これらの問題に対処するため,LLMウォーターマーキングのためのオープンソースのツールキットであるMarkLLMを紹介した。 MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための統一的で拡張可能なフレームワークを提供し、アクセスの容易さを保証するユーザフレンドリーなインターフェースを提供する。 さらに、これらのアルゴリズムの基盤となるメカニズムを自動視覚化することで理解を深める。 評価のために、MarkLLMは3つの視点にまたがる12のツールと、2種類の自動評価パイプラインを提供する。 我々はMarkLLMを通じて、LLM透かし技術における一般大衆の理解と関与を改善し、コンセンサスを育み、研究と応用のさらなる進歩を推進しつつ、研究者を支援することを目指している。 私たちのコードはhttps://github.com/THU-BPM/MarkLLM.orgで公開されています。

LLM watermarking, which embeds imperceptible yet algorithmically detectable signals in model outputs to identify LLM-generated text, has become crucial in mitigating the potential misuse of large language models. However, the abundance of LLM watermarking algorithms, their intricate mechanisms, and the complex evaluation procedures and perspectives pose challenges for researchers and the community to easily experiment with, understand, and assess the latest advancements. To address these issues, we introduce MarkLLM, an open-source toolkit for LLM watermarking. MarkLLM offers a unified and extensible framework for implementing LLM watermarking algorithms, while providing user-friendly interfaces to ensure ease of access. Furthermore, it enhances understanding by supporting automatic visualization of the underlying mechanisms of these algorithms. For evaluation, MarkLLM offers a comprehensive suite of 12 tools spanning three perspectives, along with two types of automated evaluation pipelines. Through MarkLLM, we aim to support researchers while improving the comprehension and involvement of the general public in LLM watermarking technology, fostering consensus and driving further advancements in research and application. Our code is available at https://github.com/THU-BPM/MarkLLM.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# グラウンドセグメンテーションを活用したアウトリア・ローバスト長期ロボットマッピング

Outlier-Robust Long-Term Robotic Mapping Leveraging Ground Segmentation ( http://arxiv.org/abs/2405.11176v2 )

ライセンス: Link先を確認
Hyungtae Lim, (参考訳) 深層学習に基づく知覚技術と同時局所化マッピング(SLAM)の顕著な進歩にもかかわらず、ロボットがモデル化された経験の外でシナリオに遭遇した場合、これらのアプローチの失敗に直面することができる(この用語は従来のパターン発見とデータ駆動アプローチの両方を含んでいる)。 特に、学習ベースの手法は、訓練されていない場面で運用する際に破滅的な失敗をする傾向があるため、現実世界のロボティクスサービスやSLAMコンペティションなど、さまざまなシナリオにおいて、最初から機能する従来の堅牢なアプローチには、依然として需要がある。 さらに、実世界の環境の動的な性質は、時間とともに環境が変化し、動く物体の存在が特徴であり、ロボットが位置や経路計画から妨げられるような望ましくないデータポイントにつながります。 そのため,マルチセッションSLAMや静的マップ構築など,長期マップ管理を可能にする手法が不可欠である。 そこで,まず最初に提案する,頑健な長期ロボットマッピングシステムを実現する。 i) 接地を断る高速で頑健な接地セグメンテーション(英語版)は特徴がなく、したがって局所化や写像には役に立たない。 そして、卒業非凸性(GNC)の概念を取り入れて、提案する。 二 特徴整合結果における総外乱の存在を克服する接地区分付き外乱登録 第三に,提案したGNCベース登録だけでなく,GNCソルバを用いた階層的マルチセッションSLAMは,外乱ループ候補に対して堅牢である。 最後に提案します (4) 都市環境における移動物体の大半が地中との接触が必然的に避けられないという観測に基づいて,環境中の移動物体の存在を処理できるインスタンス対応静的マップビルディング。

Despite the remarkable advancements in deep learning-based perception technologies and simultaneous localization and mapping (SLAM), one can face the failure of these approaches when robots encounter scenarios outside their modeled experiences (here, the term modeling encompasses both conventional pattern finding and data-driven approaches). In particular, because learning-based methods are prone to catastrophic failure when operated in untrained scenes, there is still a demand for conventional yet robust approaches that work out of the box in diverse scenarios, such as real-world robotic services and SLAM competitions. In addition, the dynamic nature of real-world environments, characterized by changing surroundings over time and the presence of moving objects, leads to undesirable data points that hinder a robot from localization and path planning. Consequently, methodologies that enable long-term map management, such as multi-session SLAM and static map building, become essential. Therefore, to achieve a robust long-term robotic mapping system that can work out of the box, first, I propose (i) fast and robust ground segmentation to reject the ground points, which are featureless and thus not helpful for localization and mapping. Then, by employing the concept of graduated non-convexity (GNC), I propose (ii) outlier-robust registration with ground segmentation that overcomes the presence of gross outliers within the feature matching results, and (iii) hierarchical multi-session SLAM that not only uses our proposed GNC-based registration but also employs a GNC solver to be robust against outlier loop candidates. Finally, I propose (iv) instance-aware static map building that can handle the presence of moving objects in the environment based on the observation that most moving objects in urban environments are inevitably in contact with the ground.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# PDE Control Gym:部分微分方程式のデータ駆動境界制御ベンチマーク

PDE Control Gym: A Benchmark for Data-Driven Boundary Control of Partial Differential Equations ( http://arxiv.org/abs/2405.11401v2 )

ライセンス: Link先を確認
Luke Bhan, Yuexin Bian, Miroslav Krstic, Yuanyuan Shi, (参考訳) 過去10年間で、データ駆動の手法が人気を博し、制御理論の貴重なツールとして登場した。 このように、制御フィードバック法則、システムダイナミクス、さらにはリャプノフ関数のニューラルネットワーク近似が注目されている。 学習ベースのコントロールの増加に伴い、正確で高速で使いやすいベンチマークの必要性が高まっている。 本研究では,PDEの境界制御のための学習環境を初めて提示する。 本ベンチマークでは, 1DトランスポートPDE, 1Dリアクション拡散PDE, 2D Navier-StokesPDEの3つの基礎的PDE問題を紹介する。 このジムでは、モデルベースのPDEバックステッピングよりも高いコストで、この一連のベンチマーク問題を解決するための、モデルフリーで強化された学習アルゴリズムを提示する。 一連のベンチマーク環境と詳細な例によって、この研究は、学習ベースのPDEコントロールの参入障壁を著しく低下させます。 ベンチマーク全体はGithubで、詳細なドキュメントと、提示された強化学習モデルがオープンソースとして公開されている。

Over the last decade, data-driven methods have surged in popularity, emerging as valuable tools for control theory. As such, neural network approximations of control feedback laws, system dynamics, and even Lyapunov functions have attracted growing attention. With the ascent of learning based control, the need for accurate, fast, and easy-to-use benchmarks has increased. In this work, we present the first learning-based environment for boundary control of PDEs. In our benchmark, we introduce three foundational PDE problems - a 1D transport PDE, a 1D reaction-diffusion PDE, and a 2D Navier-Stokes PDE - whose solvers are bundled in an user-friendly reinforcement learning gym. With this gym, we then present the first set of model-free, reinforcement learning algorithms for solving this series of benchmark problems, achieving stability, although at a higher cost compared to model-based PDE backstepping. With the set of benchmark environments and detailed examples, this work significantly lowers the barrier to entry for learning-based PDE control - a topic largely unexplored by the data-driven control community. The entire benchmark is available on Github along with detailed documentation and the presented reinforcement learning models are open sourced.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# ユーザーから業界に合わせた完全プライベートな量子コンピューティング

Full private delegated quantum computing tailored from user to industry ( http://arxiv.org/abs/2405.11608v2 )

ライセンス: Link先を確認
Alejandro Mata Ali, Adriano Mauricio Lusso, Edgar Mencia, (参考訳) 本稿では,クライアントに利用可能な計算資源,特定のプライバシ要件,アルゴリズムの種類に応じて,ユーザレベルおよび業界レベルのユースケースに合わせた,プライベートかつセキュアな量子コンピューティングプロトコルとテクニックのセットを提案する。 我々のプロトコルは、暗号化や復号処理に使用される特定のアルゴリズムとは独立しているため、高いレベルで表現される。 さらに,外部サーバによる操作の正しい実行を検証する手法を提案する。

In this paper, we present a set of private and secure delegated quantum computing protocols and techniques tailored to user-level and industry-level use cases, depending on the computational resources available to the client, the specific privacy needs required, and the type of algorithm. Our protocols are presented at a high level as they are independent of the particular algorithm used for such encryption and decryption processes. Additionally, we propose a method to verify the correct execution of operations by the external server.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# 空間分割による相対エントロピー符号化の高速化

Accelerating Relative Entropy Coding with Space Partitioning ( http://arxiv.org/abs/2405.12203v2 )

ライセンス: Link先を確認
Jiajun He, Gergely Flamich, José Miguel Hernández-Lobato, (参考訳) 相対エントロピー符号化(REC)アルゴリズムは、送信者と受信者の間で共有される符号化分布$P$を用いて、ターゲット分布$Q$に続くランダムサンプルを符号化する。 残念なことに、一般的なRECアルゴリズムは、少なくとも$2^{D_{\text{KL}}[Q||P]}$の順序で、符号化時間を禁止している。 本研究は,空間分割を利用したRECスキームを導入して,現実的なシナリオにおけるランタイムの削減を実現する。 提案手法を理論的に解析し,おもちゃの例と実用例でその有効性を実証する。 特に,本手法は,従来の手法よりも約3倍大きなRECタスクをD_{\text{KL}}[Q||P]$で処理し,MNIST上のVAEベースのロスレス圧縮とCIFAR-10上のINRベースのロスリー圧縮の約5~15%のビットレートを低減し,ニューラル圧縮におけるRECの実用性を大幅に向上させる。

Relative entropy coding (REC) algorithms encode a random sample following a target distribution $Q$, using a coding distribution $P$ shared between the sender and receiver. Sadly, general REC algorithms suffer from prohibitive encoding times, at least on the order of $2^{D_{\text{KL}}[Q||P]}$, and faster algorithms are limited to very specific settings. This work addresses this issue by introducing a REC scheme utilizing space partitioning to reduce runtime in practical scenarios. We provide theoretical analyses of our method and demonstrate its effectiveness with both toy examples and practical applications. Notably, our method successfully handles REC tasks with $D_{\text{KL}}[Q||P]$ about three times greater than what previous methods can manage, and reduces the bitrate by approximately 5-15% in VAE-based lossless compression on MNIST and INR-based lossy compression on CIFAR-10, compared to previous methods, significantly improving the practicality of REC for neural compression.
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# エンドツーエンドスパース辞書学習による機能的重要な特徴の同定

Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning ( http://arxiv.org/abs/2405.12241v2 )

ライセンス: Link先を確認
Dan Braun, Jordan Taylor, Nicholas Goldowsky-Dill, Lee Sharkey, (参考訳) ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。 ネットワークの内部アクティベーションを再構築するスパースオートエンコーダ(SAE)は、これらの特徴を識別するために使用される。 しかし、SAEはネットワークの計算構造よりもデータセットの構造についてより深く学ぶことができる。 したがって、これらの辞書にある方向がネットワークにとって機能的に重要であると考えるのは間接的な理由のみである。 本研究では,SAE アクティベーションを挿入したモデルの出力分布とモデルとのKL ばらつきを最小限に抑えることで,学習する特徴が機能的に重要であることを保証し,SAE を訓練するエンド・ツー・エンド (e2e) スパース辞書学習を提案する。 標準的なSAEと比較して、e2e SAEはParetoの改善を提供する: ネットワーク性能の向上、機能全体の削減、データポイント当たりのアクティブ機能の同時実行の削減など。 我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。 E2e辞書学習は、ネットワークの振る舞いを簡潔かつ正確に説明できる手法に近づきます。 e2e SAEをトレーニングし、https://github.com/ApolloResearch/e2e_saeで分析を再現するためのライブラリをリリースします。

Identifying the features learned by neural networks is a core challenge in mechanistic interpretability. Sparse autoencoders (SAEs), which learn a sparse, overcomplete dictionary that reconstructs a network's internal activations, have been used to identify these features. However, SAEs may learn more about the structure of the datatset than the computational structure of the network. There is therefore only indirect reason to believe that the directions found in these dictionaries are functionally important to the network. We propose end-to-end (e2e) sparse dictionary learning, a method for training SAEs that ensures the features learned are functionally important by minimizing the KL divergence between the output distributions of the original model and the model with SAE activations inserted. Compared to standard SAEs, e2e SAEs offer a Pareto improvement: They explain more network performance, require fewer total features, and require fewer simultaneously active features per datapoint, all with no cost to interpretability. We explore geometric and qualitative differences between e2e SAE features and standard SAE features. E2e dictionary learning brings us closer to methods that can explain network behavior concisely and accurately. We release our library for training e2e SAEs and reproducing our analysis at https://github.com/ApolloResearch/e2e_sae
翻訳日:2024-05-27 20:07:58 公開日:2024-05-24
# 大規模言語モデルにおける高速化手法に関する包括的調査

A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models ( http://arxiv.org/abs/2405.13019v2 )

ライセンス: Link先を確認
Mahsa Khoshnoodi, Vinija Jain, Mingye Gao, Malavika Srikanth, Aman Chadha, (参考訳) 大規模言語モデル(LLM)におけるテキスト生成の高速化は、コンテンツを効率よく生成する上で重要であるが、このプロセスのシーケンシャルな性質は、しばしば高い推論遅延をもたらし、リアルタイムアプリケーションに課題を提起する。 これらの課題に対処し、効率を向上させるために様々な技術が提案され、開発されている。 本稿では, 自己回帰言語モデルにおける高速化手法の総合的な調査を行い, 最先端の手法とその応用を理解することを目的とした。 我々はこれらの手法を,投機的復号化,早期退避機構,非自己回帰手法の4つの重要な領域に分類する。 それぞれのカテゴリの基本原則、優位性、制限、最近の進歩について論じる。 本調査を通じて,LLMにおける現在の技術の展望を把握し,自然言語処理のこの重要な領域における今後の研究方向のガイダンスを提供することを目標としている。

Despite the crucial importance of accelerating text generation in large language models (LLMs) for efficiently producing content, the sequential nature of this process often leads to high inference latency, posing challenges for real-time applications. Various techniques have been proposed and developed to address these challenges and improve efficiency. This paper presents a comprehensive survey of accelerated generation techniques in autoregressive language models, aiming to understand the state-of-the-art methods and their applications. We categorize these techniques into several key areas: speculative decoding, early exiting mechanisms, and non-autoregressive methods. We discuss each category's underlying principles, advantages, limitations, and recent advancements. Through this survey, we aim to offer insights into the current landscape of techniques in LLMs and provide guidance for future research directions in this critical area of natural language processing.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 大規模言語モデルにおける政治的バイアスの評価

Assessing Political Bias in Large Language Models ( http://arxiv.org/abs/2405.13041v2 )

ライセンス: Link先を確認
Luca Rettenberger, Markus Reischl, Mark Schutera, (参考訳) 大規模言語モデル(LLMs)におけるバイアスの評価は、社会的ダイナミクスに対する潜在的な影響の文脈において、人工知能(AI)を取り巻く現代の議論において重要な関心事となっている。 特に,LLMアプリケーション内での政治的偏見の認識と考慮は,性能予測に向けてチップポイントを閉じる際に中心となる。 そして、潜在的効果と社会的行動について教育を受けることで、LLMは人間のオペレーターとの相互作用により、大規模に運転することができる。 このようにして、欧州議会の次の選挙は LLM の影響を受けないままである。 我々は、欧州連合(EU)内の政治問題に関して、現在最も人気のあるオープンソースLLM(インストラクションまたはアシスタントモデル)の政治的バイアスを、ドイツの有権者の視点から評価する。 そのために、ドイツで使われている投票アドバイスアプリケーション"Wahl-O-Mat"を使用します。 ウォール=オ=マト」の投票助言から、ドイツ政党とのLLMの整合度を定量化する。 Llama3-70Bのような大型モデルは、左派政党とより緊密に結びつく傾向にある一方で、小さなモデルは、特に英語で促された場合、中立であることが多い。 中心的な発見は、LLMも同様に偏りがあり、特定のパーティに対するアライメントのばらつきが低いことである。 本研究は,性能予測能力と機械学習予測および言語生成の目に見えない手を用いたアプリケーションの完全性と信頼性を守るため,LLMにおける偏見の透明化を厳格に評価することの重要性を明らかにした。

The assessment of bias within Large Language Models (LLMs) has emerged as a critical concern in the contemporary discourse surrounding Artificial Intelligence (AI) in the context of their potential impact on societal dynamics. Especially, recognizing and considering political bias within LLM applications is central when closing in on the tipping point toward performative prediction. Then, being educated about potential effects and the societal behavior LLMs can drive at scale due to their interplay with human operators. In this way, the upcoming elections of the European Parliament will not remain unaffected by LLMs. We evaluate the political bias of the currently most popular open-source LLMs (instruct or assistant models) concerning political issues within the European Union (EU) from a German voter's perspective. To do so, we use the "Wahl-O-Mat", a voting advice application used in Germany. From the voting advice of the "Wahl-O-Mat" we quantize the degree of alignment of LLMs with German political parties. We show that larger models, such as Llama3-70B, tend to align more closely with left-leaning political parties, while smaller models often remain neutral, particularly when prompted in English. The central finding is, that LLMs are similarly biased, with low variances in the alignment with respect to a specific party. Our findings underline the importance of rigorously assessing and making bias transparent in LLMs to safeguard the integrity and trustworthiness of applications that employ the capabilities of performative prediction and the invisible hand of machine learning prediction and language generation.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# MeteoRA: 大規模言語モデルのためのマルチタスク組み込みLoRA

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models ( http://arxiv.org/abs/2405.13053v2 )

ライセンス: Link先を確認
Jingwei Xu, Junyu Lai, Yunpeng Huang, (参考訳) Pretrain+fine-tuneパラダイムは、さまざまなダウンストリームアプリケーションに大規模な言語モデル(LLM)をデプロイする上での基礎となる。 このうちローランド適応(LoRA)はそのパラメータ効率のよい微調整(PEFT)で際立っている。 しかし、このアプローチでは、明示的なタスク意図の選択、自動タスク検出や、複数の既存のLoRAアダプタを1つのLLMに埋め込んだ推論時の切り替えといった課題に対処する必要がある。 本稿では,LLM向けに設計されたスケーラブルなマルチ知識 LoRA 融合フレームワークである MeteoRA (Multiple-Tasks embedded LoRA) を紹介する。 MeteoRAは様々なLoRAアダプタをMixture-of-Experts (MoE)スタイルのベースLLMに統合し、モデルがタスク入力に基づいて関連するアダプタを自動的に選択できるようにする。 この進歩はLLMの様々な問題を解くために様々なアダプタを必要とする複合タスクを扱う能力を大幅に向上させる。 LlaMA2-13B と LlaMA3-8B ベースモデルに既製の 28 個の LoRA アダプタを MeteoRA 経由で搭載し,各アダプタと同等の性能を示した。 さらに,MeteoRAを組み込んだ両ベースモデルは,1つの推論プロセスのみで10の問題を逐次解決し,MeteoRA組み込みLLMにおける時間的意図的切替能力を強調した。

The pretrain+fine-tune paradigm is foundational in deploying large language models (LLMs) across a diverse range of downstream applications. Among these, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous off-the-shelf task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for automatic task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce MeteoRA (Multiple-Tasks embedded LoRA), a scalable multi-knowledge LoRA fusion framework designed for LLMs. MeteoRA integrates various LoRA adapters in a Mixture-of-Experts (MoE) style into the base LLM, enabling the model to automatically select the most pertinent adapter based on the task input. This advancement significantly enhances the LLM's capability to handle composite tasks that require different adapters to solve various components of the problem. Our evaluations, featuring the LlaMA2-13B and LlaMA3-8B base models equipped with off-the-shelf 28 LoRA adapters through MeteoRA, demonstrate equivalent performance with the individual adapters. Furthermore, both base models equipped with MeteoRA achieve superior performance in sequentially solving composite tasks with ten problems in only a single inference process, highlighting the ability of timely intention switching in MeteoRA embedded LLMs.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 非アベリア格子ゲージ理論における量子多体スキャリング

Quantum Many-Body Scarring in a Non-Abelian Lattice Gauge Theory ( http://arxiv.org/abs/2405.13112v2 )

ライセンス: Link先を確認
Giuseppe Calajò, Giovanni Cataldi, Marco Rigobello, Darvin Wanisch, Giuseppe Magnifico, Pietro Silvi, Simone Montangero, Jad C. Halimeh, (参考訳) 量子多体散乱(Quantum many-body scarring, QMBS)は、エルゴディディディティ破壊の興味深いメカニズムであり、近年大きな注目を集めている。 特にアベリア格子ゲージ理論 (LGTs) では、QMBS が非アベリアLGT に自明に現れるかどうかが議論されている。 ここでは、動的物質を持つ非アベリアSU(2)LGTにおける頑健なQMBSの証拠を示す。 実験的なオーバーヘッドがほとんどない積状態から始めると、特定のクエンチに対して顕著なQMBSが出現し、中間子とバリオン・アンティバリオンの励起が促進され、非アベリアの性質が強調される。 発見されていないスカーレッドのダイナミクスは、実験的にアクセス可能な局所観測装置における長期間のコヒーレント振動、および州の忠実さにおける顕著な回復として現れている。 我々の発見は、QMBSを非アベリアLGTの領域に持ち込み、スカーリングとゲージ対称性の親密な関係を強調し、最近提案されたトラップイオンキュート量子コンピュータで観測可能である。

Quantum many-body scarring (QMBS) is an intriguing mechanism of ergodicity breaking that has recently spurred significant attention. Particularly prominent in Abelian lattice gauge theories (LGTs), an open question is whether QMBS nontrivially arises in non-Abelian LGTs. Here, we present evidence of robust QMBS in a non-Abelian SU(2) LGT with dynamical matter. Starting in product states that require little experimental overhead, we show that prominent QMBS arises for certain quenches, facilitated through meson and baryon-antibaryon excitations, highlighting its non-Abelian nature. The uncovered scarred dynamics manifests as long-lived coherent oscillations in experimentally accessible local observables as well as prominent revivals in the state fidelity. Our findings bring QMBS to the realm of non-Abelian LGTs, highlighting the intimate connection between scarring and gauge symmetry, and are amenable for observation in a recently proposed trapped-ion qudit quantum computer.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 画像合成における計算トレードオフ:拡散, マスケ-トケン, 次点予測

Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction ( http://arxiv.org/abs/2405.13218v2 )

ライセンス: Link先を確認
Maciej Kilian, Varun Jampani, Luke Zettlemoyer, (参考訳) 拡散、マスクトケン予測、次のトケン予測を含む最近の画像合成アプローチのほぼ全てが、Transformerネットワークアーキテクチャを使用している。 この一般的なバックボーンにもかかわらず、これらのアプローチがパフォーマンスと効率にどのように影響するかを直接、計算で制御された比較は行われていない。 FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。 次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。 画像の品質では、次点の予測は最初はより良い性能を示すが、スケーリングの傾向は最終的に拡散によって一致することを示唆している。 我々は,各手法の推論計算効率を比較し,次のトークン予測が最も効率的であることを示す。 この結果から,画像品質と低レイテンシをターゲットとしたアプリケーションへの拡散を推奨する。

Nearly every recent image synthesis approach, including diffusion, masked-token prediction, and next-token prediction, uses a Transformer network architecture. Despite this common backbone, there has been no direct, compute controlled comparison of how these approaches affect performance and efficiency. We analyze the scalability of each approach through the lens of compute budget measured in FLOPs. We find that token prediction methods, led by next-token prediction, significantly outperform diffusion on prompt following. On image quality, while next-token prediction initially performs better, scaling trends suggest it is eventually matched by diffusion. We compare the inference compute efficiency of each approach and find that next token prediction is by far the most efficient. Based on our findings we recommend diffusion for applications targeting image quality and low latency; and next-token prediction when prompt following or throughput is more important.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# TrojanRAG: 大規模言語モデルでは,検索可能な生成がバックドアドライバになる

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models ( http://arxiv.org/abs/2405.13401v2 )

ライセンス: Link先を確認
Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu, (参考訳) 大規模言語モデル (LLM) は、自然言語処理 (NLP) で顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。 バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。 LLMを攻撃することは、セキュリティレビューにおいて本質的に危険であるが、違法に高価である。 さらに、LLMの連続的なイテレーションは、バックドアの堅牢性を低下させます。 本稿では,Retrieval-Augmented Generationにおける共同バックドア攻撃を利用したTrojanRAGを提案する。 具体的には、敵は、精巧なターゲットコンテキストとトリガーセットを構成する。 複数のバックドアショートカットは、コントラスト学習によって直交的に最適化されるため、トリガー条件をパラメータ部分空間に制約し、マッチングを改善する。 対象コンテキストに対するRAGのリコールを改善するため,構造化データを構築するための知識グラフを導入し,きめ細かいレベルでのハードマッチングを実現する。 さらに, LLMのバックドアシナリオを正規化し, 攻撃者の視点とユーザ視点の両方からバックドアが引き起こす本当の害を分析し, さらに, ジェイルブレイクモデルに適したツールであるかどうかを検証した。 真理性、言語理解、有害性に関する広範な実験結果から、TrojanRAGは通常のクエリの検索能力を保ちながら、万能性の脅威を示すことが示された。

Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers' and users' perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# トレンドと周期性を超えて - テキストクイズによる時系列予測のガイド

Beyond Trend and Periodicity: Guiding Time Series Forecasting with Textual Cues ( http://arxiv.org/abs/2405.13522v2 )

ライセンス: Link先を確認
Zhijian Xu, Yuxuan Bian, Jianyuan Zhong, Xiangyu Wen, Qiang Xu, (参考訳) 本研究は,TGTSF(Text-Guided Time Series Forecasting)タスクを紹介する。 TGTSFは、チャネル記述や動的ニュースのようなテキストの手がかりを統合することで、歴史的データに純粋に依存する従来の手法の限界に対処する。 このタスクを支援するために,テキストキューと時系列データを相互アテンション機構を用いて融合する堅牢なベースラインモデルであるTGForecasterを提案する。 次に、簡単な周期データから複雑なイベント駆動の揺らぎまで、提案するフレームワークを検証するために、4つの厳密にキュレートされたベンチマークデータセットを提示します。 総合評価の結果、TGForecasterは、時系列予測にテキスト情報を組み込むことによる変換可能性を強調しながら、常に最先端のパフォーマンスを実現していることがわかった。 この研究は、新しい予測タスクの先駆けとなるだけでなく、将来の研究のための新しいベンチマークを確立し、時系列モデルのためのマルチモーダルデータ統合の進歩を推進している。

This work introduces a novel Text-Guided Time Series Forecasting (TGTSF) task. By integrating textual cues, such as channel descriptions and dynamic news, TGTSF addresses the critical limitations of traditional methods that rely purely on historical data. To support this task, we propose TGForecaster, a robust baseline model that fuses textual cues and time series data using cross-attention mechanisms. We then present four meticulously curated benchmark datasets to validate the proposed framework, ranging from simple periodic data to complex, event-driven fluctuations. Our comprehensive evaluations demonstrate that TGForecaster consistently achieves state-of-the-art performance, highlighting the transformative potential of incorporating textual information into time series forecasting. This work not only pioneers a novel forecasting task but also establishes a new benchmark for future research, driving advancements in multimodal data integration for time series models.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 一般化ラプラス近似

Generalized Laplace Approximation ( http://arxiv.org/abs/2405.13535v2 )

ライセンス: Link先を確認
Yinsong Chen, Samson S. Yu, Zhong Li, Chee Peng Lim, (参考訳) 近年、ベイズ深層学習の不整合が注目を集めている。 テンペリングされた、あるいは一般化された後続分布は、この問題に対して直接的で効果的な解を与えることが多い。 しかし、その根本原因を理解し、一般化後肢の有効性を評価することは研究の活発な領域に留まっている。 本研究では,ベイズ的不整合を非特異性をモデル化し,不整合をモデル化するための統一的理論的枠組みを提案する。 本研究では, 仮説空間内のモデル上での確率質量の再分配による事前の補正をデータサンプルを用いて行うことにより, 不特定モデルの補正として, 温度因子による後部の一般化を解釈する。 さらに、一般化正規化定数を不変として扱うことを保証するLaplace近似の特異な特徴を強調し、一般ベイズ学習の典型的なシナリオでは、この定数はモデルパラメータの一般化後に変化する。 この知見に基づいて、正規化損失関数のヘッセン行列の計算に簡単な調整を含む一般化されたラプラス近似を提案する。 この方法は、高品質な後部分布を得るためのフレキシブルでスケーラブルなフレームワークを提供する。 我々は、最先端のニューラルネットワークと実世界のデータセット上での一般化されたLaplace近似の性能と特性を評価する。

In recent years, the inconsistency in Bayesian deep learning has garnered increasing attention. Tempered or generalized posterior distributions often offer a direct and effective solution to this issue. However, understanding the underlying causes and evaluating the effectiveness of generalized posteriors remain active areas of research. In this study, we introduce a unified theoretical framework to attribute Bayesian inconsistency to model misspecification and inadequate priors. We interpret the generalization of the posterior with a temperature factor as a correction for misspecified models through adjustments to the joint probability model, and the recalibration of priors by redistributing probability mass on models within the hypothesis space using data samples. Additionally, we highlight a distinctive feature of Laplace approximation, which ensures that the generalized normalizing constant can be treated as invariant, unlike the typical scenario in general Bayesian learning where this constant varies with model parameters post-generalization. Building on this insight, we propose the generalized Laplace approximation, which involves a simple adjustment to the computation of the Hessian matrix of the regularized loss function. This method offers a flexible and scalable framework for obtaining high-quality posterior distributions. We assess the performance and properties of the generalized Laplace approximation on state-of-the-art neural networks and real-world datasets.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# ECLIPSE: 言語間産業ログ解析のための意味エントロピーLCS

ECLIPSE: Semantic Entropy-LCS for Cross-Lingual Industrial Log Parsing ( http://arxiv.org/abs/2405.13548v2 )

ライセンス: Link先を確認
Wei Zhang, Xianfu Cheng, Yi Zhang, Jian Yang, Hongcheng Guo, Zhoujun Li, Xiaolin Yin, Xiangyuan Guan, Xu Shi, Liangfan Zheng, Bo Zhang, (参考訳) ログ解析(Log parsing)は、ソフトウェアアーキテクチャ内で生成された膨大な複雑なデータを解釈するための重要なタスクであり、学術ベンチマークから産業領域への移行において大きな課題に直面している。 既存のログパーサは、標準化されたパブリックデータセットで非常に効果的だが、実際の産業ログの厳格なスケールと多様性に直面した場合、パフォーマンスと効率を維持するのに苦労している。 これらの課題は2つあります。 1) 巨大なログテンプレート: 多くの既存パーサのパフォーマンスと効率は、増大する量と長さの異なるログで大幅に低下する。 2) 複雑で変更可能なセマンティクス: 従来のテンプレートマッチングアルゴリズムは、類似したセマンティクスを持つクロス言語ログを利用できないため、複雑な産業ログのログテンプレートを正確にマッチングすることはできない。 これらの問題に対処するために,言語間ログが産業ログを頑健に解析できるため,セマンティックエントロピー-LCSによる産業ログ解析の強化であるCLIPSEを提案する。 一方、効率的なデータ駆動型テンプレートマッチングアルゴリズムと、Faissインデクシングを統合している。 一方、Large Language Model(LLM)の強力な意味理解能力によって、ログキーワードの意味を正確に抽出し、検索空間を効果的に削減した。 特に,中国および英語の産業用ログ解析ベンチマークであるCLIPSE-BENCHをローンチし,産業シナリオにおける主流パーサの性能を評価する。 公開ベンチマークとECLIPSE-BENCHによる実験結果は,提案したECLIPSEの優れた性能とロバスト性を裏付けるものである。 特に、ECLIPSEはどちらも、強いベースラインと比較して最先端のパフォーマンスを提供し、処理効率の大きなエッジを保っている。

Log parsing, a vital task for interpreting the vast and complex data produced within software architectures faces significant challenges in the transition from academic benchmarks to the industrial domain. Existing log parsers, while highly effective on standardized public datasets, struggle to maintain performance and efficiency when confronted with the sheer scale and diversity of real-world industrial logs. These challenges are two-fold: 1) massive log templates: The performance and efficiency of most existing parsers will be significantly reduced when logs of growing quantities and different lengths; 2) Complex and changeable semantics: Traditional template-matching algorithms cannot accurately match the log templates of complicated industrial logs because they cannot utilize cross-language logs with similar semantics. To address these issues, we propose ECLIPSE, Enhanced Cross-Lingual Industrial log Parsing with Semantic Entropy-LCS, since cross-language logs can robustly parse industrial logs. On the one hand, it integrates two efficient data-driven template-matching algorithms and Faiss indexing. On the other hand, driven by the powerful semantic understanding ability of the Large Language Model (LLM), the semantics of log keywords were accurately extracted, and the retrieval space was effectively reduced. Notably, we launch a Chinese and English cross-platform industrial log parsing benchmark ECLIPSE- BENCH to evaluate the performance of mainstream parsers in industrial scenarios. Our experimental results across public benchmarks and ECLIPSE- BENCH underscore the superior performance and robustness of our proposed ECLIPSE. Notably, ECLIPSE both delivers state-of-the-art performance when compared to strong baselines and preserves a significant edge in processing efficiency.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# BESSER - オープンソースのローコードプラットフォーム

Building BESSER: an open-source low-code platform ( http://arxiv.org/abs/2405.13620v2 )

ライセンス: Link先を確認
Iván Alfonso, Aaron Conrardy, Armen Sulejmani, Atefeh Nirumand, Fitash Ul Haq, Marcos Gomez-Vazquez, Jean-Sébastien Sottet, Jordi Cabot, (参考訳) ローコードプラットフォーム(モデル駆動型エンジニアリングアプローチの長い伝統の再編成)は、反復的なボイラープレートコーディングタスクを何時間も節約する可能性を秘めています。 しかし、ソフトウェアシステムが複雑化するにつれて、ローコードプラットフォームも適応する必要があります。 特に近年では、これはスマートソフトウェアのモデリングと生成に適応することを意味している。 同時に、この種のツールのユーザベースを広げたいのであれば、潜在的なユーザがベンダーのロックインを回避し、ローコード開発アプローチを調査する自由を彼らに与えられるような、よりオープンソースな代替手段を提供することも必要です。 これらのニーズを満たすため、私たちは、(スマートな)ソフトウェアを開発するためのオープンソースのローコードプラットフォームであるBESSERを構築しています。 BESSERは、システムおよびドメイン仕様(例えば、テクニカルユーザ向けのUMLとビジネスユーザ向けのチャットボット)のための様々なフォーム(表記法)と、多数のジェネレータを提供する。 どちらのタイプのコンポーネントも拡張可能で、コミュニティからのコントリビューションも可能です。

Low-code platforms (latest reincarnation of the long tradition of model-driven engineering approaches) have the potential of saving us countless hours of repetitive boilerplate coding tasks. However, as software systems grow in complexity, low-code platforms need to adapt as well. Notably, nowadays this implies adapting to the modeling and generation of smart software. At the same time, if we want to broaden the userbase of this type of tools, we should also be able to provide more open source alternatives that help potential users avoid vendor lock-ins and give them the freedom to explore low-code development approaches (even adapting the tool to better fit their needs). To fulfil these needs, we are building BESSER, an open source low-code platform for developing (smart) software. BESSER offers various forms (i.e., notations) for system and domain specification (e.g. UML for technical users and chatbots for business users) together with a number of generators. Both types of components can be extended and are open to contributions from the community.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 拡散・一貫性モデルのためのカリキュラム直接選好最適化

Curriculum Direct Preference Optimization for Diffusion and Consistency Models ( http://arxiv.org/abs/2405.13637v2 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah, (参考訳) 人的フィードバック(RLHF)からの強化学習の効果的な代替手段として、直接選好最適化(DPO)が提案されている。 本稿では,テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新たな拡張版を提案する。 我々の方法は2つの訓練段階に分けられる。 まず、報酬モデルを用いて各プロンプト毎に生成された例のランキングを得る。 そして、ますます難しい例のペアをサンプル化し、テキストから画像への生成(拡散または一貫性)モデルに提供します。 ランキングで遠く離れた生成標本は容易なペアとなり、ランキングで近いものは硬いペアになると考えられている。 言い換えれば、サンプル間のランク差を難易度として用いる。 サンプルペアは、それらの難易度に応じてバッチに分割され、徐々に生成モデルを訓練するために使用される。 提案手法であるCurriculum DPOは,3つのベンチマークにおける最先端の微調整手法と比較し,テキストアライメント,美学,人的嗜好の観点から比較した。 私たちのコードはhttps://anonymous.4open.science/r/Curriculum-DPO-EE14で公開されています。

Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum learning for text-to-image generation. Our method is divided into two training stages. First, a ranking of the examples generated for each prompt is obtained by employing a reward model. Then, increasingly difficult pairs of examples are sampled and provided to a text-to-image generative (diffusion or consistency) model. Generated samples that are far apart in the ranking are considered to form easy pairs, while those that are close in the ranking form hard pairs. In other words, we use the rank difference between samples as a measure of difficulty. The sampled pairs are split into batches according to their difficulty levels, which are gradually used to train the generative model. Our approach, Curriculum DPO, is compared against state-of-the-art fine-tuning approaches on three benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://anonymous.4open.science/r/Curriculum-DPO-EE14.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# 量子慣性センサを用いた古典加速度計とジャイロスコープの安定化

Stabilizing classical accelerometers and gyroscopes with a quantum inertial sensor ( http://arxiv.org/abs/2405.13689v2 )

ライセンス: Link先を確認
Clément Salducci, Yannick Bidel, Malo Cadoret, Sarah Darmon, Nassim Zahzam, Alexis Bonnin, Sylvain Schwartz, Cédric Blanchard, Alexandre Bresson, (参考訳) 慣性量の正確な測定は、地球物理学、測地学、基礎物理学、航海に不可欠である。 例えば、慣性ナビゲーションシステムは、キャリアの位置と姿勢を計算するために安定した慣性センサーを必要とする。 ここでは,原子波干渉計を用いて加速度計とジャイロスコープの両方のドリフトとバイアスを同時に補正する,最初のハイブリッド型冷原子慣性センサを提案する。 加速度計とコリオリス振動ジャイロスコープを単独で操作した場合と比較して,ハイブリッドセンサの安定性を100倍3倍に向上させるため,統合後2日で7 \times 10^{-7}$ m/s$^2$および4 \times 10^{-7}$ rad/sのバイアス安定性が得られた。 この装置は地球回転速度の最大100倍の速度で運用されている。 最先端の原子ジャイロスコープと比較して、我々のアーキテクチャのシンプルさとスケーラビリティにより、コンパクトな6軸慣性測定ユニットに容易に拡張でき、冷原子センサーを用いた自律的な位置決めと方向決めの道を提供する。

Accurate measurement of inertial quantities is essential in geophysics, geodesy, fundamental physics and navigation. For instance, inertial navigation systems require stable inertial sensors to compute the position and attitude of the carrier. Here, we present the first hybridized cold-atom inertial sensor based on matter wave interferometry where the atomic measurements are used to correct the drift and bias of both an accelerometer and a gyroscope at the same time. We achieve respective bias stabilities of $7 \times 10^{-7}$ m/s$^2$ and $4 \times 10^{-7}$ rad/s after two days of integration, corresponding to a 100-fold and 3-fold increase on the stability of the hybridized sensor compared to the force-balanced accelerometer and Coriolis vibrating gyroscope operated alone. The instrument has been operated under up to 100-times the Earth rotation rate. Compared to state-of-the-art atomic gyroscope, the simplicity and scalability of our architecture make it easily extendable to a compact full six-axis inertial measurement unit, providing a pathway towards autonomous positioning and orientation using cold-atom sensors.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# ComboStoc:拡散生成モデルのための組合せ確率性

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models ( http://arxiv.org/abs/2405.13729v2 )

ライセンス: Link先を確認
Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang, (参考訳) 本稿では,拡散生成モデル,すなわち組合せ複雑性の未解明だが重要な要因について検討する。 データサンプルは一般に高次元であり、様々な構造化された生成タスクには、データサンプルに関連付けるために付加的な属性が存在する。 本研究では,従来の拡散生成モデルのトレーニングスキームにより,次元と属性の組み合わせによる空間のサンプル化が不十分であることが示され,試験時間性能が劣化することを示した。 本稿では, 組合せ構造を完全に活用する確率過程を構築することで, この問題に対する簡単な修正を行う。 この単純な戦略を用いて、画像や3次元構造形状を含む様々なデータモダリティにおいて、ネットワークトレーニングが著しく加速されていることを示す。 さらに、ComboStocは、異なる次元と属性に対して非同期のタイムステップを使用する新しいテスト時間生成を可能にする。

In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, there are additional attributes which are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes is insufficiently sampled by existing training scheme of diffusion generative models, causing degraded test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses insynchronized time steps for different dimensions and attributes, thus allowing for varying degrees of control over them.
翻訳日:2024-05-27 19:58:14 公開日:2024-05-24
# CG-FedLLM:大規模言語モデルのためのフェデレートフーンチューニングにおける勾配の圧縮法

CG-FedLLM: How to Compress Gradients in Federated Fune-tuning for Large Language Models ( http://arxiv.org/abs/2405.13746v2 )

ライセンス: Link先を確認
Huiwen Wu, Xiaohan Li, Deyi Zhang, Xiaogang Xu, Jiafei Wu, Puning Zhao, Zhe Liu, (参考訳) 現在のLLM(Large-Language Models)の成功は、集中学習(Centralized Learning, CL)と呼ばれる、集中的に収集、保存される広範なトレーニングデータに基づいている。 しかし、このような収集方法はプライバシーの脅威となり、潜在的な解決策の1つは、クライアント間で、生データではなく勾配を転送するフェデレートラーニング(FL)である。 従来のネットワークとは異なり、FL for LLMは大きなパラメーターのため、通信コストがかなり高い。 本研究では, LLM FLにおける通信効率向上のために, CG-FedLLM という新しい FL パイプラインを考案した。 このアプローチでは、クライアント側のエンコーダを統合して、圧縮された勾配特徴とサーバ側のデコーダを取得し、勾配を再構築する。 また,TGAP(Temporal-ensemble Gradient-Aware Pre-Training)を用いて,対象モデルの特性勾配とFAF(Federated AutoEncoder-Involved Fine-Tuning)を適応的に圧縮する新たなトレーニング戦略を開発した。 本手法は通信コストを低減し,性能を向上する(例えば,LlaMAを用いた従来のCL-やFL-ベースファインタニングに比べて平均3ポイント向上する)。 この改善は、TGAPとAFFで訓練されたエンコーダデコーダが、重要な特徴を選択的に保存しながら勾配をフィルタできるためである。 さらに、このプライバシー中心のフレームワークにおける信号対雑音比、圧縮速度、ロバスト性に着目し、より効率的でセキュアなLCMの開発に関する知見を提供する。

The success of current Large-Language Models (LLMs) hinges on extensive training data that is collected and stored centrally, called Centralized Learning (CL). However, such a collection manner poses a privacy threat, and one potential solution is Federated Learning (FL), which transfers gradients, not raw data, among clients. Unlike traditional networks, FL for LLMs incurs significant communication costs due to their tremendous parameters. This study introduces an innovative approach to compress gradients to improve communication efficiency during LLM FL, formulating the new FL pipeline named CG-FedLLM. This approach integrates an encoder on the client side to acquire the compressed gradient features and a decoder on the server side to reconstruct the gradients. We also developed a novel training strategy that comprises Temporal-ensemble Gradient-Aware Pre-training (TGAP) to identify characteristic gradients of the target model and Federated AutoEncoder-Involved Fine-tuning (FAF) to compress gradients adaptively. Extensive experiments confirm that our approach reduces communication costs and improves performance (e.g., average 3 points increment compared with traditional CL- and FL-based fine-tuning with LlaMA on a well-recognized benchmark, C-Eval). This improvement is because our encoder-decoder, trained via TGAP and FAF, can filter gradients while selectively preserving critical features. Furthermore, we present a series of experimental analyses focusing on the signal-to-noise ratio, compression rate, and robustness within this privacy-centric framework, providing insight into developing more efficient and secure LLMs.
翻訳日:2024-05-27 19:58:13 公開日:2024-05-24
# フィルターなし:コントラスト視覚・言語モデルにおける文化的・社会経済的多様性

No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models ( http://arxiv.org/abs/2405.13777v2 )

ライセンス: Link先を確認
Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin, (参考訳) コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性について検討した。 幅広いベンチマークデータセットと評価指標を用いて、いくつかの重要な発見に注目する。 まず、英語のイメージテキスト対に対するトレーニングデータの一般的なフィルタリングは、社会経済的地位の低いコミュニティを不利にし、文化的理解に悪影響を及ぼす。 特に、このパフォーマンスギャップは、現在一般的な評価指標である、Western中心のImageNetとCOCOデータセットによって捉えられていない。 第二に、英語のコンテンツを微調整する前に、グローバルでフィルタされていないデータで事前トレーニングすることは、その人気ベンチマークのパフォーマンスを犠牲にすることなく、文化的理解を改善することができる。 第3に,VLMの文化的多様性を評価するための新しい評価指標として,地理的ローカライゼーションの課題を紹介する。 我々の研究は、多様なデータを用いてより包括的なマルチモーダルシステムを構築することの価値を強調し、グローバルな視点をよりよく表現するVLMを開発するための基盤となる。

We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by - and even at odds with - the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
翻訳日:2024-05-27 19:58:13 公開日:2024-05-24
# 無限次元特徴相互作用

Infinite-Dimensional Feature Interaction ( http://arxiv.org/abs/2405.13972v2 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Maoliang Li, Zihao Zheng, Zirui Xu, Jinjun Xiong, Xiang Chen, (参考訳) 過去のニューラルネットワーク設計では、機能表現空間の次元とキャパシティスケーリング(例えば、幅、深さ)に重点を置いていたが、機能相互作用空間のスケーリングを見落としていた。 最近の進歩は、情報変換を改善するために高次元の特徴相互作用空間を促進するために、要素ワイド乗法に焦点を移している。 この進歩にもかかわらず、乗法は主に低次の相互作用を捉え、したがって有限次元の相互作用空間に限られる。 この制限を超越するために、古典的なカーネルメソッドは無限次元空間で機能を実行するための有望な解決策として現れる。 本稿では,RBFカーネルが生成する無限次元空間内での機能相互作用を可能にするモデルアーキテクチャであるInfiNetを紹介する。 実験の結果,無限次元の相互作用を活用する能力により,InfiNetは新たな最先端技術を実現し,モデル性能を大幅に向上することがわかった。

The past neural network design has largely focused on feature representation space dimension and its capacity scaling (e.g., width, depth), but overlooked the feature interaction space scaling. Recent advancements have shown shifted focus towards element-wise multiplication to facilitate higher-dimensional feature interaction space for better information transformation. Despite this progress, multiplications predominantly capture low-order interactions, thus remaining confined to a finite-dimensional interaction space. To transcend this limitation, classic kernel methods emerge as a promising solution to engage features in an infinite-dimensional space. We introduce InfiNet, a model architecture that enables feature interaction within an infinite-dimensional space created by RBF kernel. Our experiments reveal that InfiNet achieves new state-of-the-art, owing to its capability to leverage infinite-dimensional interactions, significantly enhancing model performance.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-24
# CHARP:知識接地対話システムのための会話履歴Awareness Probing

CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems ( http://arxiv.org/abs/2405.15110v1 )

ライセンス: Link先を確認
Abbas Ghaddar, David Alfonso-Hermelo, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen, Prasanna Parthasarathi, (参考訳) 本研究では,信頼度を重視した知識基盤型ダイアログベンチマークであるFaithDialについて詳しく検討する。 FaithDialデータの大部分にアノテーションアーティファクトが含まれており、会話履歴を完全に無視するモデルに偏りが生じる可能性がある。 そこで我々は,会話モデルにおける幻覚評価の改善を目的とした診断テストセットCHARPを導入する。 CHARPは幻覚だけでなく、会話タスクに対するモデルのコンプライアンスも測定する。 広範に分析した結果,CHARPでは会話履歴に効果的に参加できないため,モデルの性能が低下していることが判明した。 さらに、FithDialの評価手法はこれらの欠点を捉えず、会話の歴史を無視する。 本研究は,知識基盤対話におけるデータセット作成と幻覚評価に多大な貢献の余地があることを示唆し,CHARPが特定の研究領域の進捗をモニタリングするためのツールとして機能できることを示唆している。 CHARPはhttps://huggingface.co/datasets/huawei-noah/CHARPで公開されている。

In this work, we dive deep into one of the popular knowledge-grounded dialogue benchmarks that focus on faithfulness, FaithDial. We show that a significant portion of the FaithDial data contains annotation artifacts, which may bias models towards completely ignoring the conversation history. We therefore introduce CHARP, a diagnostic test set, designed for an improved evaluation of hallucinations in conversational model. CHARP not only measures hallucination but also the compliance of the models to the conversation task. Our extensive analysis reveals that models primarily exhibit poor performance on CHARP due to their inability to effectively attend to and reason over the conversation history. Furthermore, the evaluation methods of FaithDial fail to capture these shortcomings, neglecting the conversational history. Our findings indicate that there is substantial room for contribution in both dataset creation and hallucination evaluation for knowledge-grounded dialogue, and that CHARP can serve as a tool for monitoring the progress in this particular research area. CHARP is publicly available at https://huggingface.co/datasets/huawei-noah/CHARP
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# インコンテキスト不確実性定量化によるインコンテキスト学習能力の理解向上に向けて

Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification ( http://arxiv.org/abs/2405.15115v1 )

ライセンス: Link先を確認
Shang Liu, Zhongze Cai, Guanting Chen, Xiaocheng Li, (参考訳) 単純な関数クラスの予測は、トレーニングされたTransformerのインコンテキスト学習(ICL)能力の理論と理解を開発するためのテストベッドとして広く利用されている。 本稿では,線形回帰タスクにおけるトランスフォーマーのトレーニングを再考し,既存の文献と異なり,条件付き期待値 $\mathbb{E}[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双方向予測タスクを考える。 この追加の不確実性定量化の目的は、ハンドリングを提供する i)ICLとin-weight Learning(IWL)を区別するためのアウト・オブ・ディストリビューション実験のより良い設計 二 トレーニング分布の事前情報を用いずに、アルゴリズムの分離をより良くする。 理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。 我々の方法は他のケースにも拡張できる。 具体的には、Transformerのコンテキストウィンドウ$S$で、$\tilde{\mathcal{O}}(\sqrt{\min\{S, T\}/(n T)})$ on $n$タスクの長さ$T$で、$\tilde{\mathcal{O}}(\sqrt{1/n})$の以前の結果と比較してよりシャープな分析を提供する。 経験的に、トレーニングされたトランスフォーマーは、分布における教師付きトレーニングの自然な結果としてベイズ最適解として振る舞うが、既存の文献で提案されている2つの間の「textit{equivalence}」とは対照的に、タスクシフトに直面しているときにベイズ的推論を行うとは限らない。 また、共変量シフトと即時長シフトよりも訓練されたTransformerのICL能力を実証し、メタ分布の一般化として解釈する。

Predicting simple function classes has been widely used as a testbed for developing theory and understanding of the trained Transformer's in-context learning (ICL) ability. In this paper, we revisit the training of Transformers on linear regression tasks, and different from all the existing literature, we consider a bi-objective prediction task of predicting both the conditional expectation $\mathbb{E}[Y|X]$ and the conditional variance Var$(Y|X)$. This additional uncertainty quantification objective provides a handle to (i) better design out-of-distribution experiments to distinguish ICL from in-weight learning (IWL) and (ii) make a better separation between the algorithms with and without using the prior information of the training distribution. Theoretically, we show that the trained Transformer reaches near Bayes-optimum, suggesting the usage of the information of the training distribution. Our method can be extended to other cases. Specifically, with the Transformer's context window $S$, we prove a generalization bound of $\tilde{\mathcal{O}}(\sqrt{\min\{S, T\}/(n T)})$ on $n$ tasks with sequences of length $T$, providing sharper analysis compared to previous results of $\tilde{\mathcal{O}}(\sqrt{1/n})$. Empirically, we illustrate that while the trained Transformer behaves as the Bayes-optimal solution as a natural consequence of supervised training in distribution, it does not necessarily perform a Bayesian inference when facing task shifts, in contrast to the \textit{equivalence} between these two proposed in many existing literature. We also demonstrate the trained Transformer's ICL ability over covariates shift and prompt-length shift and interpret them as a generalization over a meta distribution.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# 弱-強一般化における利得の定量化

Quantifying the Gain in Weak-to-Strong Generalization ( http://arxiv.org/abs/2405.15116v1 )

ライセンス: Link先を確認
Moses Charikar, Chirag Pabbaraju, Kirankumar Shiragur, (参考訳) 大規模言語モデルの最近の進歩は、異常で超人に近い能力を示している。 これらのモデルはそのような複雑さで動作し、それらを確実に評価し、調整することは、人間にとって難しいことを証明します。 弱いモデル(人間のような)からのガイダンスは、強いモデルの能力を適切に導くことができますか? バーンズらの研究(2023年)では、強いモデル(GPT-4など)が弱いスーパーバイザー(GPT-2など)が生成するラベルを使って微調整されると、強いモデルはより弱いモデルよりも優れていることを実証的に証明した。 本研究では、弱強一般化を理解するための理論的枠組みを提案する。 具体的には、弱いモデルで生成されたラベル上で、強みモデルによって生じる誤差によって、強みモデルによって達成される性能の向上が定量化されることを示す。 私たちの理論にはいくつかの興味深いアルゴリズムの洞察が浮かび上がっている。 例えば、強いモデルが弱いモデルよりも改善する量を予測することができ、また、そのミスフィットエラーに基づいて、強いモデルをトレーニングするために異なる弱いモデルを選択することができる。 様々な経験的評価を通じて理論的知見を検証した。

Recent advances in large language models have shown capabilities that are extraordinary and near-superhuman. These models operate with such complexity that reliably evaluating and aligning them proves challenging for humans. This leads to the natural question: can guidance from weak models (like humans) adequately direct the capabilities of strong models? In a recent and somewhat surprising work, Burns et al. (2023) empirically demonstrated that when strong models (like GPT-4) are finetuned using labels generated by weak supervisors (like GPT-2), the strong models outperform their weaker counterparts -- a phenomenon they term weak-to-strong generalization. In this work, we present a theoretical framework for understanding weak-to-strong generalization. Specifically, we show that the improvement in performance achieved by strong models over their weaker counterparts is quantified by the misfit error incurred by the strong model on labels generated by the weaker model. Our theory reveals several curious algorithmic insights. For instance, we can predict the amount by which the strong model will improve over the weak model, and also choose among different weak models to train the strong model, based on its misfit error. We validate our theoretical findings through various empirical assessments.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# GS-Hider:メッセージを3Dガウスの切り札に隠す

GS-Hider: Hiding Messages into 3D Gaussian Splatting ( http://arxiv.org/abs/2405.15118v1 )

ライセンス: Link先を確認
Xuanyu Zhang, Jiarui Meng, Runyi Li, Zhipei Xu, Yongbing Zhang, Jian Zhang, (参考訳) 3Dガウススプラッティング(3DGS)はすでに3Dシーンの再構築と新しいビュー合成の分野における新たな研究の焦点となっている。 3DGSのトレーニングにはかなりの時間と計算コストが必要であり、そのような3D資産の著作権、完全性、プライバシーを保護することが不可欠である。 ステガノグラフィーは、暗号化伝送と著作権保護にとって重要な技術であり、広く研究されている。 しかし、3DGSをターゲットとした深層探査はいまだに欠けている。 以前のNeRFとは異なり、3DGSには2つの特徴がある。 1) 明快な3D表現,及び 2)リアルタイムレンダリング速度。 これらの特徴により、3DGSポイントのクラウドファイルは公開され透明になり、それぞれのガウスポイントは明確な物理的重要性を持つ。 したがって、3DGSポイントのクラウドファイルに情報を埋め込んだまま、元の3Dシーンのセキュリティと忠実さを確保することは、非常に難しい作業である。 この問題を解決するために,まずGS-Hiderと呼ばれる3DGSのステガノグラフィーフレームワークを提案する。 具体的には、元の3DGSの球面調和係数を置き換えるために、結合されたセキュアな特徴属性を設計し、次にシーンデコーダとメッセージデコーダを使用して元のRGBシーンと隠れメッセージを切り離す。 大規模な実験により、提案されたGS-Hiderは、レンダリング品質を損なうことなく効果的にマルチモーダルメッセージを隠蔽でき、例外的なセキュリティ、堅牢性、キャパシティ、柔軟性を有することが示された。 私たちのプロジェクトは、https://xuanyuzhang21.github.io/project/gshider.comで利用可能です。

3D Gaussian Splatting (3DGS) has already become the emerging research focus in the fields of 3D scene reconstruction and novel view synthesis. Given that training a 3DGS requires a significant amount of time and computational cost, it is crucial to protect the copyright, integrity, and privacy of such 3D assets. Steganography, as a crucial technique for encrypted transmission and copyright protection, has been extensively studied. However, it still lacks profound exploration targeted at 3DGS. Unlike its predecessor NeRF, 3DGS possesses two distinct features: 1) explicit 3D representation; and 2) real-time rendering speeds. These characteristics result in the 3DGS point cloud files being public and transparent, with each Gaussian point having a clear physical significance. Therefore, ensuring the security and fidelity of the original 3D scene while embedding information into the 3DGS point cloud files is an extremely challenging task. To solve the above-mentioned issue, we first propose a steganography framework for 3DGS, dubbed GS-Hider, which can embed 3D scenes and images into original GS point clouds in an invisible manner and accurately extract the hidden messages. Specifically, we design a coupled secured feature attribute to replace the original 3DGS's spherical harmonics coefficients and then use a scene decoder and a message decoder to disentangle the original RGB scene and the hidden message. Extensive experiments demonstrated that the proposed GS-Hider can effectively conceal multimodal messages without compromising rendering quality and possesses exceptional security, robustness, capacity, and flexibility. Our project is available at: https://xuanyuzhang21.github.io/project/gshider.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# グラフにおけるノードサブセット上の関数のベイズ最適化

Bayesian Optimization of Functions over Node Subsets in Graphs ( http://arxiv.org/abs/2405.15119v1 )

ライセンス: Link先を確認
Huidong Liang, Xingchen Wan, Xiaowen Dong, (参考訳) グラフ内のノード部分集合上で定義された関数を最適化する問題に対処する。 そのような関数の最適化は、組み合わせ、ブラックボックス、そして高価な評価の性質を考えると、しばしば非自明な作業である。 様々なアルゴリズムが文献で紹介されているが、その多くはタスク固有か計算的に非効率的であり、関数の特性を考慮せずにグラフ構造に関する情報のみを利用する。 これらの制約に対処するために、サンプル効率の良いブラックボックスソルバであるベイズ最適化(BO)を用い、グラフ上での組合せ最適化のための新しいフレームワークを提案する。 より具体的には、元のグラフの各$k$-nodeサブセットを新しい組合せグラフのノードにマッピングし、局所モデリングアプローチを採用して、再帰的アルゴリズムを用いてそのサブグラフを段階的にサンプリングすることで、後者のグラフを効率的にトラバースする。 各種グラフおよび最適化タスクにおけるBOフレームワークの有効性を総合的に検証し,その挙動をアブレーション研究により詳細に解析した。

We address the problem of optimizing over functions defined on node subsets in a graph. The optimization of such functions is often a non-trivial task given their combinatorial, black-box and expensive-to-evaluate nature. Although various algorithms have been introduced in the literature, most are either task-specific or computationally inefficient and only utilize information about the graph structure without considering the characteristics of the function. To address these limitations, we utilize Bayesian Optimization (BO), a sample-efficient black-box solver, and propose a novel framework for combinatorial optimization on graphs. More specifically, we map each $k$-node subset in the original graph to a node in a new combinatorial graph and adopt a local modeling approach to efficiently traverse the latter graph by progressively sampling its subgraphs using a recursive algorithm. Extensive experiments under both synthetic and real-world setups demonstrate the effectiveness of the proposed BO framework on various types of graphs and optimization tasks, where its behavior is analyzed in detail with ablation studies.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# 非正直なカジノのカウンターファクチュアル分析

A Counterfactual Analysis of the Dishonest Casino ( http://arxiv.org/abs/2405.15120v1 )

ライセンス: Link先を確認
Martin Haugh, Raghav Singal, (参考訳) 不名誉なカジノは、教育環境においてHMMとグラフィカルモデルを導入するためによく知られた隠れマルコフモデル(HMM)である。 ここでは、カジノがフェアとロードダイの間で切替されるような一連のダイロールが観察される。 典型的には、観測されたロールを使用して、公正なダイスとロードされたダイスのパターンを推測し、フィルタリング、スムーズ化、ビタビアルゴリズムに繋がる。 しかし,本論文では,カジノの不正行為と,HMMプリミティブの範囲を超えた事実的問題との関連性について考察する。 そこで本研究では,HMMと整合した構造因果モデル(SCM)を導入し,線形プログラム(LP)を用いて,不正行為(EWAC)に起因する期待勝利を有界化できることを示す。 数値実験により、これらの境界を計算し、独立性、コモノトニック性、反モノトニック性コプラに基づくベンチマークSCMを用いて直観を発達させる。 より厳密な境界は、SCM上の時間均一性条件で得られるが、より緩い境界は、ほぼ明示的なLP解を可能にする。 経路的単調性や反現実的安定性のようなドメイン固有の知識は線形制約によって組み込むことができる。 我々の研究は、因果推論における反事実の有界化に寄与し、動的HMM設定でLP境界を初めて開発し、反事実推論が教えられる教育的文脈の恩恵を受ける。

The dishonest casino is a well-known hidden Markov model (HMM) used in educational settings to introduce HMMs and graphical models. Here, a sequence of die rolls is observed, with the casino switching between a fair and a loaded die. Typically, the goal is to use the observed rolls to infer the pattern of fair and loaded dice, leading to filtering, smoothing, and Viterbi algorithms. This paper, however, explores how much of the winnings is attributable to the casino's cheating, a counterfactual question beyond the scope of HMM primitives. To address this, we introduce a structural causal model (SCM) consistent with the HMM and show that the expected winnings attributable to cheating (EWAC) can be bounded using linear programs (LPs). Through numerical experiments, we compute these bounds and develop intuition using benchmark SCMs based on independence, comonotonic, and counter-monotonic copulas. We show that tighter bounds are obtained with a time-homogeneity condition on the SCM, while looser bounds allow for an almost explicit LP solution. Domain-specific knowledge like pathwise monotonicity or counterfactual stability can be incorporated via linear constraints. Our work contributes to bounding counterfactuals in causal inference and is the first to develop LP bounds in a dynamic HMM setting, benefiting educational contexts where counterfactual inference is taught.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# 大規模言語モデルを活用した汎用的でスケーラブルな多段階バイオメディカル概念正規化

Generalizable and Scalable Multistage Biomedical Concept Normalization Leveraging Large Language Models ( http://arxiv.org/abs/2405.15122v1 )

ライセンス: Link先を確認
Nicholas J Dobbins, (参考訳) 背景: バイオメディカルエンティティの正規化は, 文章やフレーズを解析に適した構造化および符号化された表現に翻訳した後にのみ, 進歩ノートなどの自由テキスト臨床データの豊かさを十分に活用できるため, 生物医学研究にとって重要である。 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな可能性と高い性能を示してきたが、その正規化への応用はまだ検討されていない。 方法: バイオメディカル研究でよく用いられるルールベース正規化システムと, プロプライエタリLLMとオープンソースLLMを併用した。 2段階のLLM統合手法を用いて,(1)LLMを用いてソース発話の代替フレーズを生成し,(2)UMLSの候補概念を多種多様なプロンプト手法を用いて提案した。 結果を$F_{\beta}$で測る。 結果: 生物医学的要約の公開データセットから, 概念用語とテキストコンテキストの合計5,523点を評価した。 GPT-3.5-turboは、正規化システム+9.5と+7.3(MetaMapLite)、+13.9と+10.9(QuickUMLS)、+10.5と+10.3(BM25)、オープンソースのVicunaモデルは+10.8と+12.2(MetaMapLite)、+14.7と+15(QuickUMLS)、+15.6と+18.7(BM25)の総合的な$F_{\beta}$とF1が増加した。 結論: 既存の汎用LLMは、プロプライエティとオープンソースの両方で、既存のツールによる正規化性能を大幅に改善するために、大規模に活用することができる。

Background: Biomedical entity normalization is critical to biomedical research because the richness of free-text clinical data, such as progress notes, can often be fully leveraged only after translating words and phrases into structured and coded representations suitable for analysis. Large Language Models (LLMs), in turn, have shown great potential and high performance in a variety of natural language processing (NLP) tasks, but their application for normalization remains understudied. Methods: We applied both proprietary and open-source LLMs in combination with several rule-based normalization systems commonly used in biomedical research. We used a two-step LLM integration approach, (1) using an LLM to generate alternative phrasings of a source utterance, and (2) to prune candidate UMLS concepts, using a variety of prompting methods. We measure results by $F_{\beta}$, where we favor recall over precision, and F1. Results: We evaluated a total of 5,523 concept terms and text contexts from a publicly available dataset of human-annotated biomedical abstracts. Incorporating GPT-3.5-turbo increased overall $F_{\beta}$ and F1 in normalization systems +9.5 and +7.3 (MetaMapLite), +13.9 and +10.9 (QuickUMLS), and +10.5 and +10.3 (BM25), while the open-source Vicuna model achieved +10.8 and +12.2 (MetaMapLite), +14.7 and +15 (QuickUMLS), and +15.6 and +18.7 (BM25). Conclusions: Existing general-purpose LLMs, both propriety and open-source, can be leveraged at scale to greatly improve normalization performance using existing tools, with no fine-tuning.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# ベジナーレベルのプログラミングとAIのコンテストの確率的問題

Probeable Problems for Beginner-level Programming-with-AI Contests ( http://arxiv.org/abs/2405.15123v1 )

ライセンス: Link先を確認
Mrigank Pawagi, Viraj Kumar, (参考訳) 参加を広げるために、競争プログラミングコンテストには、先進的なコンピュータ科学の概念(アルゴリズムやデータ構造など)の知識を必要としない初心者レベルの問題が含まれる。 しかし、ほとんどの参加者はAIコード生成ツールに簡単にアクセスできるため、これらの問題はしばしば解決し易くなる。 本稿では,AIツールの使用を禁止しない初心者向けプログラミングコンテストについて,(1)特定の詳細を意図的に省略する問題仕様を提供するコード記述タスクを提案する。 提案手法を評価するため,複数の機関から2時間のコンピュータサイエンスの学生を対象としたプログラムコンテストを実施し,各学生が各機関のコンピュータ・クラブのアクティブ・メンバーであった。 コンテストは6つの確率的問題で構成され、人気のあるコード生成ツール(GitHub Copilot)が詳細がないために正確なソリューションを生成できなかった。 学生は個人またはグループで働けるようになり、AIツールを自由に使えるようになった。 対象は26グループ(67名の学生)の同意を得た。 これらのグループによって提出されたコードが、欠落した詳細を特定できる範囲を分析し、形式的および非公式なCS教育文脈における学習を支援する方法を特定する。

To broaden participation, competitive programming contests may include beginner-level problems that do not require knowledge of advanced Computer Science concepts (e.g., algorithms and data structures). However, since most participants have easy access to AI code-generation tools, these problems often become trivial to solve. For beginner-friendly programming contests that do not prohibit the use of AI tools, we propose Probeable Problems: code writing tasks that provide (1) a problem specification that deliberately omits certain details, and (2) a mechanism to probe for these details by asking clarifying questions and receiving immediate feedback. To evaluate our proposal, we conducted a 2-hour programming contest for undergraduate Computer Science students from multiple institutions, where each student was an active member of their institution's computing club. The contest comprised of six Probeable Problems for which a popular code-generation tool (GitHub Copilot) was unable to generate accurate solutions due to the absence of details. Students were permitted to work individually or in groups, and were free to use AI tools. We obtained consent from 26 groups (67 students) to use their submissions for research. We analyze the extent to which the code submitted by these groups identifies missing details and identify ways in which Probeable Problems can support learning in formal and informal CS educational contexts.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# 時系列予測のスケーリング法則

Scaling Law for Time Series Forecasting ( http://arxiv.org/abs/2405.15124v1 )

ライセンス: Link先を確認
Jingzhe Shi, Qinwei Ma, Huan Ma, Lei Li, (参考訳) 大規模データセット、複雑なモデル、強化されたデータの粒度に報いるスケーリング法則は、ディープラーニングの様々な分野において観察されている。 しかし、時系列予測の研究は、時系列予測のためのディープラーニング手法のスケーリングの振る舞いに疑問を投げかけている: より多くのトレーニングデータがパフォーマンスを改善する一方で、より有能なモデルは、必ずしもより能力の低いモデルよりも優れており、より長い入力地平線が一部のモデルのパフォーマンスを損なう可能性がある。 本稿では,このような異常な振る舞いを説明できる時系列予測法則のスケーリング理論を提案する。 データセットのサイズとモデルの複雑さ、および時系列データの粒度の影響を考慮する。 さらに, 時系列予測データセットの多種多様な集合を用いて, 時系列予測の領域におけるデータセットサイズとモデル複雑性のスケーリング法則の妥当性を検証し, そして, 特に振り返り水平の影響について, 理論的枠組みを実証的に評価した。 我々の発見は、限られたサイズの時系列予測データセットをターゲットとした新しいモデルや、将来の作業における時系列予測のための大規模な基礎データセットやモデルに刺激を与えてくれることを願っている。 実験のための \footnote{Codes は、次のように公開されます。

Scaling law that rewards large datasets, complex models and enhanced data granularity has been observed in various fields of deep learning. Yet, studies on time series forecasting have cast doubt on scaling behaviors of deep learning methods for time series forecasting: while more training data improves performance, more capable models do not always outperform less capable models, and longer input horizons may hurt performance for some models. We propose a theory for scaling law for time series forecasting that can explain these seemingly abnormal behaviors. We take into account the impact of dataset size and model complexity, as well as time series data granularity, particularly focusing on the look-back horizon, an aspect that has been unexplored in previous theories. Furthermore, we empirically evaluate various models using a diverse set of time series forecasting datasets, which (1) verifies the validity of scaling law on dataset size and model complexity within the realm of time series forecasting, and (2) validates our theoretical framework, particularly regarding the influence of look back horizon. We hope our findings may inspire new models targeting time series forecasting datasets of limited size, as well as large foundational datasets and models for time series forecasting in future works.\footnote{Codes for our experiments will be made public at: \url{https://github.com/JingzheShi/ScalingLawForTimeSeriesForecasting}.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# HDR-GS: ガウススプラッティングによる1000倍高速高ダイナミックレンジ新規ビュー合成

HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting ( http://arxiv.org/abs/2405.15125v1 )

ライセンス: Link先を確認
Yuanhao Cai, Zihao Xiao, Yixun Liang, Yulun Zhang, Xiaokang Yang, Yaoyao Liu, Alan Yuille, (参考訳) 高ダイナミックレンジ(HDR)新規ビュー合成(NVS)は、HDRイメージング技術を用いて、新しい視点からフォトリアリスティック画像を作成することを目的としている。 レンダリングされたHDR画像は、通常の低ダイナミックレンジ(LDR)画像よりも、シーンの詳細を含む幅広い輝度レベルをキャプチャする。 既存のHDR NVS法は主にNeRFに基づいている。 訓練時間は長く、推論速度は遅い。 本稿では,新しいHDRビューを効率よくレンダリングし,ユーザ入力の露光時間でLDR画像を再構成できる新しいフレームワークであるHigh Dynamic Range Gaussian Splatting (HDR-GS)を提案する。 具体的には、球面調和を利用してHDR色に適合し、MLPベースのトーンマッパーを用いてLDR色を描画するDual Dynamic Range(DDR)ガウス点クラウドモデルを設計する。 HDRとLDRの色は、2つのParallel Differentiable Rasterization(PDR)プロセスに入力され、HDRとLDRのビューを再構成する。 HDR NVSにおける3次元ガウススプラッティング法の研究のためのデータ基盤を確立するために,カメラパラメータを再検討し,ガウス点雲の初期位置を計算する。 実験の結果,我々のHDR-GSはLDRおよびHDR NVSの3.84dBと1.91dBを上回り,1000倍の推論速度と6.3%のトレーニング時間しか必要としないことがわかった。

High dynamic range (HDR) novel view synthesis (NVS) aims to create photorealistic images from novel viewpoints using HDR imaging techniques. The rendered HDR images capture a wider range of brightness levels containing more details of the scene than normal low dynamic range (LDR) images. Existing HDR NVS methods are mainly based on NeRF. They suffer from long training time and slow inference speed. In this paper, we propose a new framework, High Dynamic Range Gaussian Splatting (HDR-GS), which can efficiently render novel HDR views and reconstruct LDR images with a user input exposure time. Specifically, we design a Dual Dynamic Range (DDR) Gaussian point cloud model that uses spherical harmonics to fit HDR color and employs an MLP-based tone-mapper to render LDR color. The HDR and LDR colors are then fed into two Parallel Differentiable Rasterization (PDR) processes to reconstruct HDR and LDR views. To establish the data foundation for the research of 3D Gaussian splatting-based methods in HDR NVS, we recalibrate the camera parameters and compute the initial positions for Gaussian point clouds. Experiments demonstrate that our HDR-GS surpasses the state-of-the-art NeRF-based method by 3.84 and 1.91 dB on LDR and HDR NVS while enjoying 1000x inference speed and only requiring 6.3% training time.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# 病理組織像における大腸生検とポリープの分類のための階層画像ピラミッドトランスのベンチマーク

Benchmarking Hierarchical Image Pyramid Transformer for the classification of colon biopsies and polyps in histopathology images ( http://arxiv.org/abs/2405.15127v1 )

ライセンス: Link先を確認
Nohemi Sofia Leon Contreras, Marina D'Amato, Francesco Ciompi, Clement Grisi, Witali Aswolinskiy, Simona Vatrano, Filippo Fraggetta, Iris Nagtegaal, (参考訳) WSIのギガピクセル分解能により,高画質の画素レベルのアノテーションをヒストノロジー全体スライディング画像(WSI)に導入したニューラルネットワークのトレーニングは,高価なプロセスである。 しかし、近年の自己教師型学習の進歩により、アノテーションを必要とせずに、高度に記述的な画像表現を学習できることが示されている。 近年の階層画像ピラミッド変換器(HIPT)の大腸生検・ポリープ分類への応用について検討した。 HIPTモデルのTGA学習機能の有効性を評価した上で,(1)既存のTGA重みからHIPTを微調整し,(2)無作為な体重初期化からHIPTを事前訓練する2つの戦略を用いて,HIPTの事前訓練に大腸生検画像情報を組み込んだ。 大腸生検の2つの分類課題(二分分類と多クラス分類)について,これらの事前訓練体制の性能を比較した。

Training neural networks with high-quality pixel-level annotation in histopathology whole-slide images (WSI) is an expensive process due to gigapixel resolution of WSIs. However, recent advances in self-supervised learning have shown that highly descriptive image representations can be learned without the need for annotations. We investigate the application of the recent Hierarchical Image Pyramid Transformer (HIPT) model for the specific task of classification of colorectal biopsies and polyps. After evaluating the effectiveness of TCGA-learned features in the original HIPT model, we incorporate colon biopsy image information into HIPT's pretraining using two distinct strategies: (1) fine-tuning HIPT from the existing TCGA weights and (2) pretraining HIPT from random weight initialization. We compare the performance of these pretraining regimes on two colorectal biopsy classification tasks: binary and multiclass classification.
翻訳日:2024-05-27 18:38:12 公開日:2024-05-24
# OptLLM: 大規模言語モデルに対するクエリの最適割り当て

OptLLM: Optimal Assignment of Queries to Large Language Models ( http://arxiv.org/abs/2405.15130v1 )

ライセンス: Link先を確認
Yueyue Liu, Hongyu Zhang, Yuantian Miao, Van-Hoang Le, Zhiqiang Li, (参考訳) 大きな言語モデル(LLM)は、その顕著な能力のためにかなりの注目を集めており、LLMをサービスとして提供する企業が増えている。 異なるLCMは異なるコストで異なる性能を達成する。 ユーザにとっての課題は、ニーズに最も適合するLCMを選択し、コストとパフォーマンスのバランスをとることだ。 本稿では,LLMにおける費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。 入力クエリのセットと候補 LLM が与えられた後、OptLLM というフレームワークは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択する最適なソリューションを提供し、精度の最大化やコストの最小化のためのオプションを提供します。 OptLLMは、不確実性推定を伴う多ラベル分類モデルを用いて、各クエリ上での候補LLMの性能を予測し、その後、現在の解をデストラクトし、再構成することで、非支配的な解のセットを反復的に生成する。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。 実験の結果,OptLLMは最高のLCMと同じ精度でコストを2.40%から49.18%削減できることがわかった。 他の多目的最適化アルゴリズムと比較して、OptLLMは精度を2.94%から69.05%に改善し、高い精度を維持しながらコストを8.79%、95.87%削減する。

Large Language Models (LLMs) have garnered considerable attention owing to their remarkable capabilities, leading to an increasing number of companies offering LLMs as services. Different LLMs achieve different performance at different costs. A challenge for users lies in choosing the LLMs that best fit their needs, balancing cost and performance. In this paper, we propose a framework for addressing the cost-effective query allocation problem for LLMs. Given a set of input queries and candidate LLMs, our framework, named OptLLM, provides users with a range of optimal solutions to choose from, aligning with their budget constraints and performance preferences, including options for maximizing accuracy and minimizing cost. OptLLM predicts the performance of candidate LLMs on each query using a multi-label classification model with uncertainty estimation and then iteratively generates a set of non-dominated solutions by destructing and reconstructing the current solution. To evaluate the effectiveness of OptLLM, we conduct extensive experiments on various types of tasks, including text classification, question answering, sentiment analysis, reasoning, and log parsing. Our experimental results demonstrate that OptLLM substantially reduces costs by 2.40% to 49.18% while achieving the same accuracy as the best LLM. Compared to other multi-objective optimization algorithms, OptLLM improves accuracy by 2.94% to 69.05% at the same cost or saves costs by 8.79% and 95.87% while maintaining the highest attainable accuracy.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 雑音の向こう側:最適近傍同定による固有次元推定

Beyond the noise: intrinsic dimension estimation with optimal neighbourhood identification ( http://arxiv.org/abs/2405.15132v1 )

ライセンス: Link先を確認
Antonio Di Noia, Iuri Macocco, Aldo Glielmo, Alessandro Laio, Antonietta Mira, (参考訳) 固有次元(Intrinsic Dimension、ID)は、教師なし学習と特徴選択において重要な概念であり、システムを記述するのに必要な変数の数に対する低い境界である。 しかし、ほとんどの実世界のデータセットでは、IDはデータが分析されるスケールに依存する。 通常、小さなスケールでは、データは測定エラーによって影響を受けるため、IDは非常に大きい。 大規模では、そのデータを含む多様体の曲率と位相のために、IDが誤って大きいこともある。 そこで本研究では,提案するスイーツスポットを選択するための自動プロトコル,すなわち,IDが有意義で有用なスケールの範囲を自動で選択する手法を提案する。 このプロトコルは、正しいスケールよりも小さい距離に対して、データの密度が一定であることを示すものである。 密度を推定するにはIDを知る必要があるため、この条件は自己整合的に課される。 人工および実世界のデータセットのベンチマークにより,この手法の有用性とロバスト性について述べる。

The Intrinsic Dimension (ID) is a key concept in unsupervised learning and feature selection, as it is a lower bound to the number of variables which are necessary to describe a system. However, in almost any real-world dataset the ID depends on the scale at which the data are analysed. Quite typically at a small scale, the ID is very large, as the data are affected by measurement errors. At large scale, the ID can also be erroneously large, due to the curvature and the topology of the manifold containing the data. In this work, we introduce an automatic protocol to select the sweet spot, namely the correct range of scales in which the ID is meaningful and useful. This protocol is based on imposing that for distances smaller than the correct scale the density of the data is constant. Since to estimate the density it is necessary to know the ID, this condition is imposed self-consistently. We illustrate the usefulness and robustness of this procedure by benchmarks on artificial and real-world datasets.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 効果的なバイオメディカルエンティティリンク:低リソース技術による臨床テキスト標準化

Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques ( http://arxiv.org/abs/2405.15134v1 )

ライセンス: Link先を確認
Akshit Achara, Sanand Sasidharan, Gagan N, (参考訳) 臨床テキストは情報に富み、治療、薬学、解剖学など多くの臨床用語で言及されている。 複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。 UMLS(Unified Medical Language System)のようなオントロジーは、定義、関係、その他の対応する情報を含む何百万もの臨床エンティティを格納するために開発・維持されている。 これらのオントロジーは、バイオメディカルエンティティリンクを通じて、臨床用語の様々な表面形態を標準化することにより、臨床テキストの標準化に使用される。 トランスフォーマーベースの言語モデルの導入により、バイオメディカルなエンティティリンクが大幅に進歩した。 本研究は,エンティティに関連付けられた同義語ペアを通して学習することに焦点を当てる。 既存のアプローチと比較して、我々のアプローチはトレーニングデータとリソース消費を大幅に削減します。 さらに,エンティティの曖昧さを解消するためのコンテキストベースおよびコンテキストレスリグレード手法を提案する。 全体としては、ドメインベースのトレーニングなしにUMLS上で最大の注釈付きデータセットであるMedmentionsデータセット上で、最先端のゼロショットと遠隔教師付きエンティティリンク技術に類似したパフォーマンスを実現する。 最後に,検索性能だけでは評価基準として不十分であることを示すとともに,記事の量的・質的な分析を導入して,エンティティリンク手法の性能に関するさらなる知見を明らかにする。

Clinical text is rich in information, with mentions of treatment, medication and anatomy among many other clinical terms. Multiple terms can refer to the same core concepts which can be referred as a clinical entity. Ontologies like the Unified Medical Language System (UMLS) are developed and maintained to store millions of clinical entities including the definitions, relations and other corresponding information. These ontologies are used for standardization of clinical text by normalizing varying surface forms of a clinical term through Biomedical entity linking. With the introduction of transformer-based language models, there has been significant progress in Biomedical entity linking. In this work, we focus on learning through synonym pairs associated with the entities. As compared to the existing approaches, our approach significantly reduces the training data and resource consumption. Moreover, we propose a suite of context-based and context-less reranking techniques for performing the entity disambiguation. Overall, we achieve similar performance to the state-of-the-art zero-shot and distant supervised entity linking techniques on the Medmentions dataset, the largest annotated dataset on UMLS, without any domain-based training. Finally, we show that retrieval performance alone might not be sufficient as an evaluation metric and introduce an article level quantitative and qualitative analysis to reveal further insights on the performance of entity linking methods.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# ライブ更新可視化による隠れた活動の進化を探る

Exploring the Evolution of Hidden Activations with Live-Update Visualization ( http://arxiv.org/abs/2405.15135v1 )

ライセンス: Link先を確認
Xianglin Yang, Jin Song Dong, (参考訳) ニューラルネットワークのトレーニングを監視することは、潜在的なデータ異常を特定し、タイムリーな介入を可能にし、重要な計算資源を保存するために不可欠である。 損失やバリデーションの精度といった一般的に使用される指標とは別に、隠れた表現はモデルの進行についてより深い洞察を与える可能性がある。 この目的のために、トレーニング中に隠された表現の進行を可視化する自動化されたリアルタイム可視化ツールであるSentryCamを紹介した。 本結果から, この可視化は, 各種データセットの損失や精度といった基本的な指標と比較して, 学習のダイナミクスをより包括的に把握できることを示した。 さらに、SentryCamは、タスク転送や破滅的な忘れ込みなどの詳細な分析を連続的な学習環境に導くことができることを示す。 コードはhttps://github.com/xianglinyang/SentryCamで公開されている。

Monitoring the training of neural networks is essential for identifying potential data anomalies, enabling timely interventions and conserving significant computational resources. Apart from the commonly used metrics such as losses and validation accuracies, the hidden representation could give more insight into the model progression. To this end, we introduce SentryCam, an automated, real-time visualization tool that reveals the progression of hidden representations during training. Our results show that this visualization offers a more comprehensive view of the learning dynamics compared to basic metrics such as loss and accuracy over various datasets. Furthermore, we show that SentryCam could facilitate detailed analysis such as task transfer and catastrophic forgetting to a continual learning setting. The code is available at https://github.com/xianglinyang/SentryCam.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# Occlusion-Robust Multi-Object Tracking のための近似動的プログラミングフレームワーク

An Approximate Dynamic Programming Framework for Occlusion-Robust Multi-Object Tracking ( http://arxiv.org/abs/2405.15137v1 )

ライセンス: Link先を確認
Pratyusha Musunuru, Yuchao Li, Jamison Weber, Dimitri Bertsekas, (参考訳) 本研究では,マルチオブジェクト追跡(MOT)に関わるデータ関連問題を考察する。 特に、物体の隠蔽から生じる課題に対処する。 本稿では,基本ヒューリスティックと呼ばれる既存の手法を改善するために動的プログラミングの原理を適用した,近似動的プログラミングトラック(ADPTrack)というフレームワークを提案する。 一連のトラックと次のターゲットフレームが与えられた場合、ベースヒューリスティックはこのターゲットフレームのオブジェクトと直接マッチングすることで、トラックを拡張します。 それとは対照的に、ADPTrackは次に数個のフレームを処理し、次のターゲットフレームからベースヒューリスティックを適用して暫定的なトラックを得る。 対象のフレームのオブジェクトにマッチするために、仮のトラックを利用する。 これにより、閉塞に基づくエラーが減少し、基本ヒューリスティックよりも改善される傾向にある。 提案手法は,MOT17ビデオデータセットでテストした場合,基礎ヒューリスティックとして使用される最先端の手法に比べて,相関精度(IDF1測定値)が0.7%向上したことを示す。 他の標準メトリクスに関しても改善が加えられている。 実験により,ビデオデータが固定位置カメラによって取得される場合,特に改善が顕著であることが判明した。

In this work, we consider data association problems involving multi-object tracking (MOT). In particular, we address the challenges arising from object occlusions. We propose a framework called approximate dynamic programming track (ADPTrack), which applies dynamic programming principles to improve an existing method called the base heuristic. Given a set of tracks and the next target frame, the base heuristic extends the tracks by matching them to the objects of this target frame directly. In contrast, ADPTrack first processes a few subsequent frames and applies the base heuristic starting from the next target frame to obtain tentative tracks. It then leverages the tentative tracks to match the objects of the target frame. This tends to reduce the occlusion-based errors and leads to an improvement over the base heuristic. When tested on the MOT17 video dataset, the proposed method demonstrates a 0.7% improvement in the association accuracy (IDF1 metric) over a state-of-the-art method that is used as the base heuristic. It also obtains improvements with respect to all the other standard metrics. Empirically, we found that the improvements are particularly pronounced in scenarios where the video data is obtained by fixed-position cameras.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 相違によるより良いメンバーシップ推論プライバシ測定

Better Membership Inference Privacy Measurement through Discrepancy ( http://arxiv.org/abs/2405.15140v1 )

ライセンス: Link先を確認
Ruihan Wu, Pengrun Huang, Kamalika Chaudhuri, (参考訳) メンバーシップ推論攻撃は、機械学習モデルからのプライバシー漏洩を経験的に測定する主要な方法として現れている。 ここでは、プライバシは、トレーニングデータとテストデータに基づいて計算されたスコアと関数の間のギャップによって測定される。 これらの攻撃を実践的に展開する上で大きな障壁は、大規模で汎用的なモデルにスケールしないことだ。 本研究は,不一致理論にインスパイアされた,新たな経験的プライバシ指標を提案する。 我々は,この指標が複数のモデルのトレーニングを伴わず,大規模なイメージネット分類モデルに適用可能であることを示し,より最新で洗練されたトレーニングレシピでトレーニングされたモデルの既存の指標よりも有利であることを示した。 経験的結果に感銘を受けて,これらのトレーニング損失に合わせた新たなメンバーシップ推論攻撃を提案する。

Membership Inference Attacks have emerged as a dominant method for empirically measuring privacy leakage from machine learning models. Here, privacy is measured by the {\em{advantage}} or gap between a score or a function computed on the training and the test data. A major barrier to the practical deployment of these attacks is that they do not scale to large well-generalized models -- either the advantage is relatively low, or the attack involves training multiple models which is highly compute-intensive. In this work, inspired by discrepancy theory, we propose a new empirical privacy metric that is an upper bound on the advantage of a family of membership inference attacks. We show that this metric does not involve training multiple models, can be applied to large Imagenet classification models in-the-wild, and has higher advantage than existing metrics on models trained with more recent and sophisticated training recipes. Motivated by our empirical results, we also propose new membership inference attacks tailored to these training losses.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# Intelligent Go-Explore: 巨大ファンデーションモデルにふさわしい立場

Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models ( http://arxiv.org/abs/2405.15143v1 )

ライセンス: Link先を確認
Cong Lu, Shengran Hu, Jeff Clune, (参考訳) Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーであり、発見された状態のアーカイブの原則に基づいて構築され、最も有望な状態から反復的に戻り、探索する。 このアプローチは、アタリゲームやロボット制御など、さまざまな課題において超人的なパフォーマンスをもたらしてきたが、探索をガイドするためには、手動でヒューリスティックを設計する必要がある。 そこで本研究では,これらのヒューリスティックスを,巨大基盤モデル(FM)が捉えた情報と内部的人間の概念に置き換えることで,本来のGo-Exploreの範囲を大きく広げる知能 Go-Explore(IGE)を提案する。 これによりIEGは、ヒューリスティックが定義が難しい複雑な環境であっても、新しい状態がいかに面白く、あるいは有望であるか(例えば、新しい物体、場所、行動を発見する)を本能的に識別する人間的な能力を提供する。 さらに、IGEは、事前に予測できないセレンディピティーな発見を認識し、収益化するための、エキサイティングで以前は不可能な機会を提供する。 IGEを検索と探索を必要とする言語ベースのタスクで評価する。 マルチステップの数学的推論問題であるGame of 24では、IEGは最高のグラフ検索ベースラインよりも100%成功率70.8%速く到達した。 次に、挑戦的な部分的に観測可能なグリッドワールドであるBabyAI-Textでは、IGEが以前のSOTAをはるかに少ないオンラインサンプルで上回っている。 最後に、TextWorldでは、従来のSOTA FMエージェントであるReflexionが完全に失敗する長期探査を必要とする設定でIGEが成功するユニークな能力を示す。 全体として、IGEはFMの強みと強力なGo-Exploreアルゴリズムを組み合わせることで、優れた探査能力を持つより一般的なエージェントを作るための新たな研究のフロンティアを開く。

Go-Explore is a powerful family of algorithms designed to solve hard-exploration problems, built on the principle of archiving discovered states, and iteratively returning to and exploring from the most promising states. This approach has led to superhuman performance across a wide variety of challenging problems including Atari games and robotic control, but requires manually designing heuristics to guide exploration, which is time-consuming and infeasible in general. To resolve this, we propose Intelligent Go-Explore (IGE) which greatly extends the scope of the original Go-Explore by replacing these heuristics with the intelligence and internalized human notions of interestingness captured by giant foundation models (FMs). This provides IGE with a human-like ability to instinctively identify how interesting or promising any new state is (e.g. discovering new objects, locations, or behaviors), even in complex environments where heuristics are hard to define. Moreover, IGE offers the exciting and previously impossible opportunity to recognize and capitalize on serendipitous discoveries that cannot be predicted ahead of time. We evaluate IGE on a range of language-based tasks that require search and exploration. In Game of 24, a multistep mathematical reasoning problem, IGE reaches 100% success rate 70.8% faster than the best classic graph search baseline. Next, in BabyAI-Text, a challenging partially observable gridworld, IGE exceeds the previous SOTA with orders of magnitude fewer online samples. Finally, in TextWorld, we show the unique ability of IGE to succeed in settings requiring long-horizon exploration where prior SOTA FM agents like Reflexion completely fail. Overall, IGE combines the tremendous strengths of FMs and the powerful Go-Explore algorithm, opening up a new frontier of research into creating more generally capable agents with impressive exploration capabilities.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 超高感度固体有機分子マイクロ波量子受信機

Ultra-sensitive solid-state organic molecular microwave quantum receiver ( http://arxiv.org/abs/2405.15144v1 )

ライセンス: Link先を確認
Bo Zhang, Yuchen Han, Hong-Liang Wu, Hao Wu, Shuo Yang, Mark Oxborrow, Qing Zhao, Yue Fu, Weibin Li, Yeliang Wang, Dezhi Zheng, Jun Zhang, (参考訳) 高精度マイクロ波センシングは、宇宙論からマイクロ波量子技術まで、様々な分野で広く要求されている。 無機固体スピン系に基づく量子受信機は、安定性と互換性のため、そのような目的に期待できるが、その最良の感度はいくつかのpT/$\sqrt{\rm{Hz}}$に制限されている。 ここでは、最先端の固体メーザー技術を用いて、高機能な読み出し方式を利用することにより、環境条件下で有機分子スピンによって機能する堅牢なマイクロ波量子受信機を開発する。 メーザー増幅により、受信機の感度は6.14$\pm$ 0.17 fT/$\sqrt{\rm{Hz}}$となり、これは無機固体量子受信機よりも3桁を超える。 追加のローカル発振器のないヘテロダイン検出は受信機の帯域幅を改善し、周波数検出を可能にする。 このスキームは複雑な制御パルスを使わずに他の固体スピン系に拡張することができ、電子スピン共鳴分光法、暗黒物質探索法、天文学的な観測などの実用的な応用が可能になる。

High-accuracy microwave sensing is widely demanded in various fields, ranging from cosmology to microwave quantum technology. Quantum receivers based on inorganic solid-state spin systems are promising candidates for such purpose because of the stability and compatibility, but their best sensitivity is currently limited to a few pT/$\sqrt{\rm{Hz}}$. Here, by utilising an enhanced readout scheme with the state-of-the-art solid-state maser technology, we develop a robust microwave quantum receiver functioned by organic molecular spins at ambient conditions. Owing to the maser amplification, the sensitivity of the receiver achieves 6.14 $\pm$ 0.17 fT/$\sqrt{\rm{Hz}}$ which exceeds three orders of magnitude than that of the inorganic solid-state quantum receivers. The heterodyne detection without additional local oscillators improves bandwidth of the receiver and allows frequency detection. The scheme can be extended to other solid-state spin systems without complicated control pulses and thus enables practical applications such as electron spin resonance spectroscopy, dark matter searches, and astronomical observations.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# CulturePark: 大規模言語モデルにおける異文化理解の促進

CulturePark: Boosting Cross-cultural Understanding in Large Language Models ( http://arxiv.org/abs/2405.15145v1 )

ライセンス: Link先を確認
Cheng Li, Damien Teney, Linyi Yang, Qingsong Wen, Xing Xie, Jindong Wang, (参考訳) 文化バイアスは多くの大きな言語モデル (LLMs) で広まっており、主に異なる文化を表すデータの欠如によるものである。 通常、文化データセットとベンチマークは、既存のデータセットのサブセットを抽出するか、Wikipediaやソーシャルメディアなどのプラットフォームから集約することによって構築される。 しかし、これらのアプローチは現実世界のデータや人間のアノテーションに大きく依存しているため、コストがかかり、スケールが難しい。 本稿では,社会コミュニケーションに関する認知理論に触発されて,文化データ収集のためのLLMを用いたマルチエージェントコミュニケーションフレームワークであるCultureParkを紹介する。 CultureParkは、異なる文化で役割を演じるLDMベースのエージェントと文化間のコミュニケーションをシミュレートする。 人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。 CultureParkを使って41,000の文化サンプルを生成し、8つの文化固有のLSMを微調整した。 我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価した。 その結果、コンテンツモデレーションでは、GPT-3.5ベースのモデルがデータセット上でのGPT-4にマッチするか、より優れています。 文化的アライメントに関しては、われわれのモデルはHofstedeのVSM 13フレームワークでGPT-4を上回っている。 さらに,人間の文化教育において,GPT-4と比較して学習効果とユーザエクスペリエンスの両面で優れた結果が得られた。 CultureParkは、文化的な偏見に対処し、AIの民主化を進めるための重要なステップを証明し、モデルトレーニングにおける文化的包括的データの重要性を強調している。

Cultural bias is pervasive in many large language models (LLMs), largely due to the deficiency of data representative of different cultures. Typically, cultural datasets and benchmarks are constructed either by extracting subsets of existing datasets or by aggregating from platforms such as Wikipedia and social media. However, these approaches are highly dependent on real-world data and human annotations, making them costly and difficult to scale. Inspired by cognitive theories on social communication, this paper introduces CulturePark, an LLM-powered multi-agent communication framework for cultural data collection. CulturePark simulates cross-cultural human communication with LLM-based agents playing roles in different cultures. It generates high-quality cross-cultural dialogues encapsulating human beliefs, norms, and customs. Using CulturePark, we generated 41,000 cultural samples to fine-tune eight culture-specific LLMs. We evaluated these models across three downstream tasks: content moderation, cultural alignment, and cultural education. Results show that for content moderation, our GPT-3.5-based models either match or outperform GPT-4 on datasets. Regarding cultural alignment, our models surpass GPT-4 on Hofstede's VSM 13 framework. Furthermore, for cultural education of human participants, our models demonstrate superior outcomes in both learning efficacy and user experience compared to GPT-4. CulturePark proves an important step in addressing cultural bias and advancing the democratization of AI, highlighting the critical role of culturally inclusive data in model training.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# シリコン一重項スピン量子ビットにおける動的補正ゲート

Dynamically corrected gates in silicon singlet-triplet spin qubits ( http://arxiv.org/abs/2405.15148v1 )

ライセンス: Link先を確認
Habitamu Y. Walelign, Xinxin Cai, Bikun Li, Edwin Barnes, John M. Nichol, (参考訳) フォールトトレラント量子計算では物理量子ビットゲート誤差が低い。 ハードウェアおよび制御最適化戦略を含むゲートエラーを低減するための多くのアプローチが存在する。 動的に修正されたゲートは、特定のエラーをキャンセルし、高忠実度ゲートの可能性を提供するように設計されているが、これらの系における厳密な制御制約のために、半導体量子ドットにおけるシングルトリップスピン量子ビットではまだ実装されていない。 本研究では、Si/SiGe二重量子ドットで実現したシングルトリップ量子ビットにおける超微細ノイズを軽減するために設計された動的修正ゲートを実験的に実装する。 修正されたゲートは不忠実度を約3倍に減らし、その結果、アイデンティティとアダマールゲートの両方で0.99以上となる。 ゲート性能はパルス歪みに敏感に依存し,その特性は実験装置の予期せぬ歪みを示す。

Fault-tolerant quantum computation requires low physical-qubit gate errors. Many approaches exist to reduce gate errors, including both hardware- and control-optimization strategies. Dynamically corrected gates are designed to cancel specific errors and offer the potential for high-fidelity gates, but they have yet to be implemented in singlet-triplet spin qubits in semiconductor quantum dots, due in part to the stringent control constraints in these systems. In this work, we experimentally implement dynamically corrected gates designed to mitigate hyperfine noise in a singlet-triplet qubit realized in a Si/SiGe double quantum dot. The corrected gates reduce infidelities by about a factor of three, resulting in gate fidelities above 0.99 for both identity and Hadamard gates. The gate performances depend sensitively on pulse distortions, and their specific performance reveals an unexpected distortion in our experimental setup.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# ベクトル近似によるラベル微分プライバシーによる学習の促進

Enhancing Learning with Label Differential Privacy by Vector Approximation ( http://arxiv.org/abs/2405.15150v1 )

ライセンス: Link先を確認
Puning Zhao, Rongfei Fan, Huiwen Wu, Qingming Li, Jiafei Wu, Zhe Liu, (参考訳) ラベル微分プライバシ(DP)は、データセットのトレーニングにおいてラベルのプライバシを保護するフレームワークである。 既存のアプローチは、ラベルをランダムに反転させることで、ラベルのプライバシを保護する。 しかし、クラス数K$が増加するにつれて、より強いランダム化が必要となり、これらの手法の性能は著しく悪化する。 本稿では,実装が容易で,計算オーバーヘッドの増大が少ないベクトル近似手法を提案する。 提案手法では,各ラベルを1つのスカラーに変換する代わりに,各ラベルを,クラス条件の確率を反映した$K$成分のランダムベクトルに変換する。 直感的には、ベクトル近似はスカラーラベルよりも多くの情報を保持する。 簡単な理論的解析により、我々の手法の性能はわずかに$K$で低下する。 最後に, 合成データと実データの両方を用いて実験を行い, 理論的解析と本手法の実用性について検証した。

Label differential privacy (DP) is a framework that protects the privacy of labels in training datasets, while the feature vectors are public. Existing approaches protect the privacy of labels by flipping them randomly, and then train a model to make the output approximate the privatized label. However, as the number of classes $K$ increases, stronger randomization is needed, thus the performances of these methods become significantly worse. In this paper, we propose a vector approximation approach, which is easy to implement and introduces little additional computational overhead. Instead of flipping each label into a single scalar, our method converts each label into a random vector with $K$ components, whose expectations reflect class conditional probabilities. Intuitively, vector approximation retains more information than scalar labels. A brief theoretical analysis shows that the performance of our method only decays slightly with $K$. Finally, we conduct experiments on both synthesized and real datasets, which validate our theoretical analysis as well as the practical performance of our method.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# NeB-SLAM:未知シーンのためのニューラルブロックをベースとしたSalable RGB-D SLAM

NeB-SLAM: Neural Blocks-based Salable RGB-D SLAM for Unknown Scenes ( http://arxiv.org/abs/2405.15151v1 )

ライセンス: Link先を確認
Lizhi Bai, Chunqi Tian, Jun Yang, Siyu Zhang, Weijian Liang, (参考訳) ニューラルな暗黙の表現は、視覚的同時局在とマッピング(SLAM)の分野で大きな可能性を最近示している。 これは、ストレージオーバーヘッドの低さや表現の連続性など、その固有のアドバンテージのためである。 しかし、これらの手法はシーンの大きさを入力として必要としており、未知のシーンでは現実的ではない。 そこで我々は,ニューラルネットワークを用いたスケーラブルなRGB-D SLAMであるNeB-SLAMを提案する。 具体的には,まず,未知のシーン全体をサブマップの集合として表現する分割・コンカレントマッピング戦略を提案する。 これらのサブマップは、固定サイズのニューラルネットワークブロックの集合である。 そこで我々は,カメラトラッキング中のニューラルブロックのアダプティブアロケーションを実現するための適応地図成長戦略を導入し,未知のシーン全体を徐々にカバーする。 最後に、様々なデータセットに対する広範囲な評価により、未知の環境をターゲットとする際のマッピングと追跡の両方において、我々の手法が競合することを示した。

Neural implicit representations have recently demonstrated considerable potential in the field of visual simultaneous localization and mapping (SLAM). This is due to their inherent advantages, including low storage overhead and representation continuity. However, these methods necessitate the size of the scene as input, which is impractical for unknown scenes. Consequently, we propose NeB-SLAM, a neural block-based scalable RGB-D SLAM for unknown scenes. Specifically, we first propose a divide-and-conquer mapping strategy that represents the entire unknown scene as a set of sub-maps. These sub-maps are a set of neural blocks of fixed size. Then, we introduce an adaptive map growth strategy to achieve adaptive allocation of neural blocks during camera tracking and gradually cover the whole unknown scene. Finally, extensive evaluations on various datasets demonstrate that our method is competitive in both mapping and tracking when targeting unknown environments.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 大規模言語モデルにおける機械学習

Machine Unlearning in Large Language Models ( http://arxiv.org/abs/2405.15152v1 )

ライセンス: Link先を確認
Saaketh Koundinya Gundavarapu, Shreya Agarwal, Arushi Arora, Chandana Thimmalapura Jagadeeshaiah, (参考訳) 人工知能の新たな領域である機械学習は、機械学習モデル、特に大規模言語モデル(LLM)のコンテキストにおいて、好ましくない知識や振る舞いを選択的に忘れたり減らしたりするという課題に対処することに焦点を当てている。 本稿では,オープン事前学習型トランスフォーマー言語モデルや倫理的,プライバシ,安全基準などのLCMを,知識未学習のための勾配上昇アルゴリズムを活用することによって整合させる手法を提案する。 本研究の目的は,LLMにおける学習情報を選択的に消去・修正することであり,有害な応答や著作権のあるコンテンツを対象としている。 本稿では、有害な応答や著作権のあるコンテンツの問題に対処することで、大規模言語モデル(LLM)の倫理的かつ安全な行動を強化するための二重提案手法を提案する。 有害な応答を緩和するために、PKUデータセットに勾配上昇を適用し、Open Pre-trained Transformer Language Model (OPT1.3b, OPT2.7b) \citet{zhang2022opt} に対して75 %の有害応答を達成し、TruthfulQAデータセット \citet{DBLP:journals/corr/abs-2109-07958} を用いて以前の知識を維持した。 著作権のあるコンテンツを扱うために、我々はRings corpusをベースとしたカスタムデータセットを構築し、LLMs (OPT1.3b and OPT2.7b) \citet{zhang2022opt} を LoRA: Low-Rank Adaptation of Large Language Models \citet{DBLP:journals/corr/abs-2106-09685} の微調整を行った。 その後、我々は『指輪の領主』の内容を解き放つために勾配を採り上げ、著作権のある資料の存在を著しく減らした。 多様な知識ベースを維持するために、私たちはBook Corpusデータセットを使用しました。 さらに,有害な未学習の有効性を評価するための新しい評価手法を提案する。

Machine unlearning, a novel area within artificial intelligence, focuses on addressing the challenge of selectively forgetting or reducing undesirable knowledge or behaviors in machine learning models, particularly in the context of large language models (LLMs). This paper introduces a methodology to align LLMs, such as Open Pre-trained Transformer Language Models, with ethical, privacy, and safety standards by leveraging the gradient ascent algorithm for knowledge unlearning. Our approach aims to selectively erase or modify learned information in LLMs, targeting harmful responses and copyrighted content. This paper presents a dual-pronged approach to enhance the ethical and safe behavior of large language models (LLMs) by addressing the issues of harmful responses and copyrighted content. To mitigate harmful responses, we applied gradient ascent on the PKU dataset, achieving a 75\% reduction in harmful responses for Open Pre-trained Transformer Language Models (OPT1.3b and OPT2.7b) \citet{zhang2022opt} while retaining previous knowledge using the TruthfulQA dataset \citet{DBLP:journals/corr/abs-2109-07958}. For handling copyrighted content, we constructed a custom dataset based on the Lord of the Rings corpus and aligned LLMs (OPT1.3b and OPT2.7b) \citet{zhang2022opt} through LoRA: Low-Rank Adaptation of Large Language Models \citet{DBLP:journals/corr/abs-2106-09685} finetuning. Subsequently, we employed gradient ascent to unlearn the Lord of the Rings content, resulting in a remarkable reduction in the presence of copyrighted material. To maintain a diverse knowledge base, we utilized the Book Corpus dataset. Additionally, we propose a new evaluation technique for assessing the effectiveness of harmful unlearning.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# Combinatorial Multi-Armed Bandit and Hierarchical Stackelberg Game によるオンラインプロンプト価格設定

Online Prompt Pricing based on Combinatorial Multi-Armed Bandit and Hierarchical Stackelberg Game ( http://arxiv.org/abs/2405.15154v1 )

ライセンス: Link先を確認
Meiling Li, Hongrun Ren, Haixu Xiong, Zhenxing Qian, Xinpeng Zhang, (参考訳) 生成モデルは様々なタスクにおいて有望なパフォーマンスを示し、機械学習モデルに関するトレーディングを可能にする。 本稿では,新しいプロンプト取引シナリオ,プロンプトバンドル取引(PBT)システム,オンライン価格設定機構を提案する。 本稿では,CMAB(Multiar Multi-armed bandit)と3段階階層型Stackelburg(HS)ゲームに基づいて,消費者,プラットフォーム,販売者の利益を考慮し,これら3つの参加者の利益満足度を同時に達成する。 価格問題を、未知のカテゴリ選択とインセンティブ戦略最適化の2つのステップに分類する。 前者のステップは、最高の品質のカテゴリを選択することであり、後者は、選択されたカテゴリに基づいて、各参加者の最適な戦略を導出することである。 既存の固定価格モードとは異なり、我々が提案するPBTの価格メカニズムはより柔軟で多様なものであり、現実のシナリオのトランザクション要求に応じている。 シミュレーションされたテキストと画像のデータセット上で本手法をテストする。 実験により,提案アルゴリズムの有効性が実証された。

Generation models have shown promising performance in various tasks, making trading around machine learning models possible. In this paper, we aim at a novel prompt trading scenario, prompt bundle trading (PBT) system, and propose an online pricing mechanism. Based on the combinatorial multi-armed bandit (CMAB) and three-stage hierarchical Stackelburg (HS) game, our pricing mechanism considers the profits of the consumer, platform, and seller, simultaneously achieving the profit satisfaction of these three participants. We break down the pricing issue into two steps, namely unknown category selection and incentive strategy optimization. The former step is to select a set of categories with the highest qualities, and the latter is to derive the optimal strategy for each participant based on the chosen categories. Unlike the existing fixed pricing mode, the PBT pricing mechanism we propose is more flexible and diverse, which is more in accord with the transaction needs of real-world scenarios. We test our method on a simulated text-to-image dataset. The experimental results demonstrate the effectiveness of our algorithm, which provides a feasible price-setting standard for the prompt marketplaces.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# CLIPモデルは、効率的なオンライン生涯学習者である

CLIP model is an Efficient Online Lifelong Learner ( http://arxiv.org/abs/2405.15155v1 )

ライセンス: Link先を確認
Leyuan Wang, Liuyu Xiang, Yujie Wei, Yunlong Wang, Zhaofeng He, (参考訳) Online Lifelong Learning (OLL)は、継続的および非定常的なデータストリームから学ぶことの課題に対処する。 既存の画像分類モデルに基づくオンライン生涯学習手法では、クラス総数や最大メモリ容量といった事前設定条件が要求されることが多く、現実の終わらない学習の実現を妨げ、現実のシナリオでは現実的ではない。 本研究では,Contrastive Language-Image Pretraining (CLIP) などの視覚言語モデルが,オンライン生涯学習に適した候補であることを示す。 オンライン生涯学習において,CLIPモデルのパラメータ効率調整(PET)において,画像とテキストの対称性の維持が不可欠であることが判明した。 そこで我々は,Symmetric Image-Text(SIT)チューニング戦略を導入する。 複数の生涯学習ベンチマークデータセットについて広範な実験を行い、勾配解析によりSITの有効性を解明する。 さらに、生涯学習がCLIPの一般化可能性に与える影響を評価し、画像エンコーダのチューニングが生涯学習に有用であるとともに、テキストエンコーダのチューニングがゼロショット学習に有効であることを示した。

Online Lifelong Learning (OLL) addresses the challenge of learning from continuous and non-stationary data streams. Existing online lifelong learning methods based on image classification models often require preset conditions such as the total number of classes or maximum memory capacity, which hinders the realization of real never-ending learning and renders them impractical for real-world scenarios. In this work, we propose that vision-language models, such as Contrastive Language-Image Pretraining (CLIP), are more suitable candidates for online lifelong learning. We discover that maintaining symmetry between image and text is crucial during Parameter-Efficient Tuning (PET) for CLIP model in online lifelong learning. To this end, we introduce the Symmetric Image-Text (SIT) tuning strategy. We conduct extensive experiments on multiple lifelong learning benchmark datasets and elucidate the effectiveness of SIT through gradient analysis. Additionally, we assess the impact of lifelong learning on generalizability of CLIP and found that tuning the image encoder is beneficial for lifelong learning, while tuning the text encoder aids in zero-shot learning.
翻訳日:2024-05-27 18:28:28 公開日:2024-05-24
# 動的不均衡学習の観点からの授業増進学習の再考

Rethinking Class-Incremental Learning from a Dynamic Imbalanced Learning Perspective ( http://arxiv.org/abs/2405.15157v1 )

ライセンス: Link先を確認
Leyuan Wang, Liuyu Xiang, Yunlong Wang, Huijia Wu, Zhaofeng He, (参考訳) ディープニューラルネットワークは、新しい概念を継続的に学習するとき、破滅的な忘れ込みに悩まされる。 本稿では,この問題をデータ不均衡の観点から分析する。 我々は、古いタスクと新しいタスクデータの不均衡が、古いタスクを忘れるのに寄与すると主張している。 さらに、漸進学習における不均衡比の増大により、さらに問題を増大させる。 動的不均衡問題に対処するため,一様・コンパクトな特徴を学習するUniform Prototype Contrastive Learning (UPCL)を提案する。 具体的には、各タスクの開始前に、学習不能な一貫したプロトタイプのセットを生成する。 次に,これらの一様プロトタイプを各クラスに割り当て,プロトタイプのコントラスト学習を通じて特徴学習を指導する。 また、古いクラスと新しいクラスの相対的マージンを動的に調整し、特徴分布をバランスよくコンパクトに保ちます。 最後に,提案手法がCIFAR100, ImageNet100, TinyImageNetなどのベンチマークデータセットに対して, 最先端の性能を実現することを実証した。

Deep neural networks suffer from catastrophic forgetting when continually learning new concepts. In this paper, we analyze this problem from a data imbalance point of view. We argue that the imbalance between old task and new task data contributes to forgetting of the old tasks. Moreover, the increasing imbalance ratio during incremental learning further aggravates the problem. To address the dynamic imbalance issue, we propose Uniform Prototype Contrastive Learning (UPCL), where uniform and compact features are learned. Specifically, we generate a set of non-learnable uniform prototypes before each task starts. Then we assign these uniform prototypes to each class and guide the feature learning through prototype contrastive learning. We also dynamically adjust the relative margin between old and new classes so that the feature distribution will be maintained balanced and compact. Finally, we demonstrate through extensive experiments that the proposed method achieves state-of-the-art performance on several benchmark datasets including CIFAR100, ImageNet100 and TinyImageNet.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# ProtFAD:タンパク質機能知覚に対する暗黙のモダリティとしての機能認識ドメインの導入

ProtFAD: Introducing function-aware domains as implicit modality towards protein function perception ( http://arxiv.org/abs/2405.15158v1 )

ライセンス: Link先を確認
Mingqing Wang, Zhiwei Nie, Yonghong He, Zhixiang Ren, (参考訳) 現在、タンパク質機能の予測は、その配列または構造を符号化することで達成されている。 タンパク質ドメインは機能的に独立なタンパク質の「構築ブロック」であり、それらの組み合わせは多様な生物学的機能を決定する。 しかし、既存のほとんどの研究は、タンパク質ドメインに含まれる複雑な機能情報を徹底的に研究していない。 このギャップを埋めるために、関数認識ドメイン表現のための相乗的統合アプローチと、異なるタンパク質関数を修飾しながら区別するドメイン結合型コントラスト学習戦略を提案する。 具体的には、プリトレインドメイン埋め込みに先立って、ドメインをGO項を関数として関連付ける。 さらに, 新規な三重項InfoNCE損失の監督下で, コントラストトレーニングを行うために, 連続的な結合ドメインに基づいてタンパク質を複数のサブビューに分割する。 提案手法は, 種々のベンチマークにおいて, 最先端の手法を著しく, 網羅的に上回り, 競合と異なる機能を持つタンパク質を明らかに区別する。

Protein function prediction is currently achieved by encoding its sequence or structure, where the sequence-to-function transcendence and high-quality structural data scarcity lead to obvious performance bottlenecks. Protein domains are "building blocks" of proteins that are functionally independent, and their combinations determine the diverse biological functions. However, most existing studies have yet to thoroughly explore the intricate functional information contained in the protein domains. To fill this gap, we propose a synergistic integration approach for a function-aware domain representation, and a domain-joint contrastive learning strategy to distinguish different protein functions while aligning the modalities. Specifically, we associate domains with the GO terms as function priors to pre-train domain embeddings. Furthermore, we partition proteins into multiple sub-views based on continuous joint domains for contrastive training under the supervision of a novel triplet InfoNCE loss. Our approach significantly and comprehensively outperforms the state-of-the-art methods on various benchmarks, and clearly differentiates proteins carrying distinct functions compared to the competitor.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# ARVideo: 自己監督型ビデオ表現学習のための自己回帰型事前学習

ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2405.15160v1 )

ライセンス: Link先を確認
Sucheng Ren, Hongru Zhu, Chen Wei, Yijiang Li, Alan Yuille, Cihang Xie, (参考訳) 本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。 主なデザインは2つある。 まず,自己回帰的ビデオトークンを空間的および時間的の両方にまたがるクラスタに整理することにより,標準的な空間的,時間的のみのクラスタと比較して,コンテキスト情報のリッチな集約を可能にする。 第2に、多次元データからの学習を容易にするために、ランダム化された時空間予測順序を採用し、手作りの空間優先順序または時間優先順序の制限に対処する。 大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。 例えば、VT-Bのバックボーンでトレーニングすると、ARVideoはKinetics-400で81.2%、Something V2で70.9%の競争力を持つ。 重要な点として、ARVideoはトレーニング効率の向上も示している。つまり、トレーニングを14%高速化し、ビデオMAEに比べて58%のGPUメモリを必要とする。

This paper presents a new self-supervised video representation learning framework, ARVideo, which autoregressively predicts the next video token in a tailored sequence order. Two key designs are included. First, we organize autoregressive video tokens into clusters that span both spatially and temporally, thereby enabling a richer aggregation of contextual information compared to the standard spatial-only or temporal-only clusters. Second, we adopt a randomized spatiotemporal prediction order to facilitate learning from multi-dimensional data, addressing the limitations of a handcrafted spatial-first or temporal-first sequence order. Extensive experiments establish ARVideo as an effective paradigm for self-supervised video representation learning. For example, when trained with the ViT-B backbone, ARVideo competitively attains 81.2% on Kinetics-400 and 70.9% on Something-Something V2, which are on par with the strong benchmark set by VideoMAE. Importantly, ARVideo also demonstrates higher training efficiency, i.e., it trains 14% faster and requires 58% less GPU memory compared to VideoMAE.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 私のプロンプトをコピーしているか?ウォーターマークによるVPaaSのビジョンプロンプトの著作権保護

Are You Copying My Prompt? Protecting the Copyright of Vision Prompt for VPaaS via Watermark ( http://arxiv.org/abs/2405.15161v1 )

ライセンス: Link先を確認
Huali Ren, Anli Yan, Chong-zhi Gao, Hongyang Yan, Zhenxin Zhang, Jin Li, (参考訳) Visual Prompt Learning (VPL) は、事前訓練されたモデルパラメータの更新を避けることで、リソース消費を大幅に削減する従来の微調整方法とは異なる。 代わりに、予測を行うために下流のタスクデータに追加される視覚的なプロンプトである入力摂動の学習に焦点を当てている。 一般化可能なプロンプトを学習するためには、専門的な設計と作成が必要であり、最適化プロセスに技術的に要求され、時間を要するため、Visual Prompts as a Service(VPaaS)の開発者が現れた。 これらの開発者は、認可された顧客に巧妙なプロンプトを提供することで利益を得る。 しかし大きな欠点は、プロンプトのコピーと再配布が簡単であり、VPaaS開発者の知的財産権を脅かすことだ。 したがって、VPaaS開発者の権利を保護する技術が緊急に必要である。 この目的のために、ブラックボックス方式で視覚的プロンプト透かしを利用する「textbf{WVPrompt}」という手法を提案する。 WVPromptは、迅速な透かしと迅速な検証という2つの部分から構成される。 具体的には、毒のみのバックドア攻撃法を使用して、透かしをプロンプトに埋め込む。 RN50、BIT-M、Instagramの3つの人気のあるトレーニング済みモデルを使用して、よく知られた3つのベンチマークデータセットで大規模な実験が行われた。 実験結果から, WVPromptは効率が高く, 無害で, 様々な操作に対して堅牢であることが示された。

Visual Prompt Learning (VPL) differs from traditional fine-tuning methods in reducing significant resource consumption by avoiding updating pre-trained model parameters. Instead, it focuses on learning an input perturbation, a visual prompt, added to downstream task data for making predictions. Since learning generalizable prompts requires expert design and creation, which is technically demanding and time-consuming in the optimization process, developers of Visual Prompts as a Service (VPaaS) have emerged. These developers profit by providing well-crafted prompts to authorized customers. However, a significant drawback is that prompts can be easily copied and redistributed, threatening the intellectual property of VPaaS developers. Hence, there is an urgent need for technology to protect the rights of VPaaS developers. To this end, we present a method named \textbf{WVPrompt} that employs visual prompt watermarking in a black-box way. WVPrompt consists of two parts: prompt watermarking and prompt verification. Specifically, it utilizes a poison-only backdoor attack method to embed a watermark into the prompt and then employs a hypothesis-testing approach for remote verification of prompt ownership. Extensive experiments have been conducted on three well-known benchmark datasets using three popular pre-trained models: RN50, BIT-M, and Instagram. The experimental results demonstrate that WVPrompt is efficient, harmless, and robust to various adversarial operations.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 量子分散制御による潜在的量子安全なマイクログリッド

Provably Quantum-Secure Microgrids through Enhanced Quantum Distributed Control ( http://arxiv.org/abs/2405.15163v1 )

ライセンス: Link先を確認
Pouya Babahajiani, Peng Zhang, Ji Liu, Tzu-Chieh Wei, (参考訳) マルチインバータマイクログリッドの分散制御は、非同一分散エネルギー資源(DER)間の電力共有を保ちながら、周波数と電圧制御を保証するフレキシブルプラグアンドプレイアーキテクチャの目標を達成できることから、大きな注目を集めている。 しかし、サイバーセキュリティが分散制御スキームにおける深刻な懸念として浮上していることが判明した。 量子通信開発とそのセキュリティ上の利点に触発されて,DER間の同期と電力共有を保証できるスケーラブルな量子分散コントローラを考案した。 鍵となるイノベーションは、新しい量子分散方式によって、参加するDER間の量子チャネルを介して秘密情報を直接交換することができ、マイクログリッドが本質的にサイバーセキュリティを実現するという事実にある。 2つのacおよびdcマイクログリッドのケーススタディは、新しい量子分散制御戦略の有効性を検証する。

Distributed control of multi-inverter microgrids has attracted considerable attention as it can achieve the combined goals of flexible plug-and-play architecture guaranteeing frequency and voltage regulation while preserving power sharing among nonidentical distributed energy resources (DERs). However, it turns out that cybersecurity has emerged as a serious concern in distributed control schemes. Inspired by quantum communication developments and their security advantages, this paper devises a scalable quantum distributed controller that can guarantee synchronization, and power sharing among DERs. The key innovation lies in the fact that the new quantum distributed scheme allows for exchanging secret information directly through quantum channels among the participating DERs, making microgrids inherently cybersecure. Case studies on two ac and dc microgrids verify the efficacy of the new quantum distributed control strategy.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# FregeからチャットGPTへ:言語、認知、ディープニューラルネットワークにおける構成性

From Frege to chatGPT: Compositionality in language, cognition, and deep neural networks ( http://arxiv.org/abs/2405.15164v1 )

ライセンス: Link先を確認
Jacob Russin, Sam Whitman McGrath, Danielle J. Williams, Lotem Elber-Dorozko, (参考訳) 任意の概念は、新しい複雑な組み合わせに構成することができ、有限の学習経験から無限の表現能力を得ることができる。 ニューラルネットワークは行動のこの側面を説明するのに失敗し、多くの人がそれを人間の認知の実行可能なモデルとして排除している。 しかし、過去10年間で、前任者と同じ基本設計原則を共有する現代のディープニューラルネットワーク(DNN)が人工知能を支配し、マシンで実証された最も高度な認知行動を示している。 特に、大きな言語モデル(LLM)やDNNは、大きなテキストのコーパスで次の単語を予測する訓練を受けており、文法的な誤りなしに構文的に複雑な文を書くこと、推論のコジェント連鎖を生成すること、オリジナルのコンピュータプログラムを書くことなど、複雑な振る舞いが可能であることを証明している。 本章では、哲学、認知科学、神経科学の幅広い読者を対象に、機械学習による最近の経験的な研究を調査し、構成性に関する哲学的議論のより広い文脈において、最近のブレークスルーを考察する。 特に,構成的一般化機能を備えたニューラルネットワークを実現するためのアプローチとして,(1)アーキテクチャ的帰納的バイアス,(2)メタラーニング,あるいは学習学習の2つを強調した。 また,LLMプレトレーニングはメタラーニングの一種として理解でき,DNNに合成一般化能力を持たせることが可能であることが示唆された。 本研究は,人間の認知における構成性の研究や,今後の研究への道筋を提案することによって,これらの知見が持つ意味について論じる。

Compositionality has long been considered a key explanatory property underlying human intelligence: arbitrary concepts can be composed into novel complex combinations, permitting the acquisition of an open ended, potentially infinite expressive capacity from finite learning experiences. Influential arguments have held that neural networks fail to explain this aspect of behavior, leading many to dismiss them as viable models of human cognition. Over the last decade, however, modern deep neural networks (DNNs), which share the same fundamental design principles as their predecessors, have come to dominate artificial intelligence, exhibiting the most advanced cognitive behaviors ever demonstrated in machines. In particular, large language models (LLMs), DNNs trained to predict the next word on a large corpus of text, have proven capable of sophisticated behaviors such as writing syntactically complex sentences without grammatical errors, producing cogent chains of reasoning, and even writing original computer programs -- all behaviors thought to require compositional processing. In this chapter, we survey recent empirical work from machine learning for a broad audience in philosophy, cognitive science, and neuroscience, situating recent breakthroughs within the broader context of philosophical arguments about compositionality. In particular, our review emphasizes two approaches to endowing neural networks with compositional generalization capabilities: (1) architectural inductive biases, and (2) metalearning, or learning to learn. We also present findings suggesting that LLM pretraining can be understood as a kind of metalearning, and can thereby equip DNNs with compositional generalization abilities in a similar way. We conclude by discussing the implications that these findings may have for the study of compositionality in human cognition and by suggesting avenues for future research.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 学習情報検索のための解法に基づくLLM API利用手法

A Solution-based LLM API-using Methodology for Academic Information Seeking ( http://arxiv.org/abs/2405.15165v1 )

ライセンス: Link先を確認
Yuanchun Wang, Jifan Yu, Zijun Yao, Jing Zhang, Yuyang Xie, Shangqing Tu, Yiyang Fu, Youhe Feng, Jinkai Zhang, Jingyao Zhang, Bowen Huang, Yuanyao Li, Huihui Yuan, Lei Hou, Juanzi Li, Jie Tang, (参考訳) 学術的なAPI使用のために大きな言語モデル(LLM)を適用することは、研究者の学術的情報を求める努力を減らすことの約束である。 しかし、現在のLLM API利用法は、学術的なクエリでよく見られる複雑なAPI結合に苦慮している。 そこで本研究では,学術情報検索のためのソリューションベースのLLM API利用方法論であるSoAyを紹介する。 ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。 ソリューションの追加により、モデルがAPI間の複雑な関係を理解するのが難しくなる。 コードは推論の効率を改善する。 SoAyを評価するために、AMinerのAPIのクローン環境上に構築されたSoAyEvalを伴う評価ベンチマークであるSoAyBenchを紹介します。 実験結果は、最先端のLLM APIベースのベースラインと比較して34.58-75.99\%の性能向上を示している。 すべてのデータセット、コード、チューニングされたモデル、デプロイされたオンラインサービスはhttps://github.com/RUCKBReasoning/SoAy.comで公開されている。

Applying large language models (LLMs) for academic API usage shows promise in reducing researchers' academic information seeking efforts. However, current LLM API-using methods struggle with complex API coupling commonly encountered in academic queries. To address this, we introduce SoAy, a solution-based LLM API-using methodology for academic information seeking. It uses code with a solution as the reasoning method, where a solution is a pre-constructed API calling sequence. The addition of the solution reduces the difficulty for the model to understand the complex relationships between APIs. Code improves the efficiency of reasoning. To evaluate SoAy, we introduce SoAyBench, an evaluation benchmark accompanied by SoAyEval, built upon a cloned environment of APIs from AMiner. Experimental results demonstrate a 34.58-75.99\% performance improvement compared to state-of-the-art LLM API-based baselines. All datasets, codes, tuned models, and deployed online services are publicly accessible at https://github.com/RUCKBReasoning/SoAy.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# パルスレベルVQEのパラメータ化と最適性

Parameterization and optimizability of pulse-level VQEs ( http://arxiv.org/abs/2405.15166v1 )

ライセンス: Link先を確認
Kyle M Sherbert, Hisham Amer, Sophia E Economou, Edwin Barnes, Nicholas J Mayhall, (参考訳) 従来の変分量子固有解法(VQE)では、一連のパラメータ化ゲートを基準状態に適用して試行状態を作成し、ゲートパラメータはターゲットシステムのエネルギーを最小化するために変化する。 ゲートが最終的に研究室の各キュービットに適用される一連の制御パルスにコンパイルされる中間体であることを認識し、最近提案されたctrl-VQEアルゴリズムは、パルスの振幅、周波数、位相を分子エネルギーを最小化する変動パラメータとして取る。 本研究では,3つの自由度が相互にどのように相互に関連しているかを考察する。 そこで我々は,トランスモンライクな装置の数値シミュレーションにより,制御パルスをパラメータ化するためのいくつかの異なる戦略を考察した。 各パラメータ化について、良好なアンザッツを作成するのに必要なパルス長と、そのアンザッツを適切に定義された初期状態から最適化することの難しさを対比する。 我々は,ハードウェアに実用的なctrl-VQEを実装するための指導的ヒューリスティックを導出し,汎用デバイスアーキテクチャの一般化を期待する。

In conventional variational quantum eigensolvers (VQEs), trial states are prepared by applying series of parameterized gates to a reference state, with the gate parameters being varied to minimize the energy of the target system. Recognizing that the gates are intermediates which are ultimately compiled into a set of control pulses to be applied to each qubit in the lab, the recently proposed ctrl-VQE algorithm takes the amplitudes, frequencies, and phases of the pulse as the variational parameters used to minimize the molecular energy. In this work, we explore how all three degrees of freedom interrelate with one another. To this end, we consider several distinct strategies to parameterize the control pulses, assessing each one through numerical simulations of a transmon-like device. For each parameterization, we contrast the pulse duration required to prepare a good ansatz, and the difficulty to optimize that ansatz from a well-defined initial state. We deduce several guiding heuristics to implement practical ctrl-VQE in hardware, which we anticipate will generalize for generic device architectures.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# ProDAG:有向非巡回グラフに対する射影誘起変分推論

ProDAG: Projection-induced variational inference for directed acyclic graphs ( http://arxiv.org/abs/2405.15167v1 )

ライセンス: Link先を確認
Ryan Thompson, Edwin V. Bonilla, Robert Kohn, (参考訳) 直接非巡回グラフ(DAG)学習は急速に研究の領域を広げている。 この分野はここ数年で顕著な進歩をみせてきたが、統計学的、計算学的にデータから単一の(ポイント推定)DAGを学習することは困難であり、もちろん不確実な定量化を提供する。 本稿では,DAGの空間を直接支援する新しい分布に基づく変分ベイズ推論フレームワークを開発することにより,グラフの不確かさを定量化する難しい課題について論じる。 我々の先行および変動後部を形成するために用いられる分布は射影演算によって誘導され、任意の連続分布は正零点上の確率質量を持つスパース重み付き非巡回隣接行列(DAGの行列表現)の空間に投影される。 射影は組合せ最適化問題を構成するが、連続的な制約として非循環を再構成する最近開発された手法を通じて、大規模に解ける。 我々は,提案手法であるProDAGが正確な推論を実現することを実証的に実証し,既存の最先端の代替手法よりも優れていることを示す。

Directed acyclic graph (DAG) learning is a rapidly expanding field of research. Though the field has witnessed remarkable advances over the past few years, it remains statistically and computationally challenging to learn a single (point estimate) DAG from data, let alone provide uncertainty quantification. Our article addresses the difficult task of quantifying graph uncertainty by developing a variational Bayes inference framework based on novel distributions that have support directly on the space of DAGs. The distributions, which we use to form our prior and variational posterior, are induced by a projection operation, whereby an arbitrary continuous distribution is projected onto the space of sparse weighted acyclic adjacency matrices (matrix representations of DAGs) with probability mass on exact zeros. Though the projection constitutes a combinatorial optimization problem, it is solvable at scale via recently developed techniques that reformulate acyclicity as a continuous constraint. We empirically demonstrate that our method, ProDAG, can deliver accurate inference, and often outperforms existing state-of-the-art alternatives.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 一般化された参照表現セグメンテーションへの適応的バインディングプロトタイプの導入

Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation ( http://arxiv.org/abs/2405.15169v1 )

ライセンス: Link先を確認
Weize Li, Zhicheng Zhao, Haochen Bai, Fei Su, (参考訳) Referring Expression Segmentation (RES)は、自然言語表現に基づいてオブジェクトを識別し、セグメント化することを目的として、注目を集めている。 RESではかなりの進歩があったが、Generalized Referring Expression Segmentation (GRES)の出現により、式が複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新たな課題がもたらされた。 既存のRESメソッドは、通常、洗練されたエンコーダデコーダとフィーチャーフュージョンモジュールに依存しており、GRESの複雑な参照とバイナリラベルに直面すると、各インスタンスに個別にマッチするクラスプロトタイプを生成するのは難しい。 本稿では、RESとGRESの違いを再評価し、対応する領域のオブジェクト特徴にクエリを適応的にバインドする適応結合型モデル(MABP)を提案する。 これにより、異なるクエリベクタが、異なるカテゴリや同じインスタンスの異なる部分のインスタンスにマッチし、デコーダの柔軟性を大幅に拡張し、すべてのクエリにグローバルなプレッシャーを分散させ、エンコーダの要求を緩和することができる。 実験の結果,MABPはgRefCOCOデータセット上の3つの分割において,最先端の手法よりも有意に優れていた。 一方、MABPはRefCOCO+とG-Refデータセットの最先端の手法を超越し、RefCOCO上で非常に競争力のある結果を得る。 コードはhttps://github.com/buptLwz/MABPで入手できる。

Referring Expression Segmentation (RES) has attracted rising attention, aiming to identify and segment objects based on natural language expressions. While substantial progress has been made in RES, the emergence of Generalized Referring Expression Segmentation (GRES) introduces new challenges by allowing expressions to describe multiple objects or lack specific object references. Existing RES methods, usually rely on sophisticated encoder-decoder and feature fusion modules, and are difficult to generate class prototypes that match each instance individually when confronted with the complex referent and binary labels of GRES. In this paper, reevaluating the differences between RES and GRES, we propose a novel Model with Adaptive Binding Prototypes (MABP) that adaptively binds queries to object features in the corresponding region. It enables different query vectors to match instances of different categories or different parts of the same instance, significantly expanding the decoder's flexibility, dispersing global pressure across all queries, and easing the demands on the encoder. Experimental results demonstrate that MABP significantly outperforms state-of-the-art methods in all three splits on gRefCOCO dataset. Meanwhile, MABP also surpasses state-of-the-art methods on RefCOCO+ and G-Ref datasets, and achieves very competitive results on RefCOCO. Code is available at https://github.com/buptLwz/MABP
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# スクリッブルアノテーションを用いたラベル効率のセマンティックシーン補完

Label-efficient Semantic Scene Completion with Scribble Annotations ( http://arxiv.org/abs/2405.15170v1 )

ライセンス: Link先を確認
Song Wang, Jiawei Yu, Wentong Li, Hao Shi, Kailun Yang, Junbo Chen, Jianke Zhu, (参考訳) セマンティックシーン補完は、カメラやLiDARからのセマンティッククラスで3次元幾何学構造を推論することを目的としており、自律運転において不可欠な占有情報を提供する。 以前の取り組みは、完全に教師された方法でネットワークやベンチマークを構築することに集中していた。 密集した占有グリッドはポイントワイズなセマンティックアノテーションを必要とするが、これは高価で退屈なラベル付けコストがかかる。 本稿では,スパーススクリブルをベースとしたセマンティックラベルと密な幾何学的ラベルを組み合わせて,セマンティックシーンを補完するScribbleSCというラベル効率ベンチマークを構築した。 特に,スパース・スクリブルアノテーションとフル・スーパービジョンのギャップを埋める,Scribble2Sceneというシンプルな手法を提案する。 本手法は, オフライン-オンライン蒸留モジュールを用いた自動ラベル作成とオンラインモデルトレーニングにより, 性能を向上させる。 SemanticKITTIの実験では、Scribble2Sceneは完全教師付きモデルと競合し、13.5%のボクセルしかラベル付けされていない完全教師付きモデルの99%のパフォーマンスを示した。 ScribbleSCのアノテーションと完全な実装は、https://github.com/songw-zju/Scribble2Scene.comで公開されている。

Semantic scene completion aims to infer the 3D geometric structures with semantic classes from camera or LiDAR, which provide essential occupancy information in autonomous driving. Prior endeavors concentrate on constructing the network or benchmark in a fully supervised manner. While the dense occupancy grids need point-wise semantic annotations, which incur expensive and tedious labeling costs. In this paper, we build a new label-efficient benchmark, named ScribbleSC, where the sparse scribble-based semantic labels are combined with dense geometric labels for semantic scene completion. In particular, we propose a simple yet effective approach called Scribble2Scene, which bridges the gap between the sparse scribble annotations and fully-supervision. Our method consists of geometric-aware auto-labelers construction and online model training with an offline-to-online distillation module to enhance the performance. Experiments on SemanticKITTI demonstrate that Scribble2Scene achieves competitive performance against the fully-supervised counterparts, showing 99% performance of the fully-supervised models with only 13.5% voxels labeled. Both annotations of ScribbleSC and our full implementation are available at https://github.com/songw-zju/Scribble2Scene.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 逆因果予測における分布図の学習

Learning the Distribution Map in Reverse Causal Performative Prediction ( http://arxiv.org/abs/2405.15172v1 )

ライセンス: Link先を確認
Daniele Bracale, Subha Maity, Moulinath Banerjee, Yuekai Sun, (参考訳) 多くの予測シナリオでは、予測モデルはサンプリング分布に影響し、例えば、求職者は履歴書を慎重に作成してスクリーニングシステムを通してナビゲートする。 このような分散のシフトは、特にソーシャルコンピューティングの領域で顕著であるが、これらのシフトをデータから学ぶための戦略は、依然として著しく制限されている。 労働市場におけるエージェントの行動を包括的に特徴づけるミクロ経済モデルに着想を得て,分布変化を学習するための新しいアプローチを導入する。 提案手法は逆因果モデルに基づいて予測され, 予測モデルでは, エージェントの作用の有限セットを通してのみ分布シフトを導出する。 本フレームワークでは,エージェントの行動にマイクロファウンデーションモデルを適用し,分布シフトマップを学習するための統計的に正当化された方法論を開発し,性能予測リスクの最小化に有効であることを示す。

In numerous predictive scenarios, the predictive model affects the sampling distribution; for example, job applicants often meticulously craft their resumes to navigate through a screening systems. Such shifts in distribution are particularly prevalent in the realm of social computing, yet, the strategies to learn these shifts from data remain remarkably limited. Inspired by a microeconomic model that adeptly characterizes agents' behavior within labor markets, we introduce a novel approach to learn the distribution shift. Our method is predicated on a reverse causal model, wherein the predictive model instigates a distribution shift exclusively through a finite set of agents' actions. Within this framework, we employ a microfoundation model for the agents' actions and develop a statistically justified methodology to learn the distribution shift map, which we demonstrate to be effective in minimizing the performative prediction risk.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# A3:Ambiguous Aberrations Captureed by Astray-Learning for Facial Forgery Semantic Sublimation

A3:Ambiguous Aberrations Captured via Astray-Learning for Facial Forgery Semantic Sublimation ( http://arxiv.org/abs/2405.15173v1 )

ライセンス: Link先を確認
Xinan He, Yue Zhou, Wei Ye, Feng Ding, (参考訳) 従来のDeepFake検出手法は、一般化性と公平性を効果的に維持する上で、重要な課題に直面してきた。 本稿では,アストレイラーニング(astray-learning)という,偽のセマンティクスの分離と昇華に類似したアプローチを提案する。 提案手法の主な目的は,高周波成分から派生したハイブリッド・フォージェリー・セマンティクスを実画像にブレンドすることである。 収差の曖昧さは、特定の意味論に対するモデルのバイアスを減らすのに有益である。 これにより、モデルの一般化能力を高め、検出公正性を維持することができる。 astray-learningのコードはhttps://anonymous.4open.science/r/astray-learning-C49Bで公開されている。

Prior DeepFake detection methods have faced a core challenge in preserving generalizability and fairness effectively. In this paper, we proposed an approach akin to decoupling and sublimating forgery semantics, named astray-learning. The primary objective of the proposed method is to blend hybrid forgery semantics derived from high-frequency components into authentic imagery, named aberrations. The ambiguity of aberrations is beneficial to reducing the model's bias towards specific semantics. Consequently, it can enhance the model's generalization ability and maintain the detection fairness. All codes for astray-learning are publicly available at https://anonymous.4open.science/r/astray-learning-C49B .
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# 変動量子回路を用いた雑音量子振幅推定のための適応的測定方法

Adaptive measurement strategy for noisy quantum amplitude estimation with variational quantum circuits ( http://arxiv.org/abs/2405.15174v1 )

ライセンス: Link先を確認
Kohei Oshio, Yohichi Suzuki, Kaito Wada, Keigo Hisanaga, Shumpei Uno, Naoki Yamamoto, (参考訳) 量子計算において、振幅推定は様々な量子アルゴリズムで利用される基本的なサブルーチンである。 このような推定問題の一般的な課題は、量子クラム・ラオ境界(QCRB)と呼ばれる推定下界を特徴づけ、QCRBを達成する最適推定器を構築することである。 本稿では,不特定強度の非偏極雑音の存在下での振幅推定について検討する。 この問題の最大の難点は、最適測定が未知の量子状態と推定しようとする振幅の両方に依存することである。 これらの問題に対処するために、変分量子回路を用いて、量子推定理論で提案された2ステップ適応推定戦略と(未知の)最適測定基準を近似し、提案手法がQCRBをほぼ達成できることを数値的に示す。

In quantum computation, amplitude estimation is a fundamental subroutine that is utilized in various quantum algorithms. A general important task of such estimation problems is to characterize the estimation lower bound, which is referred to as quantum Cram\'er-Rao bound (QCRB), and to construct an optimal estimator that achieves QCRB. This paper studies the amplitude estimation in the presence of depolarizing noise with unknown intensity. The main difficulty in this problem is that the optimal measurement depends on both the unknown quantum state and the amplitude we aim to estimate. To deal with these issues, we utilize the variational quantum circuits to approximate the (unknown) optimal measurement basis combined with the 2-step adaptive estimation strategy which was proposed in the quantum estimation theory.We numerically show that the proposed method can nearly attain the QCRB.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# MonoDETRNext: 次世代の高精度かつ効率的なモノクロ3次元物体検出法

MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method ( http://arxiv.org/abs/2405.15176v1 )

ライセンス: Link先を確認
Pan Liao, Feng Yang, Di Wu, Liu Bo, (参考訳) 単眼視に基づく3次元物体検出は様々な分野において重要であるが、既存の手法では精度と計算効率の面で大きな課題に直面している。 2次元検出と深度推定で成功した戦略に基づいて,精度と処理速度の最適バランスを求めるMonoDETRNextを提案する。 提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,高度深度予測器によって拡張された革新的なクエリ生成戦略の導入を含む。 MonoDETR上に構築されているMonoDETRNextには,スピードを重視したMonoDETRNext-Fと,精度を重視したMonoDETRNext-Aという2つのバリエーションが導入されている。 我々はMonoDETRNextがモノクロ3Dオブジェクト検出の新しいベンチマークを確立し、今後の研究への道を開くと仮定する。 既存のソリューションに対して,モデルの性能を徹底的に評価した。 特に、MonoDETRNext-Aは、MonoDETRに対するKITTIテストベンチマークでAP3Dの4.60%の改善を示し、MonoDETRNext-Fは2.21%の増加を示した。 さらに、MonoDETRNext-Fの計算効率は、前者の計算効率をわずかに上回っている。

Monocular vision-based 3D object detection is crucial in various sectors, yet existing methods face significant challenges in terms of accuracy and computational efficiency. Building on the successful strategies in 2D detection and depth estimation, we propose MonoDETRNext, which seeks to optimally balance precision and processing speed. Our methodology includes the development of an efficient hybrid visual encoder, enhancement of depth prediction mechanisms, and introduction of an innovative query generation strategy, augmented by an advanced depth predictor. Building on MonoDETR, MonoDETRNext introduces two variants: MonoDETRNext-F, which emphasizes speed, and MonoDETRNext-A, which focuses on precision. We posit that MonoDETRNext establishes a new benchmark in monocular 3D object detection and opens avenues for future research. We conducted an exhaustive evaluation demonstrating the model's superior performance against existing solutions. Notably, MonoDETRNext-A demonstrated a 4.60% improvement in the AP3D metric on the KITTI test benchmark over MonoDETR, while MonoDETRNext-F showed a 2.21% increase. Additionally, the computational efficiency of MonoDETRNext-F slightly exceeds that of its predecessor.
翻訳日:2024-05-27 18:18:44 公開日:2024-05-24
# エントロピーレギュレータを用いた拡散アクタ臨界

Diffusion Actor-Critic with Entropy Regulator ( http://arxiv.org/abs/2405.15177v1 )

ライセンス: Link先を確認
Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li, (参考訳) 強化学習(Reinforcement Learning, RL)は、複雑な意思決定や制御タスクに対処する上で非常に効果的であることが証明されている。 しかしながら、ほとんどの伝統的なRLアルゴリズムでは、このポリシーは一般的に、学習平均と分散を持つ対角的なガウス分布としてパラメータ化され、複雑なポリシーを取得する能力を制限する。 この問題に対して,エントロピー・レギュレータ(DACER)を用いた拡散アクタ・クリティックというオンラインRLアルゴリズムを提案する。 このアルゴリズムは、拡散モデルの逆過程を新しいポリシー関数として概念化し、拡散モデルの能力を多モード分布に適合させ、ポリシーの表現能力を高める。 拡散政策の分布は解析的な表現を欠いているため、そのエントロピーは解析的に決定できない。 これを軽減するために,ガウス混合モデルを用いて拡散政策のエントロピーを推定する手法を提案する。 推定エントロピーに基づいて、探索と搾取の程度を調節するパラメータ $\alpha$ を学ぶことができる。 パラメータ$\alpha$は、拡散モデルによって出力されるアクションに適用される付加ノイズの分散を適応的に調節するために使用される。 MuJoCo ベンチマークとマルチモーダルタスクの実験実験により,DACER アルゴリズムがほとんどの MuJoCo 制御タスクにおける最先端 (SOTA) 性能を実現し,拡散ポリシの表現能力が向上することを示した。

Reinforcement learning (RL) has proven highly effective in addressing complex decision-making and control tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution with learned mean and variance, which constrains their capability to acquire complex policies. In response to this problem, we propose an online RL algorithm termed diffusion actor-critic with entropy regulator (DACER). This algorithm conceptualizes the reverse process of the diffusion model as a novel policy function and leverages the capability of the diffusion model to fit multimodal distributions, thereby enhancing the representational capacity of the policy. Since the distribution of the diffusion policy lacks an analytical expression, its entropy cannot be determined analytically. To mitigate this, we propose a method to estimate the entropy of the diffusion policy utilizing Gaussian mixture model. Building on the estimated entropy, we can learn a parameter $\alpha$ that modulates the degree of exploration and exploitation. Parameter $\alpha$ will be employed to adaptively regulate the variance of the added noise, which is applied to the action output by the diffusion model. Experimental trials on MuJoCo benchmarks and a multimodal task demonstrate that the DACER algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting a stronger representational capacity of the diffusion policy.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# VB-LoRA:ベクトルバンクを用いた超高速微調整

VB-LoRA: Extreme Parameter Efficient Fine-Tuning with Vector Banks ( http://arxiv.org/abs/2405.15179v1 )

ライセンス: Link先を確認
Yang Li, Shaobo Han, Shihao Ji, (参考訳) 大規模言語モデルの採用が増加し、ユーザ毎やタスク毎のモデルカスタマイズの必要性が高まるにつれて、低ランク適応(LoRA)やその変種といったパラメータ効率のよい微調整(PEFT)手法は、かなりのストレージと送信コストを発生させる。 パラメータをグローバルに共有することで,行列次元,モジュール,レイヤ間の低ランク分解の障壁を解消する「分割共有」パラダイムを導入する。 LoRAへのパラダイムのインスタンス化として、提案したVB-LoRAコンポジットは、共有された \textit{vector bank} からLoRAの低ランク行列を微分可能のトップ-$k$アドミクチャモジュールで生成する。 VB-LoRAは、最先端PEFT法と比較して、同等または優れた性能を維持しながら、極端なパラメータ効率を達成する。 VB-LoRAは、自然言語理解、自然言語生成、命令チューニングタスクに有効であることを示した。 Llama2-13Bモデルを微調整する場合、VB-LoRAはLoRAの格納パラメータの0.4\%しか使用していないが、優れた結果が得られる。 ソースコードは \url{https://github.com/leo-yangli/VB-LoRA} で公開されている。

As the adoption of large language models increases and the need for per-user or per-task model customization grows, the parameter-efficient fine-tuning (PEFT) methods, such as low-rank adaptation (LoRA) and its variants, incur substantial storage and transmission costs. To further reduce stored parameters, we introduce a "divide-and-share" paradigm that breaks the barriers of low-rank decomposition across matrix dimensions, modules and layers by sharing parameters globally via a \textit{vector bank}. As an instantiation of the paradigm to LoRA, our proposed VB-LoRA composites \textit{all} the low-rank matrices of LoRA from a shared \textit{vector bank} with a differentiable top-$k$ admixture module. VB-LoRA achieves extreme parameter efficiency while maintaining comparable or better performance compared to state-of-the-art PEFT methods. Extensive experiments demonstrate the effectiveness of VB-LoRA on natural language understanding, natural language generation, and instruction tuning tasks. When fine-tuning the Llama2-13B model, VB-LoRA only uses 0.4\% of LoRA's stored parameters yet attaining superior results. Our source code is available at \url{https://github.com/leo-yangli/VB-LoRA}.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# RFLPA: セキュアな集団攻撃に対するロバストなフェデレーション学習フレームワーク

RFLPA: A Robust Federated Learning Framework against Poisoning Attacks with Secure Aggregation ( http://arxiv.org/abs/2405.15182v1 )

ライセンス: Link先を確認
Peihua Mai, Ran Yan, Yan Pang, (参考訳) フェデレートラーニング(FL)は、複数のデバイスがデータを共有せずに協調的にモデルをトレーニングすることを可能にする。 その利点にもかかわらず、FLはプライバシーの漏洩や中毒攻撃に弱い。 プライバシの懸念に対処するため、セキュリティアグリゲーション(SecAgg)は、個々のユーザ更新を検査することなく、厳密なグレードのアグリゲーションを取得するためにしばしば使用される。 残念ながら、中毒攻撃に対する既存の防衛戦略は、平文によるローカルアップデートの分析に依存しており、SecAggと互換性がない。 そこで本研究では,SecAggプロトコルに基づくRFLPAに対する堅牢なフェデレーション学習フレームワークを提案する。 我々のフレームワークは、ローカル更新とサーバ更新のコサイン類似性を計算し、ロバストアグリゲーションを実行する。 さらに,ユーザ毎の通信コストを$O(M+N)以上削減するために,検証可能なシャミール秘密共有を活用し,情報漏洩の問題を解決するために新たなドット積集約アルゴリズムを設計する。 実験の結果,RFLPAは競争精度を保ちながら通信と計算のオーバーヘッドを,最先端のBREAに比べて75 %以上削減できることがわかった。

Federated learning (FL) allows multiple devices to train a model collaboratively without sharing their data. Despite its benefits, FL is vulnerable to privacy leakage and poisoning attacks. To address the privacy concern, secure aggregation (SecAgg) is often used to obtain the aggregation of gradients on sever without inspecting individual user updates. Unfortunately, existing defense strategies against poisoning attacks rely on the analysis of local updates in plaintext, making them incompatible with SecAgg. To reconcile the conflicts, we propose a robust federated learning framework against poisoning attacks (RFLPA) based on SecAgg protocol. Our framework computes the cosine similarity between local updates and server updates to conduct robust aggregation. Furthermore, we leverage verifiable packed Shamir secret sharing to achieve reduced communication cost of $O(M+N)$ per user, and design a novel dot-product aggregation algorithm to resolve the issue of increased information leakage. Our experimental results show that RFLPA significantly reduces communication and computation overhead by over $75\%$ compared to the state-of-the-art method, BREA, while maintaining competitive accuracy.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# TrojanForge: 強化学習による対向的ハードウェアトロイの木馬の例

TrojanForge: Adversarial Hardware Trojan Examples with Reinforcement Learning ( http://arxiv.org/abs/2405.15184v1 )

ライセンス: Link先を確認
Amin Sarihi, Peter Jamieson, Ahmad Patooghy, Abdel-Hameed A. Badawy, (参考訳) ハードウエア・トロイジャン(HT)問題は、攻撃者とディフェンダーの間で連続的なゲームとして考えられ、それぞれが有利な手段として利用可能な手段を生かして相手を追い越そうとしている。 機械学習(ML)は近年、HT研究の進展において重要な役割を担っている。 Reinforcement Learning (RL) や Graph Neural Networks (GNN) などの新しい技術は、HT挿入と検出機能を示している。 ML技術を用いたHT挿入は、従来のHTベンチマークの欠点と、それらを作成する際に生じる固有のヒューマンデザインバイアスにより、研究活動が急増している。 この研究は、HT検出器を倒すHT敵の例を生成する"TrojanForge"と呼ばれるツールを提示し、自動HT挿入のためのGANのような逆ツールの能力を実証することによって、このイノベーションを継続する。 本稿では,RL挿入剤がHT検出器と相互作用するRL環境について紹介する。 以上の結果から,HT検出器を挿入することで,HT検出を回避し,高い攻撃成功率を達成できることが示唆された。 このツールは、いくつかのインスタンスでHT挿入が失敗した理由と、この知識を防御に活用する方法に関する洞察を提供する。

The Hardware Trojan (HT) problem can be thought of as a continuous game between attackers and defenders, each striving to outsmart the other by leveraging any available means for an advantage. Machine Learning (ML) has recently been key in advancing HT research. Various novel techniques, such as Reinforcement Learning (RL) and Graph Neural Networks (GNNs), have shown HT insertion and detection capabilities. HT insertion with ML techniques, specifically, has seen a spike in research activity due to the shortcomings of conventional HT benchmarks and the inherent human design bias that occurs when we create them. This work continues this innovation by presenting a tool called "TrojanForge", capable of generating HT adversarial examples that defeat HT detectors; demonstrating the capabilities of GAN-like adversarial tools for automatic HT insertion. We introduce an RL environment where the RL insertion agent interacts with HT detectors in an insertion-detection loop where the agent collects rewards based on its success in bypassing HT detectors. Our results show that this process leads to inserted HTs that evade various HT detectors, achieving high attack success percentages. This tool provides insight into why HT insertion fails in some instances and how we can leverage this knowledge in defense.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# 大規模言語モデルにおける推定不確かさの評価

An Evaluation of Estimative Uncertainty in Large Language Models ( http://arxiv.org/abs/2405.15185v1 )

ライセンス: Link先を確認
Zhisheng Tang, Ke Shen, Mayank Kejriwal, (参考訳) 推定確率(WEP)の単語('maybe' や 'probably not' など)は、数値確率を含む直接の言明と比較して、推定の不確実性を伝達するための自然言語においてユビキタスである。 人間の推定の不確実性や、数値的な推定による校正は、長い間、CIAなどの諜報機関による研究領域だった。 本研究は, GPT-4 や ERNIE-4 のような一般用大言語モデル (LLM) における推定の不確かさを,人間と相互に比較した。 ここでは, GPT-3.5 や GPT-4 のような LLM が人間の推定値と一致していることを示す。 LLMに性的な役割と中国の文脈が提示される際にも、多様性が観察される。 さらなる研究により、GPT-4のような高度なLCMは統計的および推定的不確実性の間に一貫して対応できるが、大きな性能差は残る。 この結果は、ヒト-LLMアライメントの研究に寄与する。

Words of estimative probability (WEPs), such as ''maybe'' or ''probably not'' are ubiquitous in natural language for communicating estimative uncertainty, compared with direct statements involving numerical probability. Human estimative uncertainty, and its calibration with numerical estimates, has long been an area of study -- including by intelligence agencies like the CIA. This study compares estimative uncertainty in commonly used large language models (LLMs) like GPT-4 and ERNIE-4 to that of humans, and to each other. Here we show that LLMs like GPT-3.5 and GPT-4 align with human estimates for some, but not all, WEPs presented in English. Divergence is also observed when the LLM is presented with gendered roles and Chinese contexts. Further study shows that an advanced LLM like GPT-4 can consistently map between statistical and estimative uncertainty, but a significant performance gap remains. The results contribute to a growing body of research on human-LLM alignment.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# PS-CAD: CAD再構成のためのプロンプトと選択による局所幾何学指導

PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction ( http://arxiv.org/abs/2405.15188v1 )

ライセンス: Link先を確認
Bingchen Yang, Haiyong Jiang, Hao Pan, Peter Wonka, Jun Xiao, Guosheng Lin, (参考訳) 原形状からのリバースエンジニアリングCADモデルは古典的だが難しい研究課題である。 特に、ポイントクラウドからCADモデリングシーケンスを再構築することは、編集に非常に便利である。 この問題を改善するために,再構成ネットワークに幾何学的ガイダンスを導入する。 提案モデルであるPS-CADはCADモデリングシーケンスを1ステップずつ再構築する。 各ステップで2種類の幾何学的ガイダンスを提供する。 まず、現在の再構成が点雲としての完備モデルと異なる曲面の幾何を提供する。 これはフレームワークがまだ作業が必要な領域に集中するのに役立ちます。 第2に,CAD押出工程を開始可能な候補面に対応する平面プロンプトの集合を幾何学的解析により抽出する。 私たちのフレームワークには3つの主要なコンポーネントがあります。 幾何学的ガイダンス計算は2種類の幾何学的ガイダンスを抽出する。 シングルステップ再構成は、提供されたプロンプト毎に単一の候補CADモデリングステップを算出する。 単段階選択は、候補CADモデリングステップの中から選択する。 工事は再建が完了するまで続けられる。 我々の定量的結果は、すべての指標で顕著な改善を示している。 例えばデータセットのDeepCADでは、PS-CADが最高のSOTA法を改善し、幾何誤差(CDとHD)を10%削減し、構造誤差(ECDメートル法)を約15%削減した。

Reverse engineering CAD models from raw geometry is a classic but challenging research problem. In particular, reconstructing the CAD modeling sequence from point clouds provides great interpretability and convenience for editing. To improve upon this problem, we introduce geometric guidance into the reconstruction network. Our proposed model, PS-CAD, reconstructs the CAD modeling sequence one step at a time. At each step, we provide two forms of geometric guidance. First, we provide the geometry of surfaces where the current reconstruction differs from the complete model as a point cloud. This helps the framework to focus on regions that still need work. Second, we use geometric analysis to extract a set of planar prompts, that correspond to candidate surfaces where a CAD extrusion step could be started. Our framework has three major components. Geometric guidance computation extracts the two types of geometric guidance. Single-step reconstruction computes a single candidate CAD modeling step for each provided prompt. Single-step selection selects among the candidate CAD modeling steps. The process continues until the reconstruction is completed. Our quantitative results show a significant improvement across all metrics. For example, on the dataset DeepCAD, PS-CAD improves upon the best published SOTA method by reducing the geometry errors (CD and HD) by 10%, and the structural error (ECD metric) by about 15%.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# SOAP: 自己最適化による生成コードの効率向上

SOAP: Enhancing Efficiency of Generated Code via Self-Optimization ( http://arxiv.org/abs/2405.15189v1 )

ライセンス: Link先を確認
Dong Huang, Jianbo Dai, Han Weng, Puzhen Wu, Yuhao Qing, Jie M. Zhang, Heming Cui, Zhijiang Guo, (参考訳) 大規模言語モデル(LLM)は、コード生成の顕著な進歩を示しているが、生成されたコードは、しばしば非効率に悩まされ、実行時間が長くなり、メモリ消費が増加する。 この問題に対処するため,LLM生成コードの効率を改善するために,実行オーバーヘッドプロファイルを利用した自己最適化フレームワークであるOverheAd Profile (SOAP) に基づく自己最適化を提案する。 SOAPはまずLLMを使ってコードを生成し、それからローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャします。 これらのプロファイルはLSMに返され、コードが修正されてオーバーヘッドが削減される。 SOAPの有効性を評価するため、EffiBench、HumanEval、MBPPを16のオープンソースおよび6つのクローズドソースモデルで広範な実験を行った。 評価結果は、反復的な自己最適化により、SOAPはLLM生成コードの効率を大幅に向上させることを示した。 例えば、EffiBench に対する StarCoder2-15B の実行時間 (ET) は 0.93 (s) から 0.12 (s) に減少し、初期コードと比較して87.1% の実行時間要求が減少する。 StarCoder2-15Bの総メモリ使用量(TMU)も22.02(Mb*s)から2.03(Mb*s)に減少し、実行プロセス中に90.8%のメモリ使用量を削減した。 SOAPのソースコードはhttps://github.com/huangd1999/SOAPでリリースされた。

Large language models (LLMs) have shown remarkable progress in code generation, but their generated code often suffers from inefficiency, resulting in longer execution times and higher memory consumption. To address this issue, we propose Self Optimization based on OverheAd Profile (SOAP), a self-optimization framework that utilizes execution overhead profiles to improve the efficiency of LLM-generated code. SOAP first generates code using an LLM, then executes it locally to capture execution time and memory usage profiles. These profiles are fed back to the LLM, which then revises the code to reduce overhead. To evaluate the effectiveness of SOAP, we conduct extensive experiments on the EffiBench, HumanEval, and MBPP with 16 open-source and 6 closed-source models. Our evaluation results demonstrate that through iterative self-optimization, SOAP significantly enhances the efficiency of LLM-generated code. For example, the execution time (ET) of StarCoder2-15B for the EffiBench decreases from 0.93 (s) to 0.12 (s) which reduces 87.1% execution time requirement compared with the initial code. The total memory usage (TMU) of StarCoder2-15B also decreases from 22.02 (Mb*s) to 2.03 (Mb*s), which decreases 90.8% total memory consumption during the execution process. The source code of SOAP was released in https://github.com/huangd1999/SOAP.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# 大規模言語モデルを用いた効率的な強化学習

Efficient Reinforcement Learning via Large Language Model-based Search ( http://arxiv.org/abs/2405.15194v1 )

ライセンス: Link先を確認
Siddhant Bhambri, Amrita Bhattacharjee, Huan Liu, Subbarao Kambhampati, (参考訳) 強化学習 (Reinforcement Learning, RL) はスパース報酬領域のサンプル非効率に悩まされており, 確率的遷移が存在する場合, 問題を発音する。 サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。 しかし、各問題に特有の有用な報酬形成関数を設計することは、ドメインの専門家にとっても難しい。 それらはタスク固有のドメイン知識に依存するか、あるいは各タスクに対して独立して専門家によるデモンストレーションを提供する必要があります。 大規模言語モデル(LLM)が自然言語処理の規模で急速に普及していることを考えると、LLMを利用して報酬形成機能を構築し、RLエージェントのサンプル効率を高めることができるだろうか? そこで本研究では,下流RLエージェントの報酬形成機能構築に使用可能な,オリジナル問題のより単純な決定論的抽象化を解くことで,既製のLCMを活用してガイドポリシーを作成することを目的とする。 モデルベースfeEDback critIC を用いて LLM を増強するフレームワーク MEDIC を提案する。 BabyAI環境スイートのドメイン間実験 1) LLM の MEDIC による増強効果 2) LLM 生成計画によって誘導された PPO および A2C をベースとした RL エージェントの試料複雑性の顕著な改善, そして最後に 3) 既存のRLパイプラインの拡張にこれらのモデルをどのように使用できるか、さらなる調査の方向性を舗装する。

Reinforcement Learning (RL) suffers from sample inefficiency in sparse reward domains, and the problem is pronounced if there are stochastic transitions. To improve the sample efficiency, reward shaping is a well-studied approach to introduce intrinsic rewards that can help the RL agent converge to an optimal policy faster. However, designing a useful reward shaping function specific to each problem is challenging, even for domain experts. They would either have to rely on task-specific domain knowledge or provide an expert demonstration independently for each task. Given, that Large Language Models (LLMs) have rapidly gained prominence across a magnitude of natural language tasks, we aim to answer the following question: Can we leverage LLMs to construct a reward shaping function that can boost the sample efficiency of an RL agent? In this work, we aim to leverage off-the-shelf LLMs to generate a guide policy by solving a simpler deterministic abstraction of the original problem that can then be used to construct the reward shaping function for the downstream RL agent. Given the ineffectiveness of directly prompting LLMs, we propose MEDIC: a framework that augments LLMs with a Model-based feEDback critIC, which verifies LLM-generated outputs, to generate a possibly sub-optimal but valid plan for the abstract problem. Our experiments across domains from the BabyAI environment suite show 1) the effectiveness of augmenting LLMs with MEDIC, 2) a significant improvement in the sample complexity of PPO and A2C-based RL agents when guided by our LLM-generated plan, and finally, 3) pave the direction for further explorations of how these models can be used to augment existing RL pipelines.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# DisC-GS: 連続性を意識したガウススティング

DisC-GS: Discontinuity-aware Gaussian Splatting ( http://arxiv.org/abs/2405.15196v1 )

ライセンス: Link先を確認
Haoxuan Qu, Zhuoling Li, Hossein Rahmani, Yujun Cai, Jun Liu, (参考訳) 近年,3次元シーンをガウス分布の集合として表現する手法であるガウススプラッティングが,新規な視点合成の課題に対処する上で大きな注目を集めている。 本稿では,ガウス分布の連続性に起因する画像の不連続性と境界を正確にレンダリングできないという,ガウススプラッティングの基本的な限界を強調する。 この問題に対処するために,ガウシアン・スプラッティングが不連続認識画像のレンダリングを行うことを可能にする新しいフレームワークを提案する。 さらに,提案した不連続性を考慮したレンダリングプロセスの ' `differentiability'' を維持するため,B\'ezier-boundary gradient approximation をフレームワーク内に導入する。 大規模な実験により、我々のフレームワークの有効性が実証された。

Recently, Gaussian Splatting, a method that represents a 3D scene as a collection of Gaussian distributions, has gained significant attention in addressing the task of novel view synthesis. In this paper, we highlight a fundamental limitation of Gaussian Splatting: its inability to accurately render discontinuities and boundaries in images due to the continuous nature of Gaussian distributions. To address this issue, we propose a novel framework enabling Gaussian Splatting to perform discontinuity-aware image rendering. Additionally, we introduce a B\'ezier-boundary gradient approximation strategy within our framework to keep the ``differentiability'' of the proposed discontinuity-aware rendering process. Extensive experiments demonstrate the efficacy of our framework.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# RAEE: 効率的な推論のためのトレーニング不要検索拡張早期実行フレームワーク

RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference ( http://arxiv.org/abs/2405.15198v1 )

ライセンス: Link先を確認
Lianming Huang, Shangyu Wu, Yufei Cui, Ying Xiong, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue, (参考訳) 大きな言語モデルの推論の展開は、高い計算オーバーヘッドのため、依然として困難である。 早期終了は、推論層の数を適応的に減少させることで、モデル推論を加速する。 既存の手法では、各中間層で出口を決定するために内部分類器を訓練する必要がある。 しかし、そのような分類器ベースの早期終了フレームワークは、分類器の設計と訓練に多大な努力を必要とする。 これらの制約に対処するため,本論文では,効率的な推論のためのトレーニング不要なRetrieval-Augmented Early ExitingフレームワークであるRAEEを提案する。 まず, 早期退避問題を分布予測問題としてモデル化し, 類似データの既存情報を用いて分布を近似することを示した。 次に,既存の情報を集めて検索データベースを構築する方法について述べる。 最後に、予め構築された検索データベースに基づいて、RAEEは、取得した類似データの出口情報を利用して、近似分布によって予測されるバックボーンモデルから層への出口を誘導する。 実験の結果,提案したRAEEは推論を著しく加速できることが示された。 RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。

Deploying large language model inference remains challenging due to their high computational overhead. Early exiting accelerates model inference by adaptively reducing the number of inference layers. Existing methods require training internal classifiers to determine whether to exit at each intermediate layer. However, such classifier-based early exiting frameworks require significant effort to design and train the classifiers. To address these limitations, this paper proposes RAEE, a training-free Retrieval-Augmented Early Exiting framework for efficient inference. First, this paper demonstrates that the early exiting problem can be modeled as a distribution prediction problem, where the distribution is approximated using similar data's existing information. Next, the paper details the process of collecting existing information to build the retrieval database. Finally, based on the pre-built retrieval database, RAEE leverages the retrieved similar data's exiting information to guide the backbone model to exit at the layer, which is predicted by the approximated distribution. Experimental results demonstrate that the proposed RAEE can significantly accelerate inference. RAEE also achieves state-of-the-art zero-shot performance on 8 classification tasks.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# ODGEN:拡散モデルを用いたドメイン固有物体検出データ生成

ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models ( http://arxiv.org/abs/2405.15199v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Shiyu Li, Yuxuan Liu, Ping Huang, Jiulong Shan, Huimin Ma, Jian Yuan, (参考訳) 近代的な拡散に基づく画像生成モデルは大きな進歩を遂げ、オブジェクト検出タスクのトレーニングデータを強化することを約束している。 しかし,マルチクラスオブジェクトと密閉オブジェクトを含む複雑なシーンの生成品質と制御性は依然として限られている。 本稿では,オブジェクト検出のためのデータ合成を容易にするため,境界ボックスに条件付き高品質な画像を生成する新しい方法ODGENを提案する。 ドメイン固有のオブジェクト検出データセットが与えられた場合、まず、抽出した前景オブジェクトと画像全体に対して事前学習した拡散モデルを微調整し、ターゲット分布に適合させる。 そこで本研究では,空間的制約とオブジェクト指向テキスト記述を用いた合成視覚プロンプトを用いて拡散モデルを制御することを提案する。 ODGENは複雑なシーンや特定のドメインを扱う際に堅牢性を示す。 さらに、7つのドメイン固有のベンチマーク上でODGENを評価するためのデータセット合成パイプラインを設計し、その効果を実証する。 ODGENによって生成されたトレーニングデータを追加することで、YOLOv5やYOLOv7のようなオブジェクト検出器で25.3%のmAP@.50:.95が向上し、以前の制御可能な生成方法よりも優れている。 さらに、COCO-2014に基づく評価プロトコルを設計し、一般的なドメインでODGENを検証し、既存のメソッドに対して最大5.6%のmAP@.50:.95の利点を観察する。

Modern diffusion-based image generative models have made significant progress and become promising to enrich training data for the object detection task. However, the generation quality and the controllability for complex scenes containing multi-class objects and dense objects with occlusions remain limited. This paper presents ODGEN, a novel method to generate high-quality images conditioned on bounding boxes, thereby facilitating data synthesis for object detection. Given a domain-specific object detection dataset, we first fine-tune a pre-trained diffusion model on both cropped foreground objects and entire images to fit target distributions. Then we propose to control the diffusion model using synthesized visual prompts with spatial constraints and object-wise textual descriptions. ODGEN exhibits robustness in handling complex scenes and specific domains. Further, we design a dataset synthesis pipeline to evaluate ODGEN on 7 domain-specific benchmarks to demonstrate its effectiveness. Adding training data generated by ODGEN improves up to 25.3% mAP@.50:.95 with object detectors like YOLOv5 and YOLOv7, outperforming prior controllable generative methods. In addition, we design an evaluation protocol based on COCO-2014 to validate ODGEN in general domains and observe an advantage up to 5.6% in mAP@.50:.95 against existing methods.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# 線形帯域に対する指数最小経験的ダイバージェンスに基づくアルゴリズム

Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits ( http://arxiv.org/abs/2405.15200v1 )

ライセンス: Link先を確認
Jie Bian, Vincent Y. F. Tan, (参考訳) Indexed Minimum Empirical Divergence (IMED) アルゴリズムは,マルチアームバンディット問題に対するKL-UCBアルゴリズムと比較して,漸近的最適性の理論的保証が強いアルゴリズムである。 さらに、UCBベースのアルゴリズムとトンプソンサンプリングを経験的に上回ることが観察されている。 その効果にもかかわらず、線形ペイオフを伴う文脈的包帯へのこのアルゴリズムの一般化はいまだ解明されていない。 本稿では,LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの線形バージョンについて述べる。 我々は、LinIMED が $\widetilde{O}(d\sqrt{T})$ upper regret bound を提供することを示した。 さらに、LinIMEDとその変種はLinUCBやLinar Thompson Samplingなど、広く使われている線形バンディットアルゴリズムよりも優れていた。

The Indexed Minimum Empirical Divergence (IMED) algorithm is a highly effective approach that offers a stronger theoretical guarantee of the asymptotic optimality compared to the Kullback--Leibler Upper Confidence Bound (KL-UCB) algorithm for the multi-armed bandit problem. Additionally, it has been observed to empirically outperform UCB-based algorithms and Thompson Sampling. Despite its effectiveness, the generalization of this algorithm to contextual bandits with linear payoffs has remained elusive. In this paper, we present novel linear versions of the IMED algorithm, which we call the family of LinIMED algorithms. We demonstrate that LinIMED provides a $\widetilde{O}(d\sqrt{T})$ upper regret bound where $d$ is the dimension of the context and $T$ is the time horizon. Furthermore, extensive empirical studies reveal that LinIMED and its variants outperform widely-used linear bandit algorithms such as LinUCB and Linear Thompson Sampling in some regimes.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# 大区間における相同性評価の簡易解法

A Simple Solution for Homomorphic Evaluation on Large Intervals ( http://arxiv.org/abs/2405.15201v1 )

ライセンス: Link先を確認
John Chiang, (参考訳) ホモモルフィック暗号化(HE)は、プライバシー保護計算に使用される有望な手法である。 HEスキームはプリミティブ多項式演算のみをサポートするため、非ポリノミカル関数に対する多項式近似の準同型評価は、プライバシ保存機械学習において重要な役割を果たす。 本稿では,リグレッションにニューラルネットワークを用いるという,研究者が過度に無視する可能性のある,任意の関数を近似する簡単な解を提案する。 適切なスーパーパラメータを探索することにより、ニューラルネットワークは所定の関数に対して一定の精度で近似最適計算深度を達成でき、それによって消費される係数を低減できる。 多項式近似の同型評価のためにニューラルネットワークを選択する主な理由は3つある。 まず、多項式活性化関数を持つニューラルネットワークを使用して、暗号化された状態に必要な関数を近似することができる。 これは、Sigmoid や ReLU のような任意の多項式近似に対して、1つの統一過程で計算できることを意味する。 第二に、適切なアーキテクチャを慎重に見つけることで、ニューラルネットワークは近似的乗法深さを用いて多項式を効率的に評価することができる。 最後に、人気のあるツールとして、モデルニューラルネットワークは、私たちのソリューションに便利な、よく研究された多くの技術を持っています。 実験の結果,本手法は様々な関数の近似に利用できることがわかった。 我々はSigmoid関数を大間隔で評価するために, $[-30, +30]$, $[-50, +50]$, $[-70, +70]$をそれぞれ利用した。

Homomorphic encryption (HE) is a promising technique used for privacy-preserving computation. Since HE schemes only support primitive polynomial operations, homomorphic evaluation of polynomial approximations for non-polynomial functions plays an important role in privacy-preserving machine learning. In this paper, we introduce a simple solution to approximating any functions, which might be overmissed by researchers: just using the neural networks for regressions. By searching decent superparameters, neural networks can achieve near-optimal computation depth for a given function with fixed precision, thereby reducing the modulus consumed. There are three main reasons why we choose neural networks for homomorphic evaluation of polynomial approximations. Firstly, neural networks with polynomial activation functions can be used to approximate whatever functions are needed in an encrypted state. This means that we can compute by one unified process for any polynomial approximation, such as that of Sigmoid or of ReLU. Secondly, by carefully finding an appropriate architecture, neural networks can efficiently evaluate a polynomial using near-optimal multiplicative depth, which would consume less modulus and therefore employ less ciphertext refreshing. Finally, as popular tools, model neural networks have many well-studied techniques that can conveniently serve our solution. Experiments showed that our method can be used for approximation of various functions. We exploit our method to the evaluation of the Sigmoid function on large intervals $[-30, +30]$, $[-50, +50]$, and $[-70, +70]$, respectively.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# クロスタスクディフェンス:コンテンツ安全のためのインストラクションチューニングLDM

Cross-Task Defense: Instruction-Tuning LLMs for Content Safety ( http://arxiv.org/abs/2405.15202v1 )

ライセンス: Link先を確認
Yu Fu, Wen Xiao, Jia Chen, Jiachen Li, Evangelos Papalexakis, Aichi Chien, Yue Dong, (参考訳) 近年の研究では、特に要約や翻訳といったNLPタスクの長いテキストを処理する場合、LLM(Large Language Models)は、安全性とユーティリティのバランスをとる上で課題に直面していることが明らかになっている。 悪意のある短い質問に対する防御にもかかわらず、不正行為を教えるマニュアルなど、LLMが危険な長文を安全に扱える能力は、まだ不明である。 本研究の目的は,NLPタスククエリと並行して,悪意のあるドキュメントを処理するLLMの堅牢な防御を開発することである。 安全関連事例からなる防衛データセットを導入し,学習指導のための単一タスクと混合タスクの損失を提案する。 実験の結果, LLM は, 適切な指導調律を施して, 危険なコンテンツを安全に管理する能力を大幅に向上できることが示された。 さらに、誤用に最も影響されるタスクの防御を強化することは、有害な情報の処理からLLMを保護するのに有効である。 また,Llama2 は Llama1 と比較した場合, 実用性と安全性のトレードオフが防衛戦略に存在し, Llama2 はLlama1 よりもはるかに優れたバランスを示す。

Recent studies reveal that Large Language Models (LLMs) face challenges in balancing safety with utility, particularly when processing long texts for NLP tasks like summarization and translation. Despite defenses against malicious short questions, the ability of LLMs to safely handle dangerous long content, such as manuals teaching illicit activities, remains unclear. Our work aims to develop robust defenses for LLMs in processing malicious documents alongside benign NLP task queries. We introduce a defense dataset comprised of safety-related examples and propose single-task and mixed-task losses for instruction tuning. Our empirical results demonstrate that LLMs can significantly enhance their capacity to safely manage dangerous content with appropriate instruction tuning. Additionally, strengthening the defenses of tasks most susceptible to misuse is effective in protecting LLMs against processing harmful information. We also observe that trade-offs between utility and safety exist in defense strategies, where Llama2, utilizing our proposed approach, displays a significantly better balance compared to Llama1.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# 航空ビュー人間検出における合成データの影響を探る

Exploring the Impact of Synthetic Data for Aerial-view Human Detection ( http://arxiv.org/abs/2405.15203v1 )

ライセンス: Link先を確認
Hyungtae Lee, Yan Zhang, Yi-Ting Shen, Heesung Kwon, Shuvra S. Bhattacharyya, (参考訳) 航空ビューの人間検出は、地上ビューの人間検出と比較して、より多様な人間の外見を捉えるため、大規模なデータに対する大きな需要がある。 したがって、合成データはデータを拡張するのに良いリソースとなるが、実世界のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。 ドメインギャップに対処する一般的な解決策として、sim2real変換が使用され、その品質は以下の3つの要因によって影響を受ける。 一 領域ギャップを計算する際に基準となる実データ 二 変換品質の劣化を避けるために選択された合成データ及び 三 合成データが選択された合成データプール 本稿では,これらの要因が学習性能の向上とドメイン一般化能力の獲得の観点から,学習における合成データの有効性の最大化に与える影響について検討する。 第2の利点評価指標として,全テストデータのマハラノビス距離の正規化和として導かれる2つのデータセット間の分布ギャップを測定する手法を提案する。 その結果, 正確な理解が得られず, これまでに研究されていない, あるいは使用されていない重要な発見がいくつか見出された。 これらの発見は、理解の欠如により、直感的に使用するか、あるいは機械学習に合成データを使うことをためらう現在の傾向を破り、将来の研究でより適切な利用につながると期待している。

Aerial-view human detection has a large demand for large-scale data to capture more diverse human appearances compared to ground-view human detection. Therefore, synthetic data can be a good resource to expand data, but the domain gap with real-world data is the biggest obstacle to its use in training. As a common solution to deal with the domain gap, the sim2real transformation is used, and its quality is affected by three factors: i) the real data serving as a reference when calculating the domain gap, ii) the synthetic data chosen to avoid the transformation quality degradation, and iii) the synthetic data pool from which the synthetic data is selected. In this paper, we investigate the impact of these factors on maximizing the effectiveness of synthetic data in training in terms of improving learning performance and acquiring domain generalization ability--two main benefits expected of using synthetic data. As an evaluation metric for the second benefit, we introduce a method for measuring the distribution gap between two datasets, which is derived as the normalized sum of the Mahalanobis distances of all test data. As a result, we have discovered several important findings that have never been investigated or have been used previously without accurate understanding. We expect that these findings can break the current trend of either naively using or being hesitant to use synthetic data in machine learning due to the lack of understanding, leading to more appropriate use in future research.
翻訳日:2024-05-27 18:09:00 公開日:2024-05-24
# Depth-wise Disparable Convolution and Attention Mechanism を用いた大脳皮質MRIの一般化

Enhancing Generalized Fetal Brain MRI Segmentation using A Cascade Network with Depth-wise Separable Convolution and Attention Mechanism ( http://arxiv.org/abs/2405.15205v1 )

ライセンス: Link先を確認
Zhigao Cai, Xing-Ming Zhao, (参考訳) 胎児の脳の自動分節は、胎児の発達の健康状態、運動アーティファクト、および妊娠期の変動によって依然として困難であり、既存の方法は健康な胎児の高品質なデータセットに依存している。 本研究では,胎児脳MRIセグメントの精度と一般化を高めるために,CasUNextと呼ばれる新しいカスケードネットワークを提案する。 CasUNextは、深度的に分離可能な畳み込み、注意機構、そして効率的な高精度セグメンテーションのための2段階のカスケードアーキテクチャを組み込んでいる。 第1のネットワークは胎児の脳領域をローカライズし、第2のネットワークは詳細なセグメンテーションに焦点を当てる。 CasUNextは、PhilipsとSiemensの2つのスキャナー(軸、冠、矢状視)から20~36週間の胎児MRIで評価し、異常胎児50例のデータセットで検証した。 その結果,CasUNext は U-Net や他の最先端手法と比較してセグメンテーション性能が向上していることがわかった。 平均ディース係数は96.1%、結合平均は95.9%である。 CasUNextは、多視点胎児MRIと異常症例の課題に対処する有望な能力を示し、様々な定量的分析を促進し、マルチサイトデータに適用することができる。

Automatic segmentation of the fetal brain is still challenging due to the health state of fetal development, motion artifacts, and variability across gestational ages, since existing methods rely on high-quality datasets of healthy fetuses. In this work, we propose a novel cascade network called CasUNext to enhance the accuracy and generalization of fetal brain MRI segmentation. CasUNext incorporates depth-wise separable convolution, attention mechanisms, and a two-step cascade architecture for efficient high-precision segmentation. The first network localizes the fetal brain region, while the second network focuses on detailed segmentation. We evaluate CasUNext on 150 fetal MRI scans between 20 to 36 weeks from two scanners made by Philips and Siemens including axial, coronal, and sagittal views, and also validated on a dataset of 50 abnormal fetuses. Results demonstrate that CasUNext achieves improved segmentation performance compared to U-Nets and other state-of-the-art approaches. It obtains an average Dice coefficient of 96.1% and mean intersection over union of 95.9% across diverse scenarios. CasUNext shows promising capabilities for handling the challenges of multi-view fetal MRI and abnormal cases, which could facilitate various quantitative analyses and apply to multi-site data.
翻訳日:2024-05-27 17:59:15 公開日:2024-05-24
# 思考速度での復号:LLMの並列復号化

Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs ( http://arxiv.org/abs/2405.15208v1 )

ライセンス: Link先を確認
Chenxi Sun, Hongzhi Zhang, Zijia Lin, Jingyuan Zhang, Fuzheng Zhang, Zhongyuan Wang, Bin Chen, Chengru Song, Di Zhang, Kun Gai, Deyi Xiong, (参考訳) 大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。 しかし、その生成速度はデコードプロセスの本質的にシーケンシャルな性質によって制限され、リアルタイムアプリケーションには課題が生じる。 本稿では、データ駆動方式で実装された新しい復号法であるLexical Unit Decoding (LUD)を導入し、出力品質を犠牲にすることなく復号処理を高速化する。 我々のアプローチの核となるのは、事前学習された言語モデルが複数の連続したトークンを確実に予測し、これらの連続したトークンを並列にデコードできる「textit{lexical unit}」の基礎を形成することである。 拡張実験により,提案手法は生成品質を維持しながらデコード時間を大幅に短縮することを確認した。すなわち,品質損失のない自然言語生成では33\%,コード生成では30\%,品質損失は3\%である。 直感的には、LUDは補助的なモデルを必要としないし、既存のアーキテクチャの変更を必要としない。 他の復号加速法と統合することができ、より顕著な推論効率の向上を達成することができる。 LUDの基本原理は、将来の言語モデルのための新しいデコードパラダイムを定義し、より広い範囲のアプリケーションに適用性を高めることができると仮定する。 すべてのコードはhttps://github.com/tjunlp-lab/Lexical-Unit-Decoding-LUD-で公開されている。 キーワード:並列デコーディング、語彙単位デコーディング、大規模言語モデル

Large language models have demonstrated exceptional capability in natural language understanding and generation. However, their generation speed is limited by the inherently sequential nature of their decoding process, posing challenges for real-time applications. This paper introduces Lexical Unit Decoding (LUD), a novel decoding methodology implemented in a data-driven manner, accelerating the decoding process without sacrificing output quality. The core of our approach is the observation that a pre-trained language model can confidently predict multiple contiguous tokens, forming the basis for a \textit{lexical unit}, in which these contiguous tokens could be decoded in parallel. Extensive experiments validate that our method substantially reduces decoding time while maintaining generation quality, i.e., 33\% speed up on natural language generation with no quality loss, and 30\% speed up on code generation with a negligible quality loss of 3\%. Distinctively, LUD requires no auxiliary models and does not require changes to existing architectures. It can also be integrated with other decoding acceleration methods, thus achieving an even more pronounced inference efficiency boost. We posit that the foundational principles of LUD could define a new decoding paradigm for future language models, enhancing their applicability for a broader spectrum of applications. All codes are be publicly available at https://github.com/tjunlp-lab/Lexical-Unit-Decoding-LUD-. Keywords: Parallel Decoding, Lexical Unit Decoding, Large Language Model
翻訳日:2024-05-27 17:59:15 公開日:2024-05-24
# ニューロモルフィックな空中サーベイランスのための教師なしモーションセグメンテーション

Unsupervised Motion Segmentation for Neuromorphic Aerial Surveillance ( http://arxiv.org/abs/2405.15209v1 )

ライセンス: Link先を確認
Sami Arja, Alexandre Marcireau, Saeed Afshar, Bharath Ramesh, Gregory Cohen, (参考訳) 無線プラットフォーム上でのフレームベースの視覚センサによる最適性能の実現は、帯域幅とレイテンシの根本的なトレードオフのため、大きな課題となる。 生物学的視覚システムからインスピレーションを得たイベントカメラは、例外的な時間分解能、優れたダイナミックレンジ、最小限の電力要求のために、有望な代替手段を提供する。 これらの性質のため、高速な反応を必要とする高速な運動の処理やセグメンテーションに適している。 しかし、イベントベースの動作セグメンテーションの従来の手法では、シーンごとのパラメータチューニングや、良好な結果を得るために手動ラベリングが必要なといった制限に遭遇した。 これらの課題を克服するために,提案手法では,イベントデータと光フロー情報の両方における自己教師型トランスフォーマーの特徴を活用し,人間のアノテーションの必要性を排除し,パラメータチューニング問題を軽減している。 本稿では,都市環境における高ダイナミックな空中プラットフォーム上でHD解像度のイベントカメラを使用する。 複数のデータセットにまたがってフレームワークを広範囲に評価し、既存の作業と比較して最先端のパフォーマンスを実証する。 本手法は,様々な種類の動きと任意の移動物体を効果的に処理できる。 コードとデータセットは: \url{https://samiarja.github.io/evairborne/}

Achieving optimal performance with frame-based vision sensors on aerial platforms poses a significant challenge due to the fundamental tradeoffs between bandwidth and latency. Event cameras, which draw inspiration from biological vision systems, present a promising alternative due to their exceptional temporal resolution, superior dynamic range, and minimal power requirements. Due to these properties, they are well-suited for processing and segmenting fast motions that require rapid reactions. However, previous methods for event-based motion segmentation encountered limitations, such as the need for per-scene parameter tuning or manual labelling to achieve satisfactory results. To overcome these issues, our proposed method leverages features from self-supervised transformers on both event data and optical flow information, eliminating the need for human annotations and reducing the parameter tuning problem. In this paper, we use an event camera with HD resolution onboard a highly dynamic aerial platform in an urban setting. We conduct extensive evaluations of our framework across multiple datasets, demonstrating state-of-the-art performance compared to existing works. Our method can effectively handle various types of motion and an arbitrary number of moving objects. Code and dataset are available at: \url{https://samiarja.github.io/evairborne/}
翻訳日:2024-05-27 17:59:15 公開日:2024-05-24
# PointRWKV:階層型クラウド学習のための効率的なRWKVライクなモデル

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning ( http://arxiv.org/abs/2405.15214v1 )

ライセンス: Link先を確認
Qingdong He, Jiangning Zhang, Jinlong Peng, Haoyang He, Yabiao Wang, Chengjie Wang, (参考訳) トランスフォーマーは、ポイントクラウド学習タスクに革命をもたらしたが、二次的な複雑さは、長いシーケンスへの拡張を妨げ、限られた計算リソースに負担をかける。 新たな深部配列モデルであるRWKVの最近の出現は、NLPタスクにおけるシーケンスモデリングの大きな可能性を示している。 本稿では,NLP分野におけるRWKVモデルから導出される線形複雑度モデルであるPointRWKVについて述べる。 具体的には, 組込み点パッチを入力として, 改良型マルチヘッド行列値状態と動的注意再帰機構を用いて, PointRWKVブロック内のグローバル処理機能について検討する。 局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。 さらに、3Dポイントクラウドの階層的特徴学習のためのマルチスケールフレームワークとしてPointRWKVを設計し、様々な下流タスクを容易にする。 異なる点のクラウド学習タスクに関する大規模な実験により、提案したPointRWKVは、トランスフォーマーおよびマンバベースのものよりも優れており、46\%のFLOPを著しく節約し、基礎的な3Dモデルを構築するための潜在的選択肢を示す。

Transformers have revolutionized the point cloud learning task, but the quadratic complexity hinders its extension to long sequence and makes a burden on limited computational resources. The recent advent of RWKV, a fresh breed of deep sequence models, has shown immense potential for sequence modeling in NLP tasks. In this paper, we present PointRWKV, a model of linear complexity derived from the RWKV model in the NLP field with necessary modifications for point cloud learning tasks. Specifically, taking the embedded point patches as input, we first propose to explore the global processing capabilities within PointRWKV blocks using modified multi-headed matrix-valued states and a dynamic attention recurrence mechanism. To extract local geometric features simultaneously, we design a parallel branch to encode the point cloud efficiently in a fixed radius near-neighbors graph with a graph stabilizer. Furthermore, we design PointRWKV as a multi-scale framework for hierarchical feature learning of 3D point clouds, facilitating various downstream tasks. Extensive experiments on different point cloud learning tasks show our proposed PointRWKV outperforms the transformer- and mamba-based counterparts, while significantly saving about 46\% FLOPs, demonstrating the potential option for constructing foundational 3D models.
翻訳日:2024-05-27 17:59:15 公開日:2024-05-24
# 音声認識のための誤り訂正モデルの限界を押し上げるLM

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition ( http://arxiv.org/abs/2405.15216v1 )

ライセンス: Link先を確認
Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly, (参考訳) 言語モデル(LM)は、長い間、自動音声認識(ASR)システムの結果を改善するために使われてきたが、彼らはASRシステムが犯す誤りに気づいていない。 誤り訂正モデルは、ASRエラーを修正するために設計されているが、主に教師付きトレーニングデータがないため、従来のLMよりもほとんど改善されていない。 本稿では,大量の合成データを用いてトレーニングした$\textit{scaled}$エラー補正モデルであるDenoising LM(DLM)について述べる。 テキスト音声合成システム(TTS)を用いて音声を合成し,ASRシステムに入力して雑音仮説を生成し,元のテキストと組み合わせてDLMを訓練する。 DLM には $\textit{key の要素がいくつかある。 (i) 大規模モデル及びデータ (II)マルチスピーカTSシステムの使用 三 複数の騒音増強策の組合せ (4)新しい復号法。 Transformer-CTC ASRを用いて、DLMは$\textit{test-clean}$で1.5%のワードエラー率(WER)、$\textit{test-other}$で3.3%のWERを達成する。 さらに、単一のDLMは異なるASRに適用でき、従来のALMベースのビームサーチ法の性能を大幅に上回っている。 これらの結果から,適切に検討された誤り訂正モデルは従来のLMを置き換える可能性を秘めており,ASRシステムにおける新たな精度の鍵を握っていることが示唆された。

Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a $\textit{scaled}$ error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several $\textit{key ingredients}$: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on $\textit{test-clean}$ and 3.3% WER on $\textit{test-other}$ on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# NIVeL:テキスト・ツー・ベクター生成のためのニューラルインプリシトベクトル層

NIVeL: Neural Implicit Vector Layers for Text-to-Vector Generation ( http://arxiv.org/abs/2405.15217v1 )

ライセンス: Link先を確認
Vikas Thamizharasan, Difan Liu, Matthew Fisher, Nanxuan Zhao, Evangelos Kalogerakis, Michal Lukac, (参考訳) 2次元ラスタ画像上のリッチなデータ分布を表現する拡散モデルが成功し、ベクトルグラフィックスなどの他のデータ表現に拡張する研究が進められた。 残念ながら、その変動構造とベクトルトレーニングデータの不足のため、この領域に拡散モデルを直接適用することは難しい問題である。 SDS(Score Distillation Sampling)による最適化のような回避策は、ベクトル表現が直接最適化するのは簡単ではなく、冗長な形や自己交差的な形のような不確実な幾何学をもたらす傾向があるため、難易度も高い。 NIVeLは、ベクトルグラフィックスの望ましい特性(主に表現の空間性と分解独立性)を保存した代替の中間領域で問題を再解釈することで、これらの課題に対処する。 この代替ドメインは、分解可能で編集可能なレイヤのセットで表現される神経暗黙のフィールドに基づいている。 実験の結果,NIVeL はテキストからベクターまでのグラフィクスの結果を,最先端のグラフィクスよりもはるかに高い品質で生成した。

The success of denoising diffusion models in representing rich data distributions over 2D raster images has prompted research on extending them to other data representations, such as vector graphics. Unfortunately due to their variable structure and scarcity of vector training data, directly applying diffusion models on this domain remains a challenging problem. Using workarounds like optimization via Score Distillation Sampling (SDS) is also fraught with difficulty, as vector representations are non trivial to directly optimize and tend to result in implausible geometries such as redundant or self-intersecting shapes. NIVeL addresses these challenges by reinterpreting the problem on an alternative, intermediate domain which preserves the desirable properties of vector graphics -- mainly sparsity of representation and resolution-independence. This alternative domain is based on neural implicit fields expressed in a set of decomposable, editable layers. Based on our experiments, NIVeL produces text-to-vector graphics results of significantly better quality than the state-of-the-art.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# AGS-GNN: グラフニューラルネットワークのための属性誘導サンプリング

AGS-GNN: Attribute-guided Sampling for Graph Neural Networks ( http://arxiv.org/abs/2405.15218v1 )

ライセンス: Link先を確認
Siddhartha Shankar Das, S M Ferdous, Mahantesh M Halappanavar, Edoardo Serra, Alex Pothen, (参考訳) AGS-GNNはグラフのノードの特徴と接続構造を利用して、グラフ内のホモフィリーとヘテロフィリーの両方に同時に適応する新しい属性誘導サンプリングアルゴリズムである。 (同型グラフでは、同型の頂点はより連結になり、異なるクラスの頂点は異型グラフでリンクされる傾向にある)。 GNNはホモフィルグラフにうまく適用されているが、ヘテロフィルグラフへの応用はいまだに困難である。 異種グラフの最適性能GNNはサンプリングパラダイムに適合せず、高い計算コストを被り、帰納的ではない。 特徴相似性と特徴多様性に基づくサンプルをノードの隣人のサブセット選択に使用し、二重チャネルを用いて同好および異好の近隣からの情報を適応的に取得する。 現在、AGS-GNNは、類似した多様な近傍サンプルを通してサンプリングされた部分グラフのホモフィリーを明示的に制御している唯一のアルゴリズムである。 多様な地域サンプリングのためには, 作業前にこの文脈では使われなかった部分モジュラリティを採用する。 サンプリング分布は事前計算され、非常に並列であり、所望のスケーラビリティを実現する。 AGS-GNNは35の小さな(100Kノード)と大きな(>100Kノード)ホモ親和性グラフとヘテロ親和性グラフからなる広範囲なデータセットを用いて、文献における現在のアプローチと比較して優位性を示す。 AGS-GNNは、ノード分類のためのグラフ全体を用いて、最も優れたヘテロ親和性GNNに匹敵するテスト精度を達成している。 AGS-GNNは、ランダムに近傍をサンプリングする手法よりも早く収束し、ノードサンプリングやグラフサンプリングを用いる既存のGNNモデルに組み込むことができる。

We propose AGS-GNN, a novel attribute-guided sampling algorithm for Graph Neural Networks (GNNs) that exploits node features and connectivity structure of a graph while simultaneously adapting for both homophily and heterophily in graphs. (In homophilic graphs vertices of the same class are more likely to be connected, and vertices of different classes tend to be linked in heterophilic graphs.) While GNNs have been successfully applied to homophilic graphs, their application to heterophilic graphs remains challenging. The best-performing GNNs for heterophilic graphs do not fit the sampling paradigm, suffer high computational costs, and are not inductive. We employ samplers based on feature-similarity and feature-diversity to select subsets of neighbors for a node, and adaptively capture information from homophilic and heterophilic neighborhoods using dual channels. Currently, AGS-GNN is the only algorithm that we know of that explicitly controls homophily in the sampled subgraph through similar and diverse neighborhood samples. For diverse neighborhood sampling, we employ submodularity, which was not used in this context prior to our work. The sampling distribution is pre-computed and highly parallel, achieving the desired scalability. Using an extensive dataset consisting of 35 small ($\le$ 100K nodes) and large (>100K nodes) homophilic and heterophilic graphs, we demonstrate the superiority of AGS-GNN compare to the current approaches in the literature. AGS-GNN achieves comparable test accuracy to the best-performing heterophilic GNNs, even outperforming methods using the entire graph for node classification. AGS-GNN also converges faster compared to methods that sample neighborhoods randomly, and can be incorporated into existing GNN models that employ node or graph sampling.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# 未知物体を利用したゼロショットオブジェクトナビゲーションのためのラベル付きメタ関係の構築

Leveraging Unknown Objects to Construct Labeled-Unlabeled Meta-Relationships for Zero-Shot Object Navigation ( http://arxiv.org/abs/2405.15222v1 )

ライセンス: Link先を確認
Yanwei Zheng, Changrui Li, Chuanlin Lan, Yaling Li, Xiao Zhang, Yifei Zou, Dongxiao Yu, Zhipeng Cai, (参考訳) ゼロショットオブジェクトナビゲーション(ZSON)は、エージェントがトレーニングセットに存在しない未確認オブジェクトにナビゲートする状況に対処する。 これまでの作業は主に、既知のラベルで見たオブジェクトを使用してエージェントをトレーニングし、ラベルなしで見たオブジェクトを無視する。 本稿では,これまで見過ごされていた情報を用いてエージェントの知識基盤を充実させる訓練手順において,ラベルのない物体を「未知の物体」と呼ぶ。 さらに,ラベルのないオブジェクト間の関係を利用して,拡張オブジェクト情報を得るLWMCMを提案する。 具体的には、未ラベルのターゲットオブジェクトの特徴表現を生成するためのターゲット特徴生成器(TFG)を提案する。 その後、未ラベル対象識別子(UOI)モジュールは、カメラがキャプチャした現在の観測フレームに未ラベル対象オブジェクトが現れるかどうかを評価し、観察コンテキストに特有の適応されたターゲット特徴表現を生成する。 メタコントラスト特徴変調器(MCFM)では、対象の特徴は観測フレーム内の物体の特徴に近づきながら、観測対象の物体の特徴から遠ざかる。 最後に、メタオブジェクトグラフ学習器(MOGL)モジュールを用いて、特徴量に基づいてオブジェクト間の関係を計算する。 提案手法の有効性をAI2THORとRobothorプラットフォームで実証した。

Zero-shot object navigation (ZSON) addresses situation where an agent navigates to an unseen object that does not present in the training set. Previous works mainly train agent using seen objects with known labels, and ignore the seen objects without labels. In this paper, we introduce seen objects without labels, herein termed as ``unknown objects'', into training procedure to enrich the agent's knowledge base with distinguishable but previously overlooked information. Furthermore, we propose the label-wise meta-correlation module (LWMCM) to harness relationships among objects with and without labels, and obtain enhanced objects information. Specially, we propose target feature generator (TFG) to generate the features representation of the unlabeled target objects. Subsequently, the unlabeled object identifier (UOI) module assesses whether the unlabeled target object appears in the current observation frame captured by the camera and produces an adapted target features representation specific to the observed context. In meta contrastive feature modifier (MCFM), the target features is modified via approaching the features of objects within the observation frame while distancing itself from features of unobserved objects. Finally, the meta object-graph learner (MOGL) module is utilized to calculate the relationships among objects based on the features. Experiments conducted on AI2THOR and RoboTHOR platforms demonstrate the effectiveness of our proposed method.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# iVideoGPT:インタラクティブビデオGPTはスケーラブルな世界モデル

iVideoGPT: Interactive VideoGPTs are Scalable World Models ( http://arxiv.org/abs/2405.15223v1 )

ライセンス: Link先を確認
Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long, (参考訳) 世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。 しかし、対話性に対する高い需要は、大規模に世界モデルを開発するためのビデオ生成モデルの最近の進歩を活用する上での課題となっている。 この研究は、対話型ビデオGPT(iVideoGPT)を導入し、マルチモーダル信号(視覚的観察、アクション、報酬)を統合するスケーラブルな自動回帰変換フレームワークである。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。 スケーラブルなアーキテクチャを活用することで、何百万もの人間やロボットによる操作の軌道上でiVideoGPTを事前訓練することが可能になります。 アクション条件付きビデオ予測、ビジュアルプランニング、モデルに基づく強化学習などが含まれており、iVideoGPTは最先端の手法と比較して競争性能が向上している。 我々の研究は、インタラクティブな汎用世界モデルの開発を進め、生成ビデオモデルと実践的なモデルベース強化学習アプリケーションとのギャップを埋める。

World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals--visual observations, actions, and rewards--into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# 単一ソース領域一般化オブジェクト検出のための非バイアス高速R-CNN

Unbiased Faster R-CNN for Single-source Domain Generalized Object Detection ( http://arxiv.org/abs/2405.15225v1 )

ライセンス: Link先を確認
Yajing Liu, Shijun Zhou, Xiyao Liu, Chunhui Hao, Baojie Fan, Jiandong Tian, (参考訳) オブジェクト検出のための単一ソース領域一般化(SDG)は、未確認領域の分布バイアスがアルゴリズム性能を著しく低下させるため、難しいが必須課題である。 しかし、既存の手法では、バイアス付きデータがネットワークに非因果的で一般化不可能なバイアス付き特徴を学習させるのを無視して、ドメイン不変の特徴を抽出しようと試みている。 この目的のために,Unbiased Faster R-CNN (UFR) を提案する。 具体的には、因果的観点からのオブジェクト検出においてSDGを定式化し、そのタスクにおけるデータバイアスと特徴バイアスを分析する構造因果モデル(Structure Causal Model, SCM)を構築する。 SCMに基づいて,データ拡張のためのグローバルローカル変換モジュールを設計し,ドメインの多様性を効果的にシミュレートし,データのバイアスを軽減する。 さらに,シーン共同創設者にとって堅牢な画像レベルの特徴を学習するために,デザインされた注意不分散損失を取り入れた因果注意学習モジュールを導入する。 さらに,明示的なインスタンス制約と暗黙的なプロトタイプ制約を備えたCausal Prototype Learningモジュールを開発した。 5つの場面における実験結果から,本手法の顕著な一般化能力が示され,ナイトクリアシーンでは3.9%のmAPが向上した。

Single-source domain generalization (SDG) for object detection is a challenging yet essential task as the distribution bias of the unseen domain degrades the algorithm performance significantly. However, existing methods attempt to extract domain-invariant features, neglecting that the biased data leads the network to learn biased features that are non-causal and poorly generalizable. To this end, we propose an Unbiased Faster R-CNN (UFR) for generalizable feature learning. Specifically, we formulate SDG in object detection from a causal perspective and construct a Structural Causal Model (SCM) to analyze the data bias and feature bias in the task, which are caused by scene confounders and object attribute confounders. Based on the SCM, we design a Global-Local Transformation module for data augmentation, which effectively simulates domain diversity and mitigates the data bias. Additionally, we introduce a Causal Attention Learning module that incorporates a designed attention invariance loss to learn image-level features that are robust to scene confounders. Moreover, we develop a Causal Prototype Learning module with an explicit instance constraint and an implicit prototype constraint, which further alleviates the negative impact of object attribute confounders. Experimental results on five scenes demonstrate the prominent generalization ability of our method, with an improvement of 3.9% mAP on the Night-Clear scene.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# マルチモーダル・プロンプト検索による真偽ラベルからの学習

Learning from True-False Labels via Multi-modal Prompt Retrieving ( http://arxiv.org/abs/2405.15228v1 )

ライセンス: Link先を確認
Zhongnian Li, Jinghao Xu, Peng Ying, Meng Wei, Tongfeng Sun, Xinzheng Xu, (参考訳) 弱教師付き学習は近年,アノテーションコストの低減とラベルノイズの低減に成功している。 残念ながら、既存の弱教師付き学習手法は、事前訓練された視覚言語モデル(VLM)を介して信頼できるラベルを生成する能力に欠ける。 本稿では,VLMの生成時に高い精度を達成できる,弱い教師付きラベル設定,すなわちTrue-False Labels (TFL)を提案する。 TFLは、あるインスタンスがラベルに属するかどうかを示し、候補ラベルセットからランダムに均一にサンプリングされる。 具体的には、TFLの条件付き確率分布情報を探索し、利用するためのリスク一貫性推定器を理論的に導出する。 さらに,VLMの知識と目標学習タスクのギャップを埋めるために,畳み込み型マルチモーダル・プロンプト検索(MRP)手法を提案する。 実験の結果,提案したTFL設定法とMPP学習法の有効性が示された。 実験を再現するコードはhttps://github.com/Tranquilxu/TMPにある。

Weakly supervised learning has recently achieved considerable success in reducing annotation costs and label noise. Unfortunately, existing weakly supervised learning methods are short of ability in generating reliable labels via pre-trained vision-language models (VLMs). In this paper, we propose a novel weakly supervised labeling setting, namely True-False Labels (TFLs) which can achieve high accuracy when generated by VLMs. The TFL indicates whether an instance belongs to the label, which is randomly and uniformly sampled from the candidate label set. Specifically, we theoretically derive a risk-consistent estimator to explore and utilize the conditional probability distribution information of TFLs. Besides, we propose a convolutional-based Multi-modal Prompt Retrieving (MRP) method to bridge the gap between the knowledge of VLMs and target learning tasks. Experimental results demonstrate the effectiveness of the proposed TFL setting and MRP learning method. The code to reproduce the experiments is at https://github.com/Tranquilxu/TMP.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# $i$REPO: $i$mplicit Reward Pairwise difference based Empirical Preference Optimization

$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization ( http://arxiv.org/abs/2405.15230v1 )

ライセンス: Link先を確認
Long Tan Le, Han Shu, Tung-Anh Nguyen, Choong Seon Hong, Nguyen H. Tran, (参考訳) 驚くべきことに、大きな言語モデル(LLM)は、人間の期待から外れたアウトプットを生成することがある。 このような偏差は、不合理、毒性、偏見のある情報の拡散を防ぐためにアライメントフェーズを必要とする。 強化学習に基づく従来のアライメント手法は、特定された不安定性に悩まされることが多いが、優先最適化手法は、事前コンパイルされたハードラベルデータセットに過度に適合することによって制限される。 本稿では,経験的優先度最適化に暗黙の逆対差回帰を利用する,$i$REPOという新しいLCMアライメントフレームワークを提案する。 特に$i$REPOは、経験的人間(またはAIアノテータ)によってラベル付けされた自己生成データセットを使用して、新しい回帰ベースの損失関数を通じて、整合したポリシーを反復的に洗練する。 さらに、理想的な仮定の下で最適な結果を得るための理論的保証と、そのような仮定を伴わない実用的な性能向上結果を提供することによって、革新的なアルゴリズムを導入する。 Phi-2 と Mistral-7B による実験の結果、$i$REPO はソフトラベルの自己生成応答と経験的AIアノテータのロジットを用いて効果的に自己アライメントを実現することが示された。 さらに,Language Model Evaluation HarnessとMulti-turnベンチマークを用いた評価において,好みの最適化基準を超越した手法を提案する。

While astonishingly capable, large Language Models (LLM) can sometimes produce outputs that deviate from human expectations. Such deviations necessitate an alignment phase to prevent disseminating untruthful, toxic, or biased information. Traditional alignment methods based on reinforcement learning often struggle with the identified instability, whereas preference optimization methods are limited by their overfitting to pre-collected hard-label datasets. In this paper, we propose a novel LLM alignment framework named $i$REPO, which utilizes implicit Reward pairwise difference regression for Empirical Preference Optimization. Particularly, $i$REPO employs self-generated datasets labelled by empirical human (or AI annotator) preference to iteratively refine the aligned policy through a novel regression-based loss function. Furthermore, we introduce an innovative algorithm backed by theoretical guarantees for achieving optimal results under ideal assumptions and providing a practical performance-gap result without such assumptions. Experimental results with Phi-2 and Mistral-7B demonstrate that $i$REPO effectively achieves self-alignment using soft-label, self-generated responses and the logit of empirical AI annotators. Furthermore, our approach surpasses preference optimization baselines in evaluations using the Language Model Evaluation Harness and Multi-turn benchmarks.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# ハイパーリレーショナル知識グラフによる心性評価

Cardinality Estimation on Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2405.15231v1 )

ライセンス: Link先を確認
Fei Teng, Haoyang Li, Shimin Di, Lei Chen, (参考訳) クエリーのカーディナリティ推定(CE)は、クエリー最適化において有効な指標である実行せずに結果の数を推定することである。 近年,CE over は三つの事実からなる知識グラフ (KG) において大きな成功を収めている。 事実をより正確に表現するために、現在の研究者は、3つの事実を修飾子で表すための超相対的KG(英語版)(HKG)を提案している。 しかし、既存のKG上のCE法は、HKGにおける等化子の複雑さのため、HKGに対して不満足な性能を達成する。 また、HKGクエリの濃度推定のためのデータセットは1つしかない(WD50K-QE)。 HKG上のクエリセットの欠如も、HKG上のCE問題を包括的に調査するボトルネックとなっている。 そこで本研究では,CEを調査するための3つの一般的なHKGに対して,多種多様かつ偏りのないハイパーリレーショナルクエリセットを構築した。 また,複数のGNN層からの出力を適応的に結合し,その濃度を正確に予測する特徴量付きグラフニューラルネットワーク(GNN)モデルを提案する。 提案するハイパーリレーショナルクエリエンコーダは,多種多様で偏りのないベンチマークにおいて,3つの一般的なHKGに対して,最先端のCE手法よりも優れた性能を示すことを示す。

Cardinality Estimation (CE) for query is to estimate the number of results without execution, which is an effective index in query optimization. Recently, CE over has achieved great success in knowledge graphs (KGs) that consist of triple facts. To more precisely represent facts, current researchers propose hyper-relational KGs (HKGs) to represent a triple fact with qualifiers, where qualifiers provide additional context to the fact. However, existing CE methods over KGs achieve unsatisfying performance on HKGs due to the complexity of qualifiers in HKGs. Also, there is only one dataset for HKG query cardinality estimation, i.e., WD50K-QE, which is not comprehensive and only covers limited patterns. The lack of querysets over HKG also becomes a bottleneck to comprehensively investigate CE problems on HKGs. In this work, we first construct diverse and unbiased hyper-relational querysets over three popular HKGs for investigating CE. Besides, we also propose a novel qualifier-attached graph neural network (GNN) model that effectively incorporates qualifier information and adaptively combines outputs from multiple GNN layers, to accurately predict the cardinality. Our experiments illustrate that the proposed hyper-relational query encoder outperforms all state-of-the-art CE methods over three popular HKGs on the diverse and unbiased benchmark.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# DEEM:画像知覚のための大規模言語モデルとしての拡散モデル

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception ( http://arxiv.org/abs/2405.15232v1 )

ライセンス: Link先を確認
Run Luo, Yunshui Li, Longze Chen, Wanwei He, Ting-En Lin, Ziqiang Liu, Lei Zhang, Zikai Song, Xiaobo Xia, Tongliang Liu, Min Yang, Binyuan Hui, (参考訳) 大規模言語モデル(LLM)の開発は、大規模マルチモーダルモデル(LMM)の出現を著しく前進させた。 LMMはマルチモーダル理解と創造の相乗効果を促進することで大きな成功を収めてきたが、アウト・オブ・ディストリビューションデータに直面すると、しばしば課題に直面している。 これは主に、タスク関連機能に画像をエンコードするように訓練されたイメージエンコーダに依存しているためであり、それらが無関係な詳細を無視する可能性がある。 拡散モデルは、画像知覚のための大きな言語モデルの目として機能するのか? 本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。 これにより、ViTのような画像エンコーダにのみ依存する従来の手法の欠点に対処し、配布外サンプルに対するモデルのレジリエンスを高め、視覚幻覚を減らすことができる。 重要なのは、追加のトレーニングモジュールを必要とせず、トレーニングパラメータが少なくなることだ。 我々は、新たに構築したRobostVQAベンチマークと、オブジェクト幻覚のための他のよく知られたベンチマークPOPEの両方において、DeEMを広範囲に評価した。 最先端のインターリーブドコンテンツ生成モデルと比較して、DEMは、トレーニング可能なパラメータを少なくし、事前学習データ(10%)を少なくし、ベースモデルサイズを小さくしながら、モデル幻覚を緩和する、堅牢性と優れた能力を示す。

The development of large language models (LLMs) has significantly advanced the emergence of large multimodal models (LMMs). While LMMs have achieved tremendous success by promoting the synergy between multimodal comprehension and creation, they often face challenges when confronted with out-of-distribution data. This is primarily due to their reliance on image encoders trained to encode images into task-relevant features, which may lead them to disregard irrelevant details. Delving into the modeling capabilities of diffusion models for images naturally prompts the question: Can diffusion models serve as the eyes of large language models for image perception? In this paper, we propose DEEM, a simple and effective approach that utilizes the generative feedback of diffusion models to align the semantic distributions of the image encoder. This addresses the drawbacks of previous methods that solely relied on image encoders like ViT, thereby enhancing the model's resilience against out-of-distribution samples and reducing visual hallucinations. Importantly, this is achieved without requiring additional training modules and with fewer training parameters. We extensively evaluated DEEM on both our newly constructed RobustVQA benchmark and another well-known benchmark, POPE, for object hallucination. Compared to the state-of-the-art interleaved content generation models, DEEM exhibits enhanced robustness and a superior capacity to alleviate model hallucinations while utilizing fewer trainable parameters, less pre-training data (10%), and a smaller base model size.
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# 拡散モデルにおけるロバスト概念消去のための逆学習による防御的アンラーニング

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models ( http://arxiv.org/abs/2405.15234v1 )

ライセンス: Link先を確認
Yimeng Zhang, Xin Chen, Jinghan Jia, Yihua Zhang, Chongyu Fan, Jiancheng Liu, Mingyi Hong, Ke Ding, Sijia Liu, (参考訳) 拡散モデル(DM)は、テキスト・画像生成において顕著な成功を収めてきたが、有害なコンテンツの発生や著作権侵害など、安全性のリスクも生じている。 マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。 しかし、これらの手法は敵の迅速な攻撃に弱いままであり、DMが学習後に、削除を意図した概念(ヌードなど)を含む望ましくないイメージを再生するように促すことができる。 この研究は、敵対的トレーニング(AT)の原則を機械学習に統合することにより、概念消去の堅牢性を高めることを目的としており、その結果、AdvUnlearnと呼ばれる堅牢なアンラーニングフレームワークが実現される。 しかし、これを効果的に効果的に達成することは、非常に非自明である。 まず,ATの簡単な実装によって,画像生成の質を損なうことが判明した。 そこで我々は,AdvUnlearnにおける概念消去ロバスト性とモデルユーティリティとのトレードオフを最適化し,余剰集合に対する実用性保持型正規化を開発する。 さらに,テキストエンコーダをUNetよりも堅牢化に適したモジュールとして同定し,未学習の有効性を保証する。 また、取得したテキストエンコーダは、様々なDMタイプに対して、プラグアンドプレイの堅牢なアンラーナーとして機能する。 経験的に、我々は様々なDM未学習シナリオにおけるAdvUnlearnの堅牢性優位性を示すために、ヌード、オブジェクト、スタイルの概念の消去を含む広範な実験を行った。 堅牢性に加えて、AdvUnlearnはモデルユーティリティとのバランスの取れたトレードオフも達成している。 我々の知る限りでは、これはATを通して堅牢なDMアンラーニングを体系的に探求する最初の試みであり、概念消去の堅牢性を見落としている既存の方法とは別物である。 https://github.com/OPTML-Group/AdvUnlearn

Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs' image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn
翻訳日:2024-05-27 17:59:14 公開日:2024-05-24
# パウリチェックによる量子ネットワーク内のエラー検出

Detecting Errors in a Quantum Network with Pauli Checks ( http://arxiv.org/abs/2405.15236v1 )

ライセンス: Link先を確認
Alvin Gonzales, Daniel Dilley, Bikun Li, Liang Jiang, Zain Saleem, (参考訳) 量子エラー検出方式であるPauli check sandwiching (PCS) を分散マルチパーティプロトコルにすることで量子ネットワークに適用する。 PCSは距離1のコードであり、標準的な量子エラー補正や検出方法よりもリソースオーバーヘッドが少ない。 最終的な忠実度とポストセレクション率の分析式を提供する。 また,再帰数の関数として必要となる資源を多項式的に拡張するエンタングルメント浄化用PCSの再帰版も導入する。 再帰的PCSスキームは距離2量子符号の族を生成する。 解析結果はBBPSSWと同等のシナリオで比較される。 また, エンタングルメントスワップのためのノイズゲートを用いたシミュレーションを行い, 高精度な忠実度向上を実現した。 最後に,PCSの各種設定とグラフ状態特性について論じる。

We apply the quantum error detection scheme Pauli check sandwiching (PCS) to quantum networks by turning it into a distributed multiparty protocol. PCS is a distance 1 code and requires less resource overhead than standard quantum error correction and detection methods. We provide analytical equations for the final fidelity and postselection rate. We also introduce a recursive version of PCS for entanglement purification that only scales polynomially in the resources required as a function of the number of recursions. The recursive PCS scheme generates a family of distance 2 quantum codes. Our analytical results are benchmarked against BBPSSW in comparable scenarios. We also perform simulations with noisy gates for entanglement swapping and attain substantial fidelity improvements. Lastly, we discuss various setups and graph state properties of PCS.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# ランダムな変位をもつ量子情報に対するボソニックモードのベンチマーク

Benchmarking bosonic modes for quantum information with randomized displacements ( http://arxiv.org/abs/2405.15237v1 )

ライセンス: Link先を確認
Christophe H. Valahu, Tomas Navickas, Michael J. Biercuk, Ting Rei Tan, (参考訳) ボソニックモードは量子情報処理のあらゆる面において一般的である。 しかし、特に駆動環境では、ボソニックモードの品質、安定性、ノイズ特性を特徴付ける既存のツールが限られている。 本稿では,位相空間におけるボソニックモードのランダムな変位を利用したボソニックランダム化ベンチマーク(BRB)プロトコルを提案する。 位相空間におけるランダムな変位軌跡上の結果の分布に及ぼす, 加熱や劣化などの一般的な分析誤差モデルの影響について検討する。 ガンマ分布として記述可能なこの分布の平均と分散の特異な挙動を解析することにより、誤差過程の同定が可能であり、最小限の測定値を用いて誤差率と相関の定量的抽出が可能であることを示す。 捕捉されたイオン系の運動モードに工学的ノイズを注入し,ボソニックなランダム化ベンチマークプロトコルを用いて解析モデルを実験的に検証し,実験と理論の整合性を示す。 最後に,本システムにおける固有誤差特性について検討し,高相関雑音の存在を支配的過程として同定した。

Bosonic modes are prevalent in all aspects of quantum information processing. However, existing tools for characterizing the quality, stability, and noise properties of bosonic modes are limited, especially in a driven setting. Here, we propose, demonstrate, and analyze a bosonic randomized benchmarking (BRB) protocol that uses randomized displacements of the bosonic modes in phase space to determine their quality. We investigate the impact of common analytic error models, such as heating and dephasing, on the distribution of outcomes over randomized displacement trajectories in phase space. We show that analyzing the distinctive behavior of the mean and variance of this distribution - describable as a gamma distribution - enables identification of error processes, and quantitative extraction of error rates and correlations using a minimal number of measurements. We experimentally validate the analytical models by injecting engineered noise into the motional mode of a trapped ion system and performing the bosonic randomized benchmarking protocol, showing good agreement between experiment and theory. Finally, we investigate the intrinsic error properties in our system, identifying the presence of highly correlated dephasing noise as the dominant process.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# クロスモーダル3Dジェネレーションによる人間の視覚障害の診断の自動化

Automating the Diagnosis of Human Vision Disorders by Cross-modal 3D Generation ( http://arxiv.org/abs/2405.15239v1 )

ライセンス: Link先を確認
Li Zhang, Yuankun Yang, Ziyang Xie, Zhiyuan Yuan, Jianfeng Feng, Xiatian Zhu, Yu-Gang Jiang, (参考訳) 人間の視覚知覚の背後にある隠されたメカニズムを理解することは、神経科学の基本的な探求であり、様々な重要な応用、例えば臨床診断の基盤となっている。 そのために、機能的磁気共鳴イメージング(fMRI)のような人間の心活動の神経反応を調べることは、重要な研究車両である。 しかし、fMRI信号の解析は困難であり、コストがかかり、おそろしく、専門的な訓練を必要としている。 人工知能(AI)に基づくfMRI分析の顕著な進歩にもかかわらず、既存のソリューションは限定的で、臨床的に意味のあるものではない。 この文脈では、fMRIを視覚的に可視な3Dヴィジュアライズにデコードすることで、医療専門家がいなくても、fMRIデータの自動臨床分析を可能にすることで、AIが現在の最先端を超えることができることを実証する。 本研究では,fMRIデータを条件付き3次元シーン再構成問題として解析するタスクを再構築する。 本研究では,2Dオブジェクトイメージを提示した被験者のfMRIデータを入力として入力し,対応する3Dオブジェクトの視覚を出力する,新たな3Dシーン表現学習手法であるBrain3Dを設計する。 重要なことは、私たちのAIエージェントが人間の視覚システムの各領域の異なる機能と、それらの複雑な相互作用関係をシミュレートしたシナリオで捉え、神経科学の確立した発見と著しく一致していることである。 非専門的診断は、脳3Dが人間の視覚系内のV1、V2、V3、V4、中間側頭葉(MTL)などの障害のある脳領域を正常に識別できることを示している。 また、3次元シーン生成の知覚品質を示す3次元視覚構成のクロスモーダルな設定の結果も提示する。

Understanding the hidden mechanisms behind human's visual perception is a fundamental quest in neuroscience, underpins a wide variety of critical applications, e.g. clinical diagnosis. To that end, investigating into the neural responses of human mind activities, such as functional Magnetic Resonance Imaging (fMRI), has been a significant research vehicle. However, analyzing fMRI signals is challenging, costly, daunting, and demanding for professional training. Despite remarkable progress in artificial intelligence (AI) based fMRI analysis, existing solutions are limited and far away from being clinically meaningful. In this context, we leap forward to demonstrate how AI can go beyond the current state of the art by decoding fMRI into visually plausible 3D visuals, enabling automatic clinical analysis of fMRI data, even without healthcare professionals. Innovationally, we reformulate the task of analyzing fMRI data as a conditional 3D scene reconstruction problem. We design a novel cross-modal 3D scene representation learning method, Brain3D, that takes as input the fMRI data of a subject who was presented with a 2D object image, and yields as output the corresponding 3D object visuals. Importantly, we show that in simulated scenarios our AI agent captures the distinct functionalities of each region of human vision system as well as their intricate interplay relationships, aligning remarkably with the established discoveries of neuroscience. Non-expert diagnosis indicate that Brain3D can successfully identify the disordered brain regions, such as V1, V2, V3, V4, and the medial temporal lobe (MTL) within the human visual system. We also present results in cross-modal 3D visual construction setting, showcasing the perception quality of our 3D scene generation.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# 現実世界のデバイアス化に向けて:スプーラス相関のきめ細かい分析

Towards Real World Debiasing: A Fine-grained Analysis On Spurious Correlation ( http://arxiv.org/abs/2405.15240v1 )

ライセンス: Link先を確認
Zhibo Wang, Peng Kuang, Zhixuan Chu, Jingyi Wang, Kui Ren, (参考訳) トレーニングデータの鮮やかな相関は、実世界のシナリオにおける分散シフトに直面した場合、機械学習モデルの一般化能力を著しく損なう。 この問題に対処するため、多くのデバイアスアプローチが提案され、重度のバイアスで意図的に設計されたデータセット上でベンチマークされている。 ただし、質問は以下の通りである。 既存のベンチマークは実際に現実世界のバイアスを捉えていますか? 2。 既存のデバイアス法は現実世界のバイアスを扱えるか? 既存のベンチマークと実世界のデータセットのバイアス分布を再検討し、バイアスの大きさと頻度に分解してデータセットバイアスを分析するためのきめ細かいフレームワークを提案する。 既存のベンチマークが現実世界のバイアスを十分に表していないことを観察し、理論的に実証する。 さらに、このギャップを埋めるために、2つの新しいバイアス分布を導入し、現実世界のデバイアスに対するニュアンス評価フレームワークを構築します。 これらの結果に基づいて,既存のデバイアス法を評価枠組みを用いて評価する。 その結果,既存の手法では現実のバイアスを扱えないことがわかった。 そこで本研究では,Debias in Destruction (DiD) という,既存のデバイアス法に容易に適用可能な,シンプルかつ効果的な手法を提案する。 実験により,提案した評価フレームワーク内のすべての種類のバイアスに対する既存手法の性能を向上し,DiDの優位性を実証した。

Spurious correlations in training data significantly hinder the generalization capability of machine learning models when faced with distribution shifts in real-world scenarios. To tackle the problem, numerous debias approaches have been proposed and benchmarked on datasets intentionally designed with severe biases. However, it remains to be asked: \textit{1. Do existing benchmarks really capture biases in the real world? 2. Can existing debias methods handle biases in the real world?} To answer the questions, we revisit biased distributions in existing benchmarks and real-world datasets, and propose a fine-grained framework for analyzing dataset bias by disentangling it into the magnitude and prevalence of bias. We observe and theoretically demonstrate that existing benchmarks poorly represent real-world biases. We further introduce two novel biased distributions to bridge this gap, forming a nuanced evaluation framework for real-world debiasing. Building upon these results, we evaluate existing debias methods with our evaluation framework. Results show that existing methods are incapable of handling real-world biases. Through in-depth analysis, we propose a simple yet effective approach that can be easily applied to existing debias methods, named Debias in Destruction (DiD). Empirical results demonstrate the superiority of DiD, improving the performance of existing methods on all types of biases within the proposed evaluation framework.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# Blaze3DM:3次元医用逆問題解法における拡散型三面体表現

Blaze3DM: Marry Triplane Representation with Diffusion for 3D Medical Inverse Problem Solving ( http://arxiv.org/abs/2405.15241v1 )

ライセンス: Link先を確認
Jia He, Bonan Li, Ge Yang, Ziwen Liu, (参考訳) 現代の医療分野では,画像修復や再構成といった3次元医療の逆問題の解決が不可欠である。 しかし、3D医療データにおける次元性の呪いは、高資源消費に苦しむ主流のボリュームワイド手法を導き、自然分布をうまく捉えるためにモデルに挑戦し、必然的なボリューム不整合とアーティファクトをもたらす。 いくつかの最近の研究は、潜伏空間における生成を単純化しようとするが、複雑な画像の詳細を効率的にモデル化する能力は欠如している。 これらの制約に対処するために、コンパクトな三面体ニューラルフィールドと強力な拡散モデルを統合することにより高速かつ高忠実な生成を可能にする新しいアプローチBlaze3DMを提案する。 技術的には、Blaze3DMは、データ依存の3次元平面埋め込みと共有デコーダを同時に最適化し、各3次元平面を対応する3次元ボリュームに再構成することから始まる。 さらに3次元の整合性を高めるために,3次元垂直面の相関関係をモデル化する軽量な3次元認識モジュールを導入する。 その後、拡散モデルは潜伏三葉体埋め込みに基づいて訓練され、条件のない三葉体生成と条件付き三葉体生成の両方を達成し、最終的に任意の大きさの体積に復号される。 Sparse-view CT, Limited-angle CT, compressed-sensing MRI, MRI等方的超解像など,ゼロショットの医学的逆問題解決に関する大規模な実験は、Blaze3DMが最先端の性能を達成するだけでなく、既存の手法よりも計算効率を著しく向上することを示した。

Solving 3D medical inverse problems such as image restoration and reconstruction is crucial in modern medical field. However, the curse of dimensionality in 3D medical data leads mainstream volume-wise methods to suffer from high resource consumption and challenges models to successfully capture the natural distribution, resulting in inevitable volume inconsistency and artifacts. Some recent works attempt to simplify generation in the latent space but lack the capability to efficiently model intricate image details. To address these limitations, we present Blaze3DM, a novel approach that enables fast and high-fidelity generation by integrating compact triplane neural field and powerful diffusion model. In technique, Blaze3DM begins by optimizing data-dependent triplane embeddings and a shared decoder simultaneously, reconstructing each triplane back to the corresponding 3D volume. To further enhance 3D consistency, we introduce a lightweight 3D aware module to model the correlation of three vertical planes. Then, diffusion model is trained on latent triplane embeddings and achieves both unconditional and conditional triplane generation, which is finally decoded to arbitrary size volume. Extensive experiments on zero-shot 3D medical inverse problem solving, including sparse-view CT, limited-angle CT, compressed-sensing MRI, and MRI isotropic super-resolution, demonstrate that Blaze3DM not only achieves state-of-the-art performance but also markedly improves computational efficiency over existing methods (22~40x faster than previous work).
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# より少ない - 簡潔なネットワーク説明の発見

Less is More: Discovering Concise Network Explanations ( http://arxiv.org/abs/2405.15243v1 )

ライセンス: Link先を確認
Neehar Kondapaneni, Markus Marks, Oisin MacAodha, Pietro Perona, (参考訳) 本稿では,深層画像分類器の解釈可能性を高めるために,人間の理解可能な視覚的説明を生成する新しい手法であるDiscovering Conceptual Network Explanations (DCNE)を紹介する。 本手法は,クラス間の識別に重要な視覚的説明を自動的に見つける。 これは3つの基準を同時に最適化することで達成される。 提案手法は,最近導入されたCRP(Concept Relevance Propagation)の説明可能性に基づく。 CRPは個々の神経細胞の活性化を記述するのに効果的であるが、概念が多すぎるため、人間の理解に影響を及ぼす。 その代わり、DCNEはいくつかの重要な説明を選択する。 我々は,鳥の分類を課題とする新たな評価データセットを導入し,DCNEの説明のアライメントと人間の専門家による説明のアライメントを比較した。 既存のeXplainable Artificial Intelligence (XAI)法と比較して、DCNEはネットワーク説明を要約する際の簡潔さと完全性の間に望ましいトレードオフがある。 CRPの説明の1/30を生成するが、説明の質はわずかに低下する。 DCNEは、ニューラルネットワークの決定を人間にアクセスし、解釈できるようにするための一歩であり、XAIの研究者と実践者の両方にとって貴重なツールとモデルアライメントを提供する。

We introduce Discovering Conceptual Network Explanations (DCNE), a new approach for generating human-comprehensible visual explanations to enhance the interpretability of deep neural image classifiers. Our method automatically finds visual explanations that are critical for discriminating between classes. This is achieved by simultaneously optimizing three criteria: the explanations should be few, diverse, and human-interpretable. Our approach builds on the recently introduced Concept Relevance Propagation (CRP) explainability method. While CRP is effective at describing individual neuronal activations, it generates too many concepts, which impacts human comprehension. Instead, DCNE selects the few most important explanations. We introduce a new evaluation dataset centered on the challenging task of classifying birds, enabling us to compare the alignment of DCNE's explanations to those of human expert-defined ones. Compared to existing eXplainable Artificial Intelligence (XAI) methods, DCNE has a desirable trade-off between conciseness and completeness when summarizing network explanations. It produces 1/30 of CRP's explanations while only resulting in a slight reduction in explanation quality. DCNE represents a step forward in making neural network decisions accessible and interpretable to humans, providing a valuable tool for both researchers and practitioners in XAI and model alignment.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# マルチタスク学習における隠れタスクの敵対的攻撃

Adversarial Attacks on Hidden Tasks in Multi-Task Learning ( http://arxiv.org/abs/2405.15244v1 )

ライセンス: Link先を確認
Yu Zhe, Rei Nagaike, Daiki Nishiyama, Kazuto Fukuchi, Jun Sakuma, (参考訳) 深層学習モデルは、入力データに対するわずかな摂動が誤分類につながる敵攻撃の影響を受けやすい。 敵攻撃は、標的分類器に関する情報にアクセスすることでますます効果的になる。 ひとつのモデルが複数のタスクを同時に学習するマルチタスク学習のコンテキストでは、攻撃者は限られた情報で特定のタスクの脆弱性を悪用する。 本稿では,隠蔽対象タスクと隠蔽対象タスクのラベル付きデータに関するモデルアクセスは利用できないが,非ターゲットタスクに関するモデルアクセスが利用可能であるマルチタスク分類器内での隠蔽タスクの攻撃可能性について検討する。 本研究では,非ターゲットタスクからの知識とマルチタスクモデルの共有バックボーンネットワークを利用して,対象タスクに関する知識を忘れるように強制する,新たな敵攻撃手法を提案する。 CelebAおよびDeepFashionデータセットによる実験結果から,可視タスクの性能を維持しながら隠れタスクの精度を低下させる手法の有効性が示され,マルチタスク分類器における敵の脆弱性の理解に寄与した。

Deep learning models are susceptible to adversarial attacks, where slight perturbations to input data lead to misclassification. Adversarial attacks become increasingly effective with access to information about the targeted classifier. In the context of multi-task learning, where a single model learns multiple tasks simultaneously, attackers may aim to exploit vulnerabilities in specific tasks with limited information. This paper investigates the feasibility of attacking hidden tasks within multi-task classifiers, where model access regarding the hidden target task and labeled data for the hidden target task are not available, but model access regarding the non-target tasks is available. We propose a novel adversarial attack method that leverages knowledge from non-target tasks and the shared backbone network of the multi-task model to force the model to forget knowledge related to the target task. Experimental results on CelebA and DeepFashion datasets demonstrate the effectiveness of our method in degrading the accuracy of hidden tasks while preserving the performance of visible tasks, contributing to the understanding of adversarial vulnerabilities in multi-task classifiers.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# 理論的保証を伴う分散強化学習における協調的バックドア攻撃

Cooperative Backdoor Attack in Decentralized Reinforcement Learning with Theoretical Guarantee ( http://arxiv.org/abs/2405.15245v1 )

ライセンス: Link先を確認
Mengtong Gao, Yifei Zou, Zuyuan Zhang, Xiuzhen Cheng, Dongxiao Yu, (参考訳) 分散型強化学習(RL)の安全性は、悪意のあるエージェントが有害なポリシーを良質なエージェントと共有できるため、難しい問題である。 分散強化学習シナリオにおける協調的バックドア攻撃について検討する。 共有ポリシーの裏側にあるバックドア攻撃を隠蔽する既存の手法と異なり、我々の手法は、バックドアの動作をRLの状態空間に応じて複数のコンポーネントに分解する。 各悪意のあるエージェントは、そのポリシーの1つのコンポーネントを隠し、そのポリシーを良心的なエージェントと共有する。 良心的なエージェントがすべての毒殺ポリシーを学習すると、バックドアアタックはそのポリシーで組み立てられる。 この理論的証明は、我々の協力的手法が良性エージェントのRLポリシーにバックドアを注入できることを示すものである。 既存のバックドア攻撃と比較して,攻撃者のポリシーはバックドア攻撃の構成要素のみを含んでおり,検出が困難であるため,我々の協調手法はより隠蔽されている。 本手法の有効性と隠蔽性を示すため, 大規模シミュレーションを行った。 我々の知る限りでは、分散強化学習における実証可能な協調的バックドア攻撃を示す最初の論文である。

The safety of decentralized reinforcement learning (RL) is a challenging problem since malicious agents can share their poisoned policies with benign agents. The paper investigates a cooperative backdoor attack in a decentralized reinforcement learning scenario. Differing from the existing methods that hide a whole backdoor attack behind their shared policies, our method decomposes the backdoor behavior into multiple components according to the state space of RL. Each malicious agent hides one component in its policy and shares its policy with the benign agents. When a benign agent learns all the poisoned policies, the backdoor attack is assembled in its policy. The theoretical proof is given to show that our cooperative method can successfully inject the backdoor into the RL policies of benign agents. Compared with the existing backdoor attacks, our cooperative method is more covert since the policy from each attacker only contains a component of the backdoor attack and is harder to detect. Extensive simulations are conducted based on Atari environments to demonstrate the efficiency and covertness of our method. To the best of our knowledge, this is the first paper presenting a provable cooperative backdoor attack in decentralized reinforcement learning.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# 動作中のアンテナポインティング補正の学習:ブラックボックスの効率的な校正

Learning Antenna Pointing Correction in Operations: Efficient Calibration of a Black Box ( http://arxiv.org/abs/2405.15247v1 )

ライセンス: Link先を確認
Leif Bergerhoff, (参考訳) ダウンタイムを必要としない運用アンテナシステムに対して,効率的なオフラインポインティングキャリブレーション手法を提案する。 提案手法は校正作業を最小限に抑え,地上局運用における監視・制御の目的で一般的に使用される技術信号情報を活用する。 標準アンテナインタフェースと運用衛星接触データを用いて,データセット生成をトレーニングするためのロバストな戦略を考案した。 この上に、線形回帰を用いて適切な座標変換のパラメータを学習する。 本実験では,実環境における提案手法の有用性を示す。

We propose an efficient offline pointing calibration method for operational antenna systems which does not require any downtime. Our approach minimizes the calibration effort and exploits technical signal information which is typically used for monitoring and control purposes in ground station operations. Using a standard antenna interface and data from an operational satellite contact, we come up with a robust strategy for training data set generation. On top of this, we learn the parameters of a suitable coordinate transform by means of linear regression. In our experiments, we show the usefulness of the method in a real-world setup.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# コーチングコパイロット:リーダーシップ成長のための自己回帰を効果的に支援するLLM駆動のチャットボットとヒューマンコーチのブレンド形式

Coaching Copilot: Blended Form of an LLM-Powered Chatbot and a Human Coach to Effectively Support Self-Reflection for Leadership Growth ( http://arxiv.org/abs/2405.15250v1 )

ライセンス: Link先を確認
Riku Arakawa, Hiromu Yakura, (参考訳) 自己回帰の促進におけるチャットボットの役割は、特にユーザの行動変化を誘発する上で広く認識されている。 24/7の可用性、スケーラビリティ、一貫性のあるレスポンスのメリットは、医療や家庭教師が新しい習慣を形作るのを助けるために、コンテキストにおいて実証されているが、彼らのコーチングにおける利用は、リーダシップの成長を促すために、より深い内省的な対話を必要としている。 本稿では,近年のLarge Language Models(LLM)を活用したチャットボットが,エグゼクティブコーチングの分野におけるプロフェッショナルコーチと協調する可能性について考察する。 彼らと一緒にデザインワークショップを開催し,10組のコーチ-クライアントペアに関する2週間のユーザスタディを通じて,人間のコーチを補完するチャットボットの統合の実現可能性とニュアンスについて検討した。 この結果から,チャットボットの汎用性とLLMが実現した推論能力のメリットを浮き彫りにしながら,人間のコーチとチャットボットの効果的なコラボレーションに必要な制限と設計の必要性を明らかにした。 このようにして、この研究は、人間-イン-ザ・ループアプローチを通じて、会話エージェントで自己表現プロセスを増強する基盤に寄与する。

Chatbots' role in fostering self-reflection is now widely recognized, especially in inducing users' behavior change. While the benefits of 24/7 availability, scalability, and consistent responses have been demonstrated in contexts such as healthcare and tutoring to help one form a new habit, their utilization in coaching necessitating deeper introspective dialogue to induce leadership growth remains unexplored. This paper explores the potential of such a chatbot powered by recent Large Language Models (LLMs) in collaboration with professional coaches in the field of executive coaching. Through a design workshop with them and two weeks of user study involving ten coach-client pairs, we explored the feasibility and nuances of integrating chatbots to complement human coaches. Our findings highlight the benefits of chatbots' ubiquity and reasoning capabilities enabled by LLMs while identifying their limitations and design necessities for effective collaboration between human coaches and chatbots. By doing so, this work contributes to the foundation for augmenting one's self-reflective process with prevalent conversational agents through the human-in-the-loop approach.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# 最適化を学ぶ: 継続的および混合整数最適化のためのチュートリアル

Learning to optimize: A tutorial for continuous and mixed-integer optimization ( http://arxiv.org/abs/2405.15251v1 )

ライセンス: Link先を確認
Xiaohan Chen, Jialin Liu, Wotao Yin, (参考訳) Learning to Optimize (L2O)は従来の最適化と機械学習の交差点に立ち、機械学習の能力を利用して従来の最適化技術を強化する。 現実世界の最適化問題はよく共通構造を共有するため、L2Oはこれらの構造をより良い、あるいはより高速なソリューションに活用するためのツールを提供する。 このチュートリアルでは、L2Oテクニックを深く掘り下げ、最適化アルゴリズムの高速化、ソリューションの見積の迅速化、あるいは最適化問題自体の再構築などを紹介し、現実世界のアプリケーションに適応させる。 このチュートリアルは,L2Oの応用を成功させる前提条件と今後の最適化問題の構造を考慮し,実践者や研究者の総合的なガイドを提供する。

Learning to Optimize (L2O) stands at the intersection of traditional optimization and machine learning, utilizing the capabilities of machine learning to enhance conventional optimization techniques. As real-world optimization problems frequently share common structures, L2O provides a tool to exploit these structures for better or faster solutions. This tutorial dives deep into L2O techniques, introducing how to accelerate optimization algorithms, promptly estimate the solutions, or even reshape the optimization problem itself, making it more adaptive to real-world applications. By considering the prerequisites for successful applications of L2O and the structure of the optimization problems at hand, this tutorial provides a comprehensive guide for practitioners and researchers alike.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# 統一幾何最適輸送による高速3次元分子生成

Fast 3D Molecule Generation via Unified Geometric Optimal Transport ( http://arxiv.org/abs/2405.15252v1 )

ライセンス: Link先を確認
Haokai Hong, Wanyu Lin, Kay Chen Tan, (参考訳) 本稿では,フローマッチング最適輸送目標に基づく高速かつ効率的な3次元分子生成のための新しい3次元分子生成フレームワークGOATを提案する。 具体的には、基底分布と対象データ分布の間の多モード特徴(例えば、連続原子座標、カテゴリー原子型)をマッピングするコストを測定するための幾何輸送公式を定式化する。 我々の公式は、統一的で同値で滑らかな表現空間の中で解決される。 これは、マルチモーダルな特徴を等価ネットワークを持つ連続潜在空間に変換することで達成される。 さらに,2つの分布間の高速かつ効率的な輸送には最適分布結合の同定が必要であることがわかった。 さらに,最適結合同定のための流動浄化機構を提案する。 これにより、GOATは任意の分布結合を新しい決定論的結合に変換することができ、高速な3次元分子生成のための最適な輸送経路が確立される。 精製は、サブパー分子をフィルタし、究極の生成性能を確保する。 提案手法が実際に輸送コストを削減したことを理論的に証明する。 最後に、GOATは幾何的最適輸送を解くことの効率を享受し、妥当性、特異性、新規性に関する最高の世代品質を達成しつつ、準最適法に比べて2倍のスピードアップをもたらすことを示す。

This paper proposes a new 3D molecule generation framework, called GOAT, for fast and effective 3D molecule generation based on the flow-matching optimal transport objective. Specifically, we formulate a geometric transport formula for measuring the cost of mapping multi-modal features (e.g., continuous atom coordinates and categorical atom types) between a base distribution and a target data distribution. Our formula is solved within a unified, equivalent, and smooth representation space. This is achieved by transforming the multi-modal features into a continuous latent space with equivalent networks. In addition, we find that identifying optimal distributional coupling is necessary for fast and effective transport between any two distributions. We further propose a flow refinement and purification mechanism for optimal coupling identification. By doing so, GOAT can turn arbitrary distribution couplings into new deterministic couplings, leading to a unified optimal transport path for fast 3D molecule generation. The purification filters the subpar molecules to ensure the ultimate generation performance. We theoretically prove the proposed method indeed reduced the transport cost. Finally, extensive experiments show that GOAT enjoys the efficiency of solving geometric optimal transport, leading to a double speedup compared to the sub-optimal method while achieving the best generation quality regarding validity, uniqueness, and novelty.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# アンテナの目を通して世界を見る:不完全な技術信号情報を用いた受容品質の可視化

Seeing the World through an Antenna's Eye: Reception Quality Visualization Using Incomplete Technical Signal Information ( http://arxiv.org/abs/2405.15253v1 )

ライセンス: Link先を確認
Leif Bergerhoff, (参考訳) そこで我々は,方向依存信号特性の文脈における画像解析手法の新しい応用を考案した。 この目的のために,地上局運用における監視・制御目的にのみ使用される技術信号情報に便益を付加する塗装手法について述べる。 提案手法の理論的特性と適切なモデリングをリコールすることで,衛星データ受信品質評価におけるアプローチの有用性を実証することができる。 本アプリケーションでは, 生データよりも製品にペンキを塗ることの利点と, 技術信号情報の可視化の豊かな可能性を示す。

We come up with a novel application for image analysis methods in the context of direction dependent signal characteristics. For this purpose, we describe an inpainting approach adding benefit to technical signal information which are typically only used for monitoring and control purposes in ground station operations. Recalling the theoretical properties of the employed inpainting technique and appropriate modeling allow us to demonstrate the usefulness of our approach for satellite data reception quality assessment. In our application, we show the advantages of inpainting products over raw data as well as the rich potential of the visualization of technical signal information.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# オーバーパラメータ化レジームを超えたニューラルネットの新しいカーネルモデルと特殊表現理論

Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime ( http://arxiv.org/abs/2405.15254v1 )

ライセンス: Link先を確認
Alistair Shilton, Sunil Gupta, Santu Rana, Svetha Venkatesh, (参考訳) 本稿では、有限エネルギーのニューラルアクティベーションのみを仮定して、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能な2つのニューラルネットワークモデルと、行列値カーネルによるニューラルネットワークの表現論について述べる。 最初のモデルは正確で(近似されていない)グローバルであり、ニューラルネットワークを再生カーネルバナッハ空間(RKBS)の要素としてキャストする。 第2のモデルは正確かつ局所的であり、局所内在性神経核(LiNK)の観点で、カーネルヒルベルト空間(RKHS)を再現する際の重みとバイアス(トレーニングステップ)の有界変化に起因するニューラルネットワーク機能の変化をキャストする。 この局所モデルは、ネットワーク適応のラデマッハ複雑性の厳密な境界によるモデル適応に関する洞察を与える。 また、ニューラルネットワークカーネル(NTK)がLiNKカーネルの1次近似であることを証明した。 最後に、技術的理由からLiNKが表現子理論を提供していないことに留意し、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提案する。 この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。 紙の至る所 (a)フィードフォワードReLUネットワークおよび (b)残差ネットワーク(ResNet)を例に挙げる。

This paper presents two models of neural-networks and their training applicable to neural networks of arbitrary width, depth and topology, assuming only finite-energy neural activations; and a novel representor theory for neural networks in terms of a matrix-valued kernel. The first model is exact (un-approximated) and global, casting the neural network as an elements in a reproducing kernel Banach space (RKBS); we use this model to provide tight bounds on Rademacher complexity. The second model is exact and local, casting the change in neural network function resulting from a bounded change in weights and biases (ie. a training step) in reproducing kernel Hilbert space (RKHS) in terms of a local-intrinsic neural kernel (LiNK). This local model provides insight into model adaptation through tight bounds on Rademacher complexity of network adaptation. We also prove that the neural tangent kernel (NTK) is a first-order approximation of the LiNK kernel. Finally, and noting that the LiNK does not provide a representor theory for technical reasons, we present an exact novel representor theory for layer-wise neural network training with unregularized gradient descent in terms of a local-extrinsic neural kernel (LeNK). This representor theory gives insight into the role of higher-order statistics in neural network training and the effect of kernel evolution in neural-network kernel models. Throughout the paper (a) feedforward ReLU networks and (b) residual networks (ResNet) are used as illustrative examples.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# FTMixer:時系列モデリングのための周波数・時間領域表現融合

FTMixer: Frequency and Time Domain Representations Fusion for Time Series Modeling ( http://arxiv.org/abs/2405.15256v1 )

ライセンス: Link先を確認
Zhengnan Li, Yunxiao Qin, Xilong Cheng, Yuting Tan, (参考訳) 時系列データは時間領域と周波数領域の両方で表現することができ、時間領域は局所的な依存関係を強調し、周波数領域はグローバルな依存関係を強調します。 局所的およびグローバルな依存関係を捕捉する際の両方のドメインの強みを活用するために、周波数と時間ドメインミキサー(FTMixer)を提案する。 本稿では,周波数領域のグローバルな特性を活用するために,周波数チャネル変換(FCC)モジュールを導入する。 周波数領域変換におけるウィンドウ化の概念に触発されて、ローカル依存関係をキャプチャするWindowing Frequency Convolution(WFC)モジュールを提示する。 WFCモジュールはまず各ウィンドウ内で周波数変換を適用し、続いてウィンドウ間で畳み込みを行う。 さらに、これらのローカル依存をよりよく捉えるために、時間領域と周波数領域のパッチを混在させるチャネルに依存しないスキームを用いる。 特に、FTMixerは複素数ベースの離散フーリエ変換(DFT)の代わりに実数を持つ離散コサイン変換(DCT)を採用し、周波数領域における現代のディープラーニング演算子の直接利用を可能にしている。 7つの実世界の時系列データセットの大規模な実験結果は、予測性能と計算効率の両方の観点から、FTMixerの優位性を示している。

Time series data can be represented in both the time and frequency domains, with the time domain emphasizing local dependencies and the frequency domain highlighting global dependencies. To harness the strengths of both domains in capturing local and global dependencies, we propose the Frequency and Time Domain Mixer (FTMixer). To exploit the global characteristics of the frequency domain, we introduce the Frequency Channel Convolution (FCC) module, designed to capture global inter-series dependencies. Inspired by the windowing concept in frequency domain transformations, we present the Windowing Frequency Convolution (WFC) module to capture local dependencies. The WFC module first applies frequency transformation within each window, followed by convolution across windows. Furthermore, to better capture these local dependencies, we employ channel-independent scheme to mix the time domain and frequency domain patches. Notably, FTMixer employs the Discrete Cosine Transformation (DCT) with real numbers instead of the complex-number-based Discrete Fourier Transformation (DFT), enabling direct utilization of modern deep learning operators in the frequency domain. Extensive experimental results across seven real-world long-term time series datasets demonstrate the superiority of FTMixer, in terms of both forecasting performance and computational efficiency.
翻訳日:2024-05-27 16:00:17 公開日:2024-05-24
# フェデレーションAI対応臨界インフラを備えた漏れ耐性・カーボンニュートラル凝集

Leakage-Resilient and Carbon-Neutral Aggregation Featuring the Federated AI-enabled Critical Infrastructure ( http://arxiv.org/abs/2405.15258v1 )

ライセンス: Link先を確認
Zehang Deng, Ruoxi Sun, Minhui Xue, Sheng Wen, Seyit Camtepe, Surya Nepal, Yang Xiang, (参考訳) AI対応クリティカルインフラストラクチャ(ACI)は、人工知能(AI)技術を、社会の機能に不可欠なさまざまな重要なシステムやサービスに統合し、効率、セキュリティ、レジリエンスに重大な影響を与える。 ACIに分散AIアプローチ(フェデレートドラーニング技術など)を採用することは確実だが、プライベートデータとセンシティブデータは、勾配最適化によるデータ再構成攻撃の影響を受けやすい。 本研究では,ACIネットワークに対するリーク耐性,通信効率,炭素中性アプローチであるCompressed Differentially Private Aggregation (CDPA)を提案する。 特にCDPAは、その主要な革新として、新しいランダムビットフリップ機構を導入した。 このメカニズムはまず勾配を特定のバイナリ表現に変換し、次に特定の確率でマスクされたビットを選択的にフリップする。 提案したビットフリップは,差分プライベートな保護と省エネへの貢献と,フェデレート学習の文脈におけるベクトル量子化技術の適用を両立させながら,ノイズに大きなばらつきをもたらす。 実験の結果,CDPAはモデルユーティリティを維持しながら通信コストを半減できることがわかった。 さらに,コンピュータビジョンと自然言語処理の両タスクにおいて,CDPAは最先端のデータ再構成攻撃に対して効果的に防御可能であることを示す。 我々はCDPAの2.6倍から100倍以上の炭素排出量を発生させる既存のベンチマークを強調した。 本稿で開発されたCDPAは,ユーティリティとプライバシのバランスのとれたトレードオフ,レジリエンス保護,通信オーバーヘッドの低減によるカーボンオフセットの向上といった,AI対応のクリティカルインフラストラクチャを通知するものです。

AI-enabled critical infrastructures (ACIs) integrate artificial intelligence (AI) technologies into various essential systems and services that are vital to the functioning of society, offering significant implications for efficiency, security and resilience. While adopting decentralized AI approaches (such as federated learning technology) in ACIs is plausible, private and sensitive data are still susceptible to data reconstruction attacks through gradient optimization. In this work, we propose Compressed Differentially Private Aggregation (CDPA), a leakage-resilient, communication-efficient, and carbon-neutral approach for ACI networks. Specifically, CDPA has introduced a novel random bit-flipping mechanism as its primary innovation. This mechanism first converts gradients into a specific binary representation and then selectively flips masked bits with a certain probability. The proposed bit-flipping introduces a larger variance to the noise while providing differentially private protection and commendable efforts in energy savings while applying vector quantization techniques within the context of federated learning. The experimental evaluation indicates that CDPA can reduce communication cost by half while preserving model utility. Moreover, we demonstrate that CDPA can effectively defend against state-of-the-art data reconstruction attacks in both computer vision and natural language processing tasks. We highlight existing benchmarks that generate 2.6x to over 100x more carbon emissions than CDPA. We hope that the CDPA developed in this paper can inform the federated AI-enabled critical infrastructure of a more balanced trade-off between utility and privacy, resilience protection, as well as a better carbon offset with less communication overhead.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 全スライド画像を用いた予後予測のための自己コントラスト弱監視学習フレームワーク

Self-Contrastive Weakly Supervised Learning Framework for Prognostic Prediction Using Whole Slide Images ( http://arxiv.org/abs/2405.15264v1 )

ライセンス: Link先を確認
Saul Fuster, Farbod Khoraminia, Julio Silva-Rodríguez, Umay Kiraz, Geert J. L. H. van Leenders, Trygve Eftestøl, Valery Naranjo, Emiel A. M. Janssen, Tahlita C. M. Zuiverloon, Kjersti Engan, (参考訳) 本稿では,ディープラーニング技術を用いた病理組織像解析の先駆的な研究を行い,自動予後予測の課題に対処する。 予測は、基底の真理ラベルが本質的に弱く、モデルがイメージ内で直接観測できない未来の事象を予測しなければならないため、ユニークな課題となる。 この課題に対処するために、関心領域の分離のための畳み込みネットワークに基づく組織分割アルゴリズム、特徴抽出のための対照的な学習モジュール、ネストされた複数インスタンス学習分類モジュールからなる新しい3部フレームワークを提案する。 本研究は, 病理組織学的スライドにおける各領域の意義を考察し, 多様な学習シナリオを生かした。 パイプラインは最初、人工的に生成されたデータと、より単純な診断タスクに基づいて検証される。 予知予測への移行により、タスクはより困難になる。 膀胱癌を症例として, 再発率0.721, 再発率0.678, 治療成績予測値0。

We present a pioneering investigation into the application of deep learning techniques to analyze histopathological images for addressing the substantial challenge of automated prognostic prediction. Prognostic prediction poses a unique challenge as the ground truth labels are inherently weak, and the model must anticipate future events that are not directly observable in the image. To address this challenge, we propose a novel three-part framework comprising of a convolutional network based tissue segmentation algorithm for region of interest delineation, a contrastive learning module for feature extraction, and a nested multiple instance learning classification module. Our study explores the significance of various regions of interest within the histopathological slides and exploits diverse learning scenarios. The pipeline is initially validated on artificially generated data and a simpler diagnostic task. Transitioning to prognostic prediction, tasks become more challenging. Employing bladder cancer as use case, our best models yield an AUC of 0.721 and 0.678 for recurrence and treatment outcome prediction respectively.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 二重マッチング変換によるクロスドメインFew-Shotセマンティックセマンティックセグメンテーション

Cross-Domain Few-Shot Semantic Segmentation via Doubly Matching Transformation ( http://arxiv.org/abs/2405.15265v1 )

ライセンス: Link先を確認
Jiayi Chen, Rong Quan, Jie Qin, (参考訳) Cross-Domain Few-shot Semantic Segmentation (CD-FSS)は、いくつかのラベル付きイメージで異なるドメインからクラスをセグメントできる汎用モデルのトレーニングを目的としている。 従来の研究は、CD-FSSに対処する際の特徴変換の有効性を証明してきた。 しかし、これらは機能変換のためのサポートイメージに完全に依存しており、クラス毎にいくつかのサポートイメージを繰り返し利用することで、クラス内の外観の違いを過度に見落としてしまう可能性がある。 本稿では,この問題を解決するために,Double Matching Transformation-based Network (DMTNet)を提案する。 サポート画像を完全に依存するのではなく、クエリイメージ自体に基づいてクエリ固有の変換行列を構築し、ドメイン固有のクエリ機能をドメインに依存しないものに変換するセルフマッチング変換(SMT)を提案する。 クエリ固有の変換行列の計算は、特に、数百から数千の画像のセグメンテーションをサポートするイメージとして、1つまたは複数の画像しか使用されていないメタテストステージにおいて、過度に適合するのを防ぐことができる。 ドメインに依存しない特徴を得た後、DHC(Dual Hypercorrelation Construction)モジュールを用いて、クエリ画像と前景と背景画像とのハイパー相関を探索し、前景と背景の予測マップをそれぞれ生成し、監督し、セグメンテーション結果を強化する。 さらに,未確認領域における問合せ予測をより正確に自己調整するTSF(Test-time Self-Finetuning)戦略を提案する。 4つの一般的なデータセットに対する大規模な実験は、DMTNetが最先端のアプローチよりも優れたパフォーマンスを達成することを示している。 コードはhttps://github.com/ChenJiayi68/DMTNetで入手できる。

Cross-Domain Few-shot Semantic Segmentation (CD-FSS) aims to train generalized models that can segment classes from different domains with a few labeled images. Previous works have proven the effectiveness of feature transformation in addressing CD-FSS. However, they completely rely on support images for feature transformation, and repeatedly utilizing a few support images for each class may easily lead to overfitting and overlooking intra-class appearance differences. In this paper, we propose a Doubly Matching Transformation-based Network (DMTNet) to solve the above issue. Instead of completely relying on support images, we propose Self-Matching Transformation (SMT) to construct query-specific transformation matrices based on query images themselves to transform domain-specific query features into domain-agnostic ones. Calculating query-specific transformation matrices can prevent overfitting, especially for the meta-testing stage where only one or several images are used as support images to segment hundreds or thousands of images. After obtaining domain-agnostic features, we exploit a Dual Hypercorrelation Construction (DHC) module to explore the hypercorrelations between the query image with the foreground and background of the support image, based on which foreground and background prediction maps are generated and supervised, respectively, to enhance the segmentation result. In addition, we propose a Test-time Self-Finetuning (TSF) strategy to more accurately self-tune the query prediction in unseen domains. Extensive experiments on four popular datasets show that DMTNet achieves superior performance over state-of-the-art approaches. Code is available at https://github.com/ChenJiayi68/DMTNet.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 市販のChatGPTは、人間の動き予測器として優れています

Off-the-shelf ChatGPT is a Good Few-shot Human Motion Predictor ( http://arxiv.org/abs/2405.15267v1 )

ライセンス: Link先を確認
Haoxuan Qu, Zhaoyang He, Zeyu Hu, Yujun Cai, Jun Liu, (参考訳) 動作予測の実践的適用を容易にするため,近年,数発の動作予測タスクが研究の注目を集めている。 しかし、既存の数発のモーション予測作業では、人間の動きに専用に訓練された特定のモデルが一般的に必要である。 本研究では,特定の人間の動作予測モデルをトレーニングすることで,この課題に対処する代わりに,新しいFMP-OCフレームワークを提案する。 FMP-OC では,非言語タスクであるFew-shot Motion Prediction をオフザシェルフ言語モデル ChatGPT を用いて直接実行することが可能となる。 具体的には、ChatGPTを言語モデルとして導き、正確な動き予測器となるために、FMP-OCでは、ChatGPTから暗黙の知識を抽出するための新しい設計をいくつか導入する。 さらに,本フレームワークには,テキスト内移動学習機構も組み込んでいる。 大規模な実験により,提案手法の有効性が実証された。

To facilitate the application of motion prediction in practice, recently, the few-shot motion prediction task has attracted increasing research attention. Yet, in existing few-shot motion prediction works, a specific model that is dedicatedly trained over human motions is generally required. In this work, rather than tackling this task through training a specific human motion prediction model, we instead propose a novel FMP-OC framework. In FMP-OC, in a totally training-free manner, we enable Few-shot Motion Prediction, which is a non-language task, to be performed directly via utilizing the Off-the-shelf language model ChatGPT. Specifically, to lead ChatGPT as a language model to become an accurate motion predictor, in FMP-OC, we first introduce several novel designs to facilitate extracting implicit knowledge from ChatGPT. Moreover, we also incorporate our framework with a motion-in-context learning mechanism. Extensive experiments demonstrate the efficacy of our proposed framework.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# ParamReL: ベイズフローネットワークのプログレッシブエンコードによるパラメータ空間表現の学習

ParamReL: Learning Parameter Space Representation via Progressively Encoding Bayesian Flow Networks ( http://arxiv.org/abs/2405.15268v1 )

ライセンス: Link先を確認
Zhangkai Wu, Xuhui Fan, Zhilin Zhao, Jin Li, Hui Chen, Longbing Cao, (参考訳) 最近提案されたベイズフローネットワーク~(BFN)はパラメータ空間のモデリングにおいて大きな可能性を示し、連続的で離散化された離散データを扱うための統一的な戦略を提供する。 しかし、BFNはパラメータ空間から高レベルのセマンティック表現を学習することはできない。 パラメータ空間に隠された意味表現を学習し、混合型ノイズデータを特徴付ける。 そこで本研究では,パラメータ空間内で動作するParamReLという表現学習フレームワークを提案する。 具体的には、ParamReLは、観測からではなくパラメータから直接潜在意味論を学ぶために、 \emph{self-} エンコーダを提案する。 エンコーダはBFNに統合され、様々な観察形式の表現学習を可能にする。 相互情報用語は、潜在意味論の混乱をさらに促進し、同時に意味的意味論を捉える。 BFNを拡張することでParamReLの条件生成と再構築を図示し、学習パラメータ表現におけるParamReLの上位効果を実験的に検証した。

The recently proposed Bayesian Flow Networks~(BFNs) show great potential in modeling parameter spaces, offering a unified strategy for handling continuous, discretized, and discrete data. However, BFNs cannot learn high-level semantic representation from the parameter space since {common encoders, which encode data into one static representation, cannot capture semantic changes in parameters.} This motivates a new direction: learning semantic representations hidden in the parameter spaces to characterize mixed-typed noisy data. {Accordingly, we propose a representation learning framework named ParamReL, which operates in the parameter space to obtain parameter-wise latent semantics that exhibit progressive structures. Specifically, ParamReL proposes a \emph{self-}encoder to learn latent semantics directly from parameters, rather than from observations. The encoder is then integrated into BFNs, enabling representation learning with various formats of observations. Mutual information terms further promote the disentanglement of latent semantics and capture meaningful semantics simultaneously.} We illustrate {conditional generation and reconstruction} in ParamReL via expanding BFNs, and extensive {quantitative} experimental results demonstrate the {superior effectiveness} of ParamReL in learning parameter representation.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# BDetCLIP:マルチモーダルプロンプトコントラスト試験時間バックドア検出

BDetCLIP: Multimodal Prompting Contrastive Test-Time Backdoor Detection ( http://arxiv.org/abs/2405.15269v1 )

ライセンス: Link先を確認
Yuwei Niu, Shuo He, Qi Wei, Feng Liu, Lei Feng, (参考訳) マルチモーダルコントラスト学習法(例えば、CLIP)は、視覚的・テキスト的モダリティのための共同表現学習能力の強いため、印象的なゼロショット分類性能を示した。 しかし最近の研究では、悪質なバックドアデータが少ない有毒プレトレーニングデータに対するマルチモーダルコントラスト学習が、下流タスクの挿入トリガによって攻撃される可能性のあるバックドアCLIPを、高い成功率で誘導できることが明らかになった。 CLIPに対するバックドア攻撃を防御するために、既存の防御手法は事前訓練段階と微調整段階の両方に重点を置いている。 本稿では,計算効率のよいバックドア検出手法の最初の試みとして,推論段階におけるバックドアCLIPの防御について述べる。 背景画像の視覚的表現は,クラス記述文の良性・悪性な変化に対して無神経であることが実証的に確認された。 そこで本研究では,コントラスト的プロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。 具体的には、まず言語モデル(例えば、GPT-4)に、クラスに関連する記述テキスト(良性)とクラス摂動ランダムテキスト(良性)を特別に設計した命令で生成するよう促す。 そして、画像と2種類のクラス記述テキストとのコサイン類似性の分布差を基準として、バックドアサンプルを検出する。 提案したBDetCLIPは,有効性と有効性の両方の観点から,最先端のバックドア検出法よりも優れていることが実証された。

Multimodal contrastive learning methods (e.g., CLIP) have shown impressive zero-shot classification performance due to their strong ability to joint representation learning for visual and textual modalities. However, recent research revealed that multimodal contrastive learning on poisoned pre-training data with a small proportion of maliciously backdoored data can induce backdoored CLIP that could be attacked by inserted triggers in downstream tasks with a high success rate. To defend against backdoor attacks on CLIP, existing defense methods focus on either the pre-training stage or the fine-tuning stage, which would unfortunately cause high computational costs due to numerous parameter updates. In this paper, we provide the first attempt at a computationally efficient backdoor detection method to defend against backdoored CLIP in the inference stage. We empirically find that the visual representations of backdoored images are insensitive to both benign and malignant changes in class description texts. Motivated by this observation, we propose BDetCLIP, a novel test-time backdoor detection method based on contrastive prompting. Specifically, we first prompt the language model (e.g., GPT-4) to produce class-related description texts (benign) and class-perturbed random texts (malignant) by specially designed instructions. Then, the distribution difference in cosine similarity between images and the two types of class description texts can be used as the criterion to detect backdoor samples. Extensive experiments validate that our proposed BDetCLIP is superior to state-of-the-art backdoor detection methods, in terms of both effectiveness and efficiency.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 生理データ:プライバシーと倫理への挑戦

Physiological Data: Challenges for Privacy and Ethics ( http://arxiv.org/abs/2405.15272v1 )

ライセンス: Link先を確認
Keith Davis, Tuukka Ruotsalo, (参考訳) 生理的信号を計測し記録するウェアラブルデバイスは、現在一般大衆に広く普及しており、手頃な価格と信号の品質が増している。 これらのデバイスから得られたデータには深刻な倫理的課題が伴う。 ユーザーは、これらのデータをどのように活用してプライベートな情報を明らかにすることができるのかを常に理解していないし、これらのデバイスの開発者は、現在収集されている生理的データが、完全に異なる目的のためにどのように使われるかを完全に理解していないかもしれない。 ウェアラブルデバイスの可能性について論じる。このデバイスは,ユーザの幸福感の向上や,デジタルアプリケーションのエクスペリエンス向上を支援するために設計されたものだ。 現在利用可能な技術がどのように誤用されるかを特定し、生理的データと非生理的データを組み合わせることで、生理的ウェアラブルの予測能力を根本的に拡張し、これらの拡張能力が様々な利害関係者にもたらす影響について検討する。

Wearable devices that measure and record physiological signals are now becoming widely available to the general public with ever-increasing affordability and signal quality. The data from these devices introduce serious ethical challenges that remain largely unaddressed. Users do not always understand how these data can be leveraged to reveal private information about them and developers of these devices may not fully grasp how physiological data collected today could be used in the future for completely different purposes. We discuss the potential for wearable devices, initially designed to help users improve their well-being or enhance the experience of some digital application, to be appropriated in ways that extend far beyond their original intended purpose. We identify how the currently available technology can be misused, discuss how pairing physiological data with non-physiological data can radically expand the predictive capacity of physiological wearables, and explore the implications of these expanded capacities for a variety of stakeholders.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 適応型ボトルネックとデュアル逆数デコーダを用いた一般時系列異常検出器の実現に向けて

Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders ( http://arxiv.org/abs/2405.15273v1 )

ライセンス: Link先を確認
Qichao Shentu, Beibu Li, Kai Zhao, Yang shu, Zhongwen Rao, Lujia Pan, Bin Yang, Chenjuan Guo, (参考訳) 時系列異常検出は幅広い応用において重要な役割を果たす。 既存の手法では、データセット毎に1つの特定のモデルをトレーニングする必要がある。これは、異なるターゲットデータセットにわたる限定的な一般化能力を示し、訓練データが少ないさまざまなシナリオにおける異常検出のパフォーマンスを妨げる。 そこで本研究では,大規模なマルチドメインデータセット上で事前学習された時系列異常検出モデルの構築を提案し,その後,多数のダウンストリームシナリオに適用できることを示す。 1つの統合されたモデルにおいて、異なるデータセットに合わせた適切な情報ボトルネックの多様な要件を満たすこと、2つの正常パターンと異常パターンの区別を可能にすることが、それぞれのシナリオにおいて効果的な異常検出に不可欠である。 これら2つの課題に対処するために,適応型ボトルネックとデュアル逆数デコーダ(DADA)を用いた一般時系列異常検出器を提案する。 我々は、異なるドメインから9つのターゲットデータセットを広範囲に実験する。 マルチドメインデータに対する事前トレーニングの後、これらのデータセットのゼロショット異常検出として機能するDADは、特定のデータセットに合わせて調整されたモデルと比較して、競争力や優れた結果が得られる。

Time series anomaly detection plays a vital role in a wide range of applications. Existing methods require training one specific model for each dataset, which exhibits limited generalization capability across different target datasets, hindering anomaly detection performance in various scenarios with scarce training data. Aiming at this problem, we propose constructing a general time series anomaly detection model, which is pre-trained on extensive multi-domain datasets and can subsequently apply to a multitude of downstream scenarios. The significant divergence of time series data across different domains presents two primary challenges in building such a general model: (1) meeting the diverse requirements of appropriate information bottlenecks tailored to different datasets in one unified model, and (2) enabling distinguishment between multiple normal and abnormal patterns, both are crucial for effective anomaly detection in various target scenarios. To tackle these two challenges, we propose a General time series anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (DADA), which enables flexible selection of bottlenecks based on different data and explicitly enhances clear differentiation between normal and abnormal series. We conduct extensive experiments on nine target datasets from different domains. After pre-training on multi-domain data, DADA, serving as a zero-shot anomaly detector for these datasets, still achieves competitive or even superior results compared to those models tailored to each specific dataset.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# パラレルLiDARとの対話:3次元視覚的接地に基づく人間-LiDARインタラクション手法

Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding ( http://arxiv.org/abs/2405.15274v1 )

ライセンス: Link先を確認
Yuhang Liu, Boyi Sun, Guixu Zheng, Yishuo Wang, Jing Wang, Fei-Yue Wang, (参考訳) LiDARセンサーは様々な用途、特に自動運転において重要な役割を果たす。 現在の研究は主に、ポイントクラウドデータを入力として知覚モデルを最適化することに焦点を当てているが、より深い認知知能の探索は依然として比較的限られている。 この課題に対処するため、並列LiDARは、物理、デジタル、社会システムを密に統合する次世代のインテリジェントLiDARシステムのための新しい理論フレームワークとして登場した。 認知機能を備えたLiDARシステムを実現するために,並列LiDARに3次元視覚グラウンドタスクを導入し,LiDARシステムのための新しいヒューマンコンピュータインタラクションパラダイムを提案する。 本研究では,自律運転における3次元視覚的接地に適した大規模ベンチマークデータセットであるTalk2LiDARを提案する。 さらに,2段階のベースライン手法と,BEVGroundingと呼ばれる1段階の効率的な手法を提案する。 Talk2Car-3DおよびTalk2LiDARデータセットに関する実験は、BEVGroundingの優れた性能を示し、この領域におけるさらなる研究の基礎を築いた。

LiDAR sensors play a crucial role in various applications, especially in autonomous driving. Current research primarily focuses on optimizing perceptual models with point cloud data as input, while the exploration of deeper cognitive intelligence remains relatively limited. To address this challenge, parallel LiDARs have emerged as a novel theoretical framework for the next-generation intelligent LiDAR systems, which tightly integrate physical, digital, and social systems. To endow LiDAR systems with cognitive capabilities, we introduce the 3D visual grounding task into parallel LiDARs and present a novel human-computer interaction paradigm for LiDAR systems. We propose Talk2LiDAR, a large-scale benchmark dataset tailored for 3D visual grounding in autonomous driving. Additionally, we present a two-stage baseline approach and an efficient one-stage method named BEVGrounding, which significantly improves grounding accuracy by fusing coarse-grained sentence and fine-grained word embeddings with visual features. Our experiments on Talk2Car-3D and Talk2LiDAR datasets demonstrate the superior performance of BEVGrounding, laying a foundation for further research in this domain.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# NMGrad: 深層学習による病理組織学的膀胱癌の進展

NMGrad: Advancing Histopathological Bladder Cancer Grading with Weakly Supervised Deep Learning ( http://arxiv.org/abs/2405.15275v1 )

ライセンス: Link先を確認
Saul Fuster, Umay Kiraz, Trygve Eftestøl, Emiel A. M. Janssen, Kjersti Engan, (参考訳) 膀胱癌の最も多い形態は尿路上皮癌であり、高い再発率と実質寿命治療費用が特徴である。 グレーディングは患者のリスク層形成の要因であるが、病理学者の間では矛盾やバリエーションに悩まされている。 さらに、医用画像におけるアノテーションの欠如は、深層学習モデルの訓練を困難にしている。 これらの課題に対処するために,組織学的スライドを用いた膀胱癌評価のためのパイプラインを導入する。 まず、異なる倍率レベルでウロテリウム組織タイルを抽出し、特徴抽出のために畳み込みニューラルネットワークを用いて処理する。 そして、スライドレベルの予測プロセスに関与する。 グレードの予測に注意を払って、ネストされた複数のインスタンス学習アプローチを採用している。 スライドの特定の領域における悪性度を区別するために,本分析にタイルの起源を含める。 領域レベルでの注意スコアは、検証された高次領域と相関し、モデルにいくつかの説明可能性を与える。 臨床評価では,本モデルが従来手法より一貫して優れていたことが示されている。

The most prevalent form of bladder cancer is urothelial carcinoma, characterized by a high recurrence rate and substantial lifetime treatment costs for patients. Grading is a prime factor for patient risk stratification, although it suffers from inconsistencies and variations among pathologists. Moreover, absence of annotations in medical imaging difficults training deep learning models. To address these challenges, we introduce a pipeline designed for bladder cancer grading using histological slides. First, it extracts urothelium tissue tiles at different magnification levels, employing a convolutional neural network for processing for feature extraction. Then, it engages in the slide-level prediction process. It employs a nested multiple instance learning approach with attention to predict the grade. To distinguish different levels of malignancy within specific regions of the slide, we include the origins of the tiles in our analysis. The attention scores at region level is shown to correlate with verified high-grade regions, giving some explainability to the model. Clinical evaluations demonstrate that our model consistently outperforms previous state-of-the-art methods.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# MindShot: たった1つのイメージで脳をデコードするフレームワーク

MindShot: Brain Decoding Framework Using Only One Image ( http://arxiv.org/abs/2405.15278v1 )

ライセンス: Link先を確認
Shuai Jiang, Zhu Meng, Delong Liu, Haiwen Li, Fei Su, Zhicheng Zhao, (参考訳) 機能的磁気共鳴画像(fMRI)を利用した脳信号からの視覚刺激の再構築を目的とした脳復号法は,近年,肯定的な進歩を遂げている。 しかし、fMRI画像対取得の難しさや個人の多様性など、重大な課題に悩まされている。 ほとんどのメソッドは、オブジェクトごとのモデルパラダイムを採用しなければならず、アプリケーションを大幅に制限します。 この問題を軽減するために、我々は新しい意味のあるタスク、数発のブレイン・デコードを導入します。 1) fMRI画像対と雑音信号の不足は、容易に過度な適合につながる。 2 不適切な指導は、堅牢なエンコーダの訓練を複雑にする。 そこで,MindShotという新しいフレームワークが提案されている。 まず, 血行動態応答関数 (HRF) にインスパイアされたHRFアダプタを用いて, トレーニング可能なパラメータの少ない被験者間での, 説明不能な認知的差異を解消する。 次に、他の被験者の信号から高レベル・低レベルの生物学的ガイダンス情報を抽出するために、フーリエを用いたクロスオブジェクト監視手法を提案する。 MindShotの下では、新しい被験者と事前訓練された個人は、同じセマンティッククラスのイメージのみを見る必要があり、モデルの適用性を大幅に拡大する。 実験により、MindShotは、オブジェクトごとのモデルパラダイムに基づいて、少数のシナリオで意味的に忠実なイメージを再構成し、メソッドを性能良くする能力を示した。 提案手法の有望な結果は,数発のブレインデコーディングの実現可能性だけでなく,データ依存の低減条件下での大規模モデルの学習の可能性も示唆している。

Brain decoding, which aims at reconstructing visual stimuli from brain signals, primarily utilizing functional magnetic resonance imaging (fMRI), has recently made positive progress. However, it is impeded by significant challenges such as the difficulty of acquiring fMRI-image pairs and the variability of individuals, etc. Most methods have to adopt the per-subject-per-model paradigm, greatly limiting their applications. To alleviate this problem, we introduce a new and meaningful task, few-shot brain decoding, while it will face two inherent difficulties: 1) the scarcity of fMRI-image pairs and the noisy signals can easily lead to overfitting; 2) the inadequate guidance complicates the training of a robust encoder. Therefore, a novel framework named MindShot, is proposed to achieve effective few-shot brain decoding by leveraging cross-subject prior knowledge. Firstly, inspired by the hemodynamic response function (HRF), the HRF adapter is applied to eliminate unexplainable cognitive differences between subjects with small trainable parameters. Secondly, a Fourier-based cross-subject supervision method is presented to extract additional high-level and low-level biological guidance information from signals of other subjects. Under the MindShot, new subjects and pretrained individuals only need to view images of the same semantic class, significantly expanding the model's applicability. Experimental results demonstrate MindShot's ability of reconstructing semantically faithful images in few-shot scenarios and outperforms methods based on the per-subject-per-model paradigm. The promising results of the proposed method not only validate the feasibility of few-shot brain decoding but also provide the possibility for the learning of large models under the condition of reducing data dependence.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# グローバルな視覚的インテクスト学習プロンプト選択に向けて

Towards Global Optimal Visual In-Context Learning Prompt Selection ( http://arxiv.org/abs/2405.15279v1 )

ライセンス: Link先を確認
Chengming Xu, Chen Liu, Yikai Wang, Yanwei Fu, (参考訳) ビジュアルインコンテキスト学習(VICL)は、コンテキスト内サンプルに含まれるコンテキスト情報を活用して、クエリサンプルの学習と予測を強化することで、視覚基礎モデルを新しいタスクに転送する一般的な方法である。 VICLの基本的な問題は、そのパワーを最大限に活性化させる最良のプロンプトをどうやって選択するかである。 そこで本研究では,より適切なランキング基準を活用して,より包括的な情報を活用するために,各クエリサンプルのすべての代替品から,最適なインコンテキストの例を選択するという,大域的最適プロンプトを概ね識別する,新しいインコンテキストの例選択フレームワークを提案する。 Partial2Globalと呼ばれるこの手法では、トランスフォーマーをベースとしたリストワイドランクラを採用して、より包括的な比較を行うとともに、一貫したランキングを生成するための一貫性を考慮したランキングアグリゲータも備えている。 partial2Globalの有効性は、前景のセグメンテーション、単一物体の検出、画像のカラー化の実験を通じて検証され、Partial2Globalは、他の手法と比較して、一貫してコンテキスト内サンプルを選択し、新しい最先端技術を確立していることを示す。

Visual In-Context Learning (VICL) is a prevailing way to transfer visual foundation models to new tasks by leveraging contextual information contained in in-context examples to enhance learning and prediction of query sample. The fundamental problem in VICL is how to select the best prompt to activate its power as much as possible, which is equivalent to the ranking problem to test the in-context behavior of each candidate in the alternative set and select the best one. To utilize more appropriate ranking metric and leverage more comprehensive information among the alternative set, we propose a novel in-context example selection framework to approximately identify the global optimal prompt, i.e. choosing the best performing in-context examples from all alternatives for each query sample. Our method, dubbed Partial2Global, adopts a transformer-based list-wise ranker to provide a more comprehensive comparison within several alternatives, and a consistency-aware ranking aggregator to generate globally consistent ranking. The effectiveness of Partial2Global is validated through experiments on foreground segmentation, single object detection and image colorization, demonstrating that Partial2Global selects consistently better in-context examples compared with other methods, and thus establish the new state-of-the-arts.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# DFGNN:手話認識フィードバックのためのデュアル周波数グラフニューラルネットワーク

DFGNN: Dual-frequency Graph Neural Network for Sign-aware Feedback ( http://arxiv.org/abs/2405.15280v1 )

ライセンス: Link先を確認
Yiqing Wu, Ruobing Xie, Zhao Zhang, Xu Zhang, Fuzhen Zhuang, Leyu Lin, Zhanhui Kang, Yongjun Xu, (参考訳) グラフベースのレコメンデーションは近年大きな成功を収めています。 しかし、既存のグラフベースのリコメンデーションのほとんどは、肯定的なエッジ/フィードバックに基づいてユーザの好みをキャプチャすることに焦点を当てている一方で、現実のレコメンデーションシステムに広く存在する負のエッジ/フィードバック(例えば、嫌悪、低評価)を無視している。 グラフベースのレコメンデーションでネガティブなフィードバックを利用する方法はまだ検討されていない。 そこで本研究では,(1)既存のグラフニューラルネットワークは負のフィードバックをモデル化するのに適していないことを示す。 2)グラフベースのレコメンデーションは,表現退化問題に悩まされる。 この2つの観測結果に基づいて,周波数フィルタの観点から正と負のフィードバックをモデル化する新しいモデルを提案する。 具体的には、DFGNNにおいて、設計された二周波グラフフィルタ(DGF)は、正および負のフィードバックを含む低周波信号と高周波信号の両方をキャプチャする。 さらに, 提案した符号付きグラフ正規化を適用し, ユーザ/イム埋め込みの均一性を保ち, 表現退化問題を緩和する。 さらに、実世界のデータセットに関する広範な実験を行い、提案モデルの有効性を実証する。 私たちのモデルのコードは受け入れ次第リリースされます。

The graph-based recommendation has achieved great success in recent years. However, most existing graph-based recommendations focus on capturing user preference based on positive edges/feedback, while ignoring negative edges/feedback (e.g., dislike, low rating) that widely exist in real-world recommender systems. How to utilize negative feedback in graph-based recommendations still remains underexplored. In this study, we first conducted a comprehensive experimental analysis and found that (1) existing graph neural networks are not well-suited for modeling negative feedback, which acts as a high-frequency signal in a user-item graph. (2) The graph-based recommendation suffers from the representation degeneration problem. Based on the two observations, we propose a novel model that models positive and negative feedback from a frequency filter perspective called Dual-frequency Graph Neural Network for Sign-aware Recommendation (DFGNN). Specifically, in DFGNN, the designed dual-frequency graph filter (DGF) captures both low-frequency and high-frequency signals that contain positive and negative feedback. Furthermore, the proposed signed graph regularization is applied to maintain the user/item embedding uniform in the embedding space to alleviate the representation degeneration problem. Additionally, we conduct extensive experiments on real-world datasets and demonstrate the effectiveness of the proposed model. Codes of our model will be released upon acceptance.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# Prompt Tuningが復活:低ランクのPrompt適応によるファンデーションモデルのカスタマイズ

Prompt Tuning Strikes Back: Customizing Foundation Models with Low-Rank Prompt Adaptation ( http://arxiv.org/abs/2405.15282v1 )

ライセンス: Link先を確認
Abhinav Jain, Swarat Chaudhuri, Thomas Reps, Chris Jermaine, (参考訳) パラメータ効率のよいファインチューニング(PEFT)は、ファンデーションモデル(FM)をユーザ固有の下流タスクにカスタマイズするための標準となっている。 しかし、典型的なPEFTメソッドは複数のタスク固有のアダプタを格納する必要があるため、これらのアダプタをFMサーバに格納して実行する必要があるため、スケーラビリティの問題が発生する。 従来のプロンプトチューニングは、タスク固有の入力プレフィックスをカスタマイズすることで潜在的な解決策を提供するが、LoRAのような他のPEFTメソッドに比べて性能は低い。 このギャップに対処するため,我々は,最新のPEFTメソッドと同等に動作し,パラメータ効率が良く,サーバベースのアダプタを必要としない,プロンプトチューニングベースのアプローチであるLOPA(Lolow-Rank Prompt Adaptation)を提案する。 LOPAは、インスタンス間でタスク固有の情報を共有することと、インスタンスごとのカスタマイズをバランスさせることで、ソフトプロンプトを生成する。 パラメータ効率を達成するために、各インスタンスにエンコードされたソフトプロンプトコンポーネントの低ランク分解を使用する。 複数の自然言語の理解とコード生成と理解タスクに関する総合的な評価を,さまざまなサイズを持つ幅広い基礎モデルに対して提供する。

Parameter-Efficient Fine-Tuning (PEFT) has become the standard for customising Foundation Models (FMs) to user-specific downstream tasks. However, typical PEFT methods require storing multiple task-specific adapters, creating scalability issues as these adapters must be housed and run at the FM server. Traditional prompt tuning offers a potential solution by customising them through task-specific input prefixes, but it under-performs compared to other PEFT methods like LoRA. To address this gap, we propose Low-Rank Prompt Adaptation (LOPA), a prompt-tuning-based approach that performs on par with state-of-the-art PEFT methods and full fine-tuning while being more parameter-efficient and not requiring a server-based adapter. LOPA generates soft prompts by balancing between sharing task-specific information across instances and customization for each instance. It uses a low-rank decomposition of the soft-prompt component encoded for each instance to achieve parameter efficiency. We provide a comprehensive evaluation on multiple natural language understanding and code generation and understanding tasks across a wide range of foundation models with varying sizes.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# ローカルベイズ最適化におけるローカル検索戦略の最小化

Minimizing UCB: a Better Local Search Strategy in Local Bayesian Optimization ( http://arxiv.org/abs/2405.15285v1 )

ライセンス: Link先を確認
Zheyi Fan, Wenyu Wang, Szu Hui Ng, Qingpei Hu, (参考訳) 局所ベイズ最適化は高次元ブラックボックス関数最適化問題を解決するための有望な実用的な手法である。 そのうちの1つは、勾配降下に類似した戦略を実装する手法の近似勾配クラスである。 これらの手法は優れた実験結果と理論的保証を得た。 しかし、これらの方法に適用されたガウス過程の分布特性を考えると、ガウス過程の情報を利用してBO探索を促進する可能性がある。 本研究では,勾配降下法と上流信頼境界 (UCB) を最小化する手法の関係を考察し,ガウス過程を代理として適用した場合,後者が直接勾配降下よりも優れた戦略となることを示す。 そこで本研究では,局所ベイズ最適化アルゴリズムMinUCBを提案する。 さらに,MinUCBはGIBOと類似の収束率を維持していることを示す。 その後、先見戦略によりMinUCBの取得機能を改善し、より効率的なアルゴリズムLA-MinUCBを得る。 提案手法は,異なる合成関数と実世界の関数に応用し,本手法の有効性を示す。 提案アルゴリズムは,ベイズ最適化における上界視点からの局所探索戦略の改善を図示し,将来的なアルゴリズム設計のための新たな方向性を提供する。

Local Bayesian optimization is a promising practical approach to solve the high dimensional black-box function optimization problem. Among them is the approximated gradient class of methods, which implements a strategy similar to gradient descent. These methods have achieved good experimental results and theoretical guarantees. However, given the distributional properties of the Gaussian processes applied on these methods, there may be potential to further exploit the information of the Gaussian processes to facilitate the BO search. In this work, we develop the relationship between the steps of the gradient descent method and one that minimizes the Upper Confidence Bound (UCB), and show that the latter can be a better strategy than direct gradient descent when a Gaussian process is applied as a surrogate. Through this insight, we propose a new local Bayesian optimization algorithm, MinUCB, which replaces the gradient descent step with minimizing UCB in GIBO. We further show that MinUCB maintains a similar convergence rate with GIBO. We then improve the acquisition function of MinUCB further through a look ahead strategy, and obtain a more efficient algorithm LA-MinUCB. We apply our algorithms on different synthetic and real-world functions, and the results show the effectiveness of our method. Our algorithms also illustrate improvements on local search strategies from an upper bound perspective in Bayesian optimization, and provides a new direction for future algorithm design.
翻訳日:2024-05-27 15:50:32 公開日:2024-05-24
# 自律運転のための2次元オープン語彙セグメントモデルの蒸留による3次元教師なし学習

3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving ( http://arxiv.org/abs/2405.15286v1 )

ライセンス: Link先を確認
Boyi Sun, Yuhang Liu, Xingxia Wang, Bin Tian, Long Chen, Fei-Yue Wang, (参考訳) ポイントクラウドデータラベリングは、自律運転における時間とコストのかかるタスクであると考えられており、教師なし学習は、注釈のないデータからポイントクラウド表現を学習することでそれを避けることができる。 本稿では,2次元オープンボキャブラリセグメンテーションモデルを用いた新しい3次元アン教師付きフレームワークUOVを提案する。 第一段階では、2次元オープン語彙モデルの高品質なテキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。 第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、クロスモーダルな知識蒸留を可能にする。 さらに,アライメント中のノイズやラベルの混乱に対処するため,AFI(Adroximate Flat Interaction)を導入する。 UOVの優位性を検証するために、複数の関連するデータセットに対して広範な実験を行った。 我々は,nuScenesにおけるアノテーションフリーのクラウドセグメンテーションタスクにおいて,47.73%のmIoUを記録破りに達成し,従来最高の10.70%のmIoUを上回りました。 一方、nuScenesとSemanticKITTIの1%のデータによる微調整のパフォーマンスは、51.75% mIoUと48.14% mIoUに到達し、以前のすべての事前訓練モデルを上回った。

Point cloud data labeling is considered a time-consuming and expensive task in autonomous driving, whereas unsupervised learning can avoid it by learning point cloud representations from unannotated data. In this paper, we propose UOV, a novel 3D Unsupervised framework assisted by 2D Open-Vocabulary segmentation models. It consists of two stages: In the first stage, we innovatively integrate high-quality textual and image features of 2D open-vocabulary models and propose the Tri-Modal contrastive Pre-training (TMP). In the second stage, spatial mapping between point clouds and images is utilized to generate pseudo-labels, enabling cross-modal knowledge distillation. Besides, we introduce the Approximate Flat Interaction (AFI) to address the noise during alignment and label confusion. To validate the superiority of UOV, extensive experiments are conducted on multiple related datasets. We achieved a record-breaking 47.73% mIoU on the annotation-free point cloud segmentation task in nuScenes, surpassing the previous best model by 10.70% mIoU. Meanwhile, the performance of fine-tuning with 1% data on nuScenes and SemanticKITTI reached a remarkable 51.75% mIoU and 48.14% mIoU, outperforming all previous pre-trained models.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# StyleMaster: 拡散モデルによるフレキシブルスティル化画像生成を目指して

StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models ( http://arxiv.org/abs/2405.15287v1 )

ライセンス: Link先を確認
Chengming Xu, Kai Hu, Donghao Luo, Jiangning Zhang, Wei Li, Yanhao Ge, Chengjie Wang, (参考訳) Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像に基づいて画像を生成することを目的としている。 本稿では、事前訓練された安定拡散(SD)を利用して、このタスクのためにStyleMasterと呼ばれる新しいフレームワークを提案する。 この拡張は、マルチソーススタイルの埋め込みと動的アテンションアダプタという、2つの新しいモジュールに含まれている。 SDにより良いスタイル埋め込みを提供するために,テキスト情報とともにグローバル・ローカル・レベルの視覚情報も考慮し,補完的なスタイル関連知識と意味関連知識を提供するマルチソース・スタイル埋め込み手法を提案する。 さらに,適応器のキャパシティとセマンティックコントロールのバランスを改善することを目的として,提案した動的アテンションアダプタを,スタイル埋め込みに基づいて適応重みを動的に計算する拡散UNetに適用した。 2つの目的関数を導入し、モデルを最適化し、損失を減らし、セマンティクスとスタイルの一貫性をさらに強化する。 大規模な実験では、既存の方法よりもStyleMasterの方が優れており、テキストプロンプトからのセマンティック情報をうまく維持しながら、可変ターゲットスタイルの画像をレンダリングする。

Stylized Text-to-Image Generation (STIG) aims to generate images based on text prompts and style reference images. We in this paper propose a novel framework dubbed as StyleMaster for this task by leveraging pretrained Stable Diffusion (SD), which tries to solve the previous problems such as insufficient style and inconsistent semantics. The enhancement lies in two novel module, namely multi-source style embedder and dynamic attention adapter. In order to provide SD with better style embeddings, we propose the multi-source style embedder considers both global and local level visual information along with textual one, which provide both complementary style-related and semantic-related knowledge. Additionally, aiming for better balance between the adaptor capacity and semantic control, the proposed dynamic attention adapter is applied to the diffusion UNet in which adaptation weights are dynamically calculated based on the style embeddings. Two objective functions are introduced to optimize the model together with denoising loss, which can further enhance semantic and style consistency. Extensive experiments demonstrate the superiority of StyleMaster over existing methods, rendering images with variable target styles while successfully maintaining the semantic information from the text prompts.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 文章は壁にある: 碑文のブームの分析とEVM互換のブロックチェーンへの影響

The Writing is on the Wall: Analyzing the Boom of Inscriptions and its Impact on EVM-compatible Blockchains ( http://arxiv.org/abs/2405.15288v1 )

ライセンス: Link先を確認
Johnnatan Messias, Krzysztof Gogol, Maria Inês Silva, Benjamin Livshits, (参考訳) ロールアップに注意が向けられているにもかかわらず、彼らのパフォーマンスに関する実験的な研究は限られている。 このギャップに対処するため、私たちは、2023年末のトランザクションブームに関する包括的なデータ駆動分析を実施しています。 NFTやERC-20のようなトークンをスマートコントラクトなしで表現可能にするために、最初にBitcoinブロックチェーン上で導入されたが、後に他のブロックチェーンにも展開された。 本研究は,Ethereumにおけるインプットトランザクションの適用状況と,その主要なEVM互換のロールアップ,および突然のトランザクション急激な期間におけるブロックチェーンのスケーラビリティへの影響について検討する。 入力関連トランザクションはArbitrumで89%以上、zkSyncで88%以上、Ethereumで53%以上を占めています。 さらに、これらの取引の99%はミーム硬貨の鋳造に関係しており、取引活動は限定的であった。 L1ブロックチェーンとは異なり、トランザクションの急増の間、zkSyncとArbitrumは、単一のL1バッチに対するL2トランザクションの圧縮に起因する、中央値のガス料金が低かった。 さらに、ZKロールアップであるzkSync Eraでは、アービタラム、ベース、オプティミズムといった楽観的なロールアップよりも手数料の削減が見られた。

Despite the level of attention given to rollups there is limited empirical research about their performance. To address this gap, we conduct a comprehensive data-driven analysis of the late 2023 transaction boom that is attributed to inscriptions: a novel approach to record data onto a blockchain with no outside server needed. Inscriptions were first introduced on the Bitcoin blockchain to allow for the representation of NFTs or ERC-20-like tokens without smart contracts, but were later spread to other blockchains. This work examines the applications of inscription transactions in Ethereum and its major EVM-compatible rollups and their impact on blockchain scalability during periods of sudden transaction surges. We found that on certain days, inscription-related transactions comprised over 89% on Arbitrum, over 88% on zkSync Era, and over 53% on Ethereum. Furthermore, 99% of these transactions were related to the minting of meme coins, followed by limited trading activity. Unlike L1 blockchains, during periods of transaction surges, zkSync and Arbitrum experienced lower median gas fees, attributable to the compression of L2 transactions for a single L1 batch. Additionally, zkSync Era, a ZK rollup, demonstrated a stronger reduction in fees than optimistic rollups considered in our study: Arbitrum, Base, and Optimism.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 視覚言語モデルからの不変因果メカニズムの学習

Learning Invariant Causal Mechanism from Vision-Language Models ( http://arxiv.org/abs/2405.15289v1 )

ライセンス: Link先を確認
Zeen Song, Siyu Zhao, Xingyu Zhang, Jiangmeng Li, Changwen Zheng, Wenwen Qiang, (参考訳) 事前学習された大規模モデルは主要な研究対象となっているが、その有効性は多様なデータ分散のために現実の応用に限られている。 対照的に、人間は複雑な世界における環境の変化にもかかわらず不変である再利用可能な知識を学習することで、様々な領域における意思決定に長けている。 CLIPは視覚言語事前学習モデルとして、様々な視覚的下流タスクにおいて顕著な性能を示すが、本実験は特定の領域において不満足な結果を示す。 因果推論を用いたさらなる分析は、データを生成する潜在因子の同定に欠如していることから、ドメイン間の不変因果機構を捉えることができない現在のCLIPモデルを明らかにする。 そこで本研究では,CLIP-ICM(Invariant Causal Mechanism of CLIP, CLIP-ICM)を提案する。 理論的解析により,本手法はオフ・オブ・ディストリビューション(OOD)のシナリオにおいて,より低い一般化を有することが示された。 CLIP-ICMの優れた性能を示す実験結果を得た。

Pre-trained large-scale models have become a major research focus, but their effectiveness is limited in real-world applications due to diverse data distributions. In contrast, humans excel at decision-making across various domains by learning reusable knowledge that remains invariant despite environmental changes in a complex world. Although CLIP, as a successful vision-language pre-trained model, demonstrates remarkable performance in various visual downstream tasks, our experiments reveal unsatisfactory results in specific domains. Our further analysis with causal inference exposes the current CLIP model's inability to capture the invariant causal mechanisms across domains, attributed to its deficiency in identifying latent factors generating the data. To address this, we propose the Invariant Causal Mechanism of CLIP (CLIP-ICM), an algorithm designed to provably identify invariant latent factors with the aid of interventional data, and perform accurate prediction on various domains. Theoretical analysis demonstrates that our method has a lower generalization bound in out-of-distribution (OOD) scenarios. Experimental results showcase the outstanding performance of CLIP-ICM.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 量子計測と計算における速度-精度-トレードオフ関係

Speed-Accuracy Trade-Off Relations in Quantum Measurements and Computations ( http://arxiv.org/abs/2405.15291v1 )

ライセンス: Link先を確認
Satoshi Nakajima, Hiroyasu Tajima, (参考訳) 実測では,測定時間を短縮すると精度が低下することが広く認識されている。 一方、量子計測の基本的な物理的制約として固有の速度精度トレードオフが存在するかどうかは明らかではなく、その答えはいまだ不明である。 ここでは,エネルギー保存法と地域性の結果として,基本的な速度・精度のトレードオフ関係を確立する。 我々のトレードオフは、ハミルトニアンと非可換な作用素に対するゼロエラー測度は有限時間で実装できず、量子測度のために定義された様々な既存の誤差や障害に対して普遍的に適用されるというノーゴー定理として機能する。 さらに,本手法を量子計算に適用し,単位ゲート実装に対する別の速度-精度トレードオフ関係を提供する。これは,エネルギーの変化する量子計算ゲートの誤りのない実装は有限時間で実装できないという,別のノーゴー定理として機能し,一般的な量子演算に対する速度-分散トレードオフを提供する。

In practical measurements, it is widely recognized that reducing the measurement time leads to decreased accuracy. On the other hand, whether an inherent speed-accuracy trade-off exists as a fundamental physical constraint for quantum measurements is not obvious, and the answer remains unknown. Here, we establish a fundamental speed-accuracy trade-off relation as a consequence of the energy conservation law and the locality. Our trade-off works as a no-go theorem that the zero-error measurement for the operators that are non-commutative with the Hamiltonian cannot be implemented with finite time and applies universally to various existing errors and disturbances defined for quantum measurements. We furthermore apply our methods to quantum computations and provide another speed-accuracy trade-off relation for unitary gate implementations, which works as another no-go theorem that any error-less implementations of quantum computation gates changing energy cannot be implemented with finite time, and a speed-disturbance trade-off for general quantum operations.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# ロバストバッテリ診断のための確率論的融合法に向けて

Towards a Probabilistic Fusion Approach for Robust Battery Prognostics ( http://arxiv.org/abs/2405.15292v1 )

ライセンス: Link先を確認
Jokin Alcibar, Jose I. Aizpurua, Ekhi Zugasti, (参考訳) 電池は輸送セクターとエネルギーセクターの脱炭を可能にする重要な技術である。 バッテリーの安全で信頼性の高い運転は、バッテリー駆動システムにとって不可欠である。 この方向では、正確で堅牢なバッテリー状態診断モデルの開発により、複雑でリモートで信頼性の高い運用のための自律システムの可能性を解き放つことができる。 ニューラルネットワークとベイジアンモデリングの概念とアンサンブル学習戦略の組み合わせは、堅牢で正確な方法で不確実性を組み合わせるための貴重な予後フレームワークを形成する。 そこで本研究では,リチウムイオン電池の容量減少を予測するためのベイズアンサンブル学習手法を提案する。 このアプローチは、キャパシティフェードを正確に予測し、バッテリ設計および劣化プロセスに関連する不確実性を定量化する。 提案手法では,複数のベイズニューラルネットワーク(BNN)をベースラーナーとして統合し,データの多様性を訓練した。 提案手法は,NASA Ames Prognostics Center of Excellenceによって収集された電池老化データセットを用いて検証された。 得られた結果は,提案した確率的融合手法の精度とロバスト性の向上を示す。 (i)単一のBNNモデルと (ii)異なるBNNに基づく古典的な積み重ね戦略。

Batteries are a key enabling technology for the decarbonization of transport and energy sectors. The safe and reliable operation of batteries is crucial for battery-powered systems. In this direction, the development of accurate and robust battery state-of-health prognostics models can unlock the potential of autonomous systems for complex, remote and reliable operations. The combination of Neural Networks, Bayesian modelling concepts and ensemble learning strategies, form a valuable prognostics framework to combine uncertainty in a robust and accurate manner. Accordingly, this paper introduces a Bayesian ensemble learning approach to predict the capacity depletion of lithium-ion batteries. The approach accurately predicts the capacity fade and quantifies the uncertainty associated with battery design and degradation processes. The proposed Bayesian ensemble methodology employs a stacking technique, integrating multiple Bayesian neural networks (BNNs) as base learners, which have been trained on data diversity. The proposed method has been validated using a battery aging dataset collected by the NASA Ames Prognostics Center of Excellence. Obtained results demonstrate the improved accuracy and robustness of the proposed probabilistic fusion approach with respect to (i) a single BNN model and (ii) a classical stacking strategy based on different BNNs.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# Bitcoinシステムにおけるトランザクションフィー推定

Transaction Fee Estimation in the Bitcoin System ( http://arxiv.org/abs/2405.15293v1 )

ライセンス: Link先を確認
Limeng Zhang, Rui Zhou, Qing Liu, Chengfei Liu, M. Ali Babar, (参考訳) Bitcoinシステムでは、取引手数料はブロックチェーンの確認のインセンティブとなる。 一般的に、より高い手数料の取引は次のブロックの採掘に含まれる可能性が高いが、より少ない手数料または料金のない取引は遅延したり、全く処理されないことがある。 しかし、取引手数料は、トランザクションを提出するときに指定する必要があるため、その後ほとんど変更されない。 したがって、高額の手数料が過払いとなり、低額の手数料が確認を遅らせる可能性があるため、クライアントが合理的な手数料を設定するのを助けることは不可欠である。 本研究は,新たな取引の取引手数料を推定し,所定の時間内にその確認を支援することに焦点を当てる。 既存の作品には2つの大きな欠点がある。 第1に、現在の産業製品は明示的な分析モデルに基づいて構築されており、機械学習ベースの手法によりよりよく捉えられる様々な要因の複雑な相互作用を無視している。 その結果,トランザクション自体やメムプール内の未確認トランザクション,ブロックチェーン確認環境など,幅広いソースからの知識をニューラルネットワークモデルに統合して,適切な取引手数料を見積もることを目的としたフレームワークFENNを提案する。 最後に、MAPEとRMSEによって評価された最先端の作業に対して、提案したフレームワークの有効性と効率性を示すために、実際のブロックチェーンデータセットの実験を行う。 フレームワーク内の各バリエーションモデルは、1ブロック間隔でトレーニングを終えることが可能です。これは、Bitcoinブロックチェーンのリアルタイムトランザクション更新を処理するフレームワークの可能性を示しています。

In the Bitcoin system, transaction fees serve as an incentive for blockchain confirmations. In general, a transaction with a higher fee is likely to be included in the next block mined, whereas a transaction with a smaller fee or no fee may be delayed or never processed at all. However, the transaction fee needs to be specified when submitting a transaction and almost cannot be altered thereafter. Hence it is indispensable to help a client set a reasonable fee, as a higher fee incurs over-spending and a lower fee could delay the confirmation. In this work, we focus on estimating the transaction fee for a new transaction to help with its confirmation within a given expected time. We identify two major drawbacks in the existing works. First, the current industry products are built on explicit analytical models, ignoring the complex interactions of different factors which could be better captured by machine learning based methods; Second, all of the existing works utilize limited knowledge for the estimation which hinders the potential of further improving the estimation quality. As a result, we propose a framework FENN, which aims to integrate the knowledge from a wide range of sources, including the transaction itself, unconfirmed transactions in the mempool and the blockchain confirmation environment, into a neural network model in order to estimate a proper transaction fee. Finally, we conduct experiments on real blockchain datasets to demonstrate the effectiveness and efficiency of our proposed framework over the state-of-the-art works evaluated by MAPE and RMSE. Each variation model in our framework can finish training within one block interval, which shows the potential of our framework to process the realtime transaction updates in the Bitcoin blockchain.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# ソフトリビジョン下における一般ベイズ規則による半教師付き学習

Semi-Supervised Learning guided by the Generalized Bayes Rule under Soft Revision ( http://arxiv.org/abs/2405.15294v1 )

ライセンス: Link先を確認
Stefan Dietrich, Julian Rodemann, Christoph Jansen, (参考訳) 半教師付き学習における擬似ラベル選択(PLS)のロバストな基準として最近提案されたソフトリビジョンを用いたガンマ・マキシミン法の理論的・計算的研究を行った。 PLS の従来の手法に反し、先駆体のクレダルセット(一般化ベイズ)を用いて、てんかんのモデリングの不確実性を表す。 後者はGamma-Maximin法によるソフトリビジョンによって更新される。 最終的に、更新された干潟集合から最も好ましくない分布に照らして、擬似ラベル付きデータを選択する。 我々は,最適化問題としてソフトリビジョンを用いたガンマ・マキシミン法を用いて,最適な擬似ラベル付きデータを求めるタスクを定式化する。 そこで,ロジスティックモデルのクラスに対する具体的な実装により,提案手法の予測能力と競合するアプローチを比較することができる。 特にラベル付きデータの比率が低い場合, ソフトリビジョンによるガンマ・マキシミン法は非常に有望な結果が得られることが観察された。

We provide a theoretical and computational investigation of the Gamma-Maximin method with soft revision, which was recently proposed as a robust criterion for pseudo-label selection (PLS) in semi-supervised learning. Opposed to traditional methods for PLS we use credal sets of priors ("generalized Bayes") to represent the epistemic modeling uncertainty. These latter are then updated by the Gamma-Maximin method with soft revision. We eventually select pseudo-labeled data that are most likely in light of the least favorable distribution from the so updated credal set. We formalize the task of finding optimal pseudo-labeled data w.r.t. the Gamma-Maximin method with soft revision as an optimization problem. A concrete implementation for the class of logistic models then allows us to compare the predictive power of the method with competing approaches. It is observed that the Gamma-Maximin method with soft revision can achieve very promising results, especially when the proportion of labeled data is low.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 三元系における最小濃度の強い非局所集合

Strongest nonlocal sets with minimum cardinality in tripartite systems ( http://arxiv.org/abs/2405.15298v1 )

ライセンス: Link先を確認
Xiao-Fan Zhen, Mao-Sheng Li, Hui-Juan Zuo, (参考訳) 強非局所性(英語版) - Halder {\it et al} によって提唱される。 PhysRevLett.122.040403}{Phys. [\href{https://doi.org/10.1103/PhysRevLett.122.040403}{Phys.] レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ textbf{122}, 040403 (2019)}] は、量子非局所性よりも強い表現である。 以下は、Shi et al} である。 最強非局所性の概念を示します [\href{https://doi.org/10.22331/q-2022-01-05-619}{Quantum \textbf{6}, 619 (2022)}]。 最近、Li と Wang [\href{https://doi.org/10.22331/q-2023-09-1101}{Quantum \textbf{7}, 1101 (2023)}] は、最強非局所集合 $\mathcal{S}$ in $\otimes _{i=1}^{n}\mathbb{C}^{d_i}$、すなわち $|\mathcal{S}|\leq \max_{i}\{\prod_{j=1}^{n}d_j/d_i+1\}$ の濃度に対する下界についての予想を提示した。 この研究は、$d^2+1$ in $\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$において最も強い非局所集合を構成する。 さらに、最も強い非局所集合である$d_{2}d_{3}+1$ in $\mathbb{C}^{d_1}\otimes \mathbb{C}^{d_2}\otimes \mathbb{C}^{d_3}$を得る。 我々の構成は下界に達し、Li と Wang の予想に対する肯定的な解を提供する。 特に、ここで提示される最も強い非局所集合は、利用可能な結果の中で最小の直交状態を含む。

Strong nonlocality, proposed by Halder {\it et al}. [\href{https://doi.org/10.1103/PhysRevLett.122.040403}{Phys. Rev. Lett. \textbf{122}, 040403 (2019)}], is a stronger manifestation than quantum nonlocality. Subsequently, Shi {\it et al}. presented the concept of the strongest nonlocality [\href{https://doi.org/10.22331/q-2022-01-05-619}{Quantum \textbf{6}, 619 (2022)}]. Recently, Li and Wang [\href{https://doi.org/10.22331/q-2023-09-07-1101}{Quantum \textbf{7}, 1101 (2023)}] posed the conjecture about a lower bound to the cardinality of the strongest nonlocal set $\mathcal{S}$ in $\otimes _{i=1}^{n}\mathbb{C}^{d_i}$, i.e., $|\mathcal{S}|\leq \max_{i}\{\prod_{j=1}^{n}d_j/d_i+1\}$. In this work, we construct the strongest nonlocal set of size $d^2+1$ in $\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$. Furthermore, we obtain the strongest nonlocal set of size $d_{2}d_{3}+1$ in $\mathbb{C}^{d_1}\otimes \mathbb{C}^{d_2}\otimes \mathbb{C}^{d_3}$. Our construction reaches the lower bound, which provides an affirmative solution to Li and Wang's conjecture. In particular, the strongest nonlocal sets we present here contain the least number of orthogonal states among the available results.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# Transparent Object Depth Completion

Transparent Object Depth Completion ( http://arxiv.org/abs/2405.15299v1 )

ライセンス: Link先を確認
Yifan Zhou, Wanli Peng, Zhongyu Yang, He Liu, Yi Sun, (参考訳) 深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明物体には適さないため、把握と操作のための透明物体の認識は依然として大きな課題である。 これらの性質は、深度センサーが捉えた透明物体の深度マップにおけるギャップと不正確な情報をもたらす。 この問題に対処するために,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。 さらに、信頼度推定に基づく深度補正モジュールを導入し、予測深度マップを単ビューおよび多ビューモジュールから融合し、復元深度マップをさらに洗練する。 ClearPose と TransCG のデータセットに対する広範な実験により,本手法は,最先端の手法と比較して,複雑なシナリオにおいて高い精度とロバスト性を達成できることを示した。

The perception of transparent objects for grasp and manipulation remains a major challenge, because existing robotic grasp methods which heavily rely on depth maps are not suitable for transparent objects due to their unique visual properties. These properties lead to gaps and inaccuracies in the depth maps of the transparent objects captured by depth sensors. To address this issue, we propose an end-to-end network for transparent object depth completion that combines the strengths of single-view RGB-D based depth completion and multi-view depth estimation. Moreover, we introduce a depth refinement module based on confidence estimation to fuse predicted depth maps from single-view and multi-view modules, which further refines the restored depth map. The extensive experiments on the ClearPose and TransCG datasets demonstrate that our method achieves superior accuracy and robustness in complex scenarios with significant occlusion compared to the state-of-the-art methods.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# オンラインマーケティングのためのランキングビリティ向上型収益アップリフトモデリングフレームワーク

Rankability-enhanced Revenue Uplift Modeling Framework for Online Marketing ( http://arxiv.org/abs/2405.15301v1 )

ライセンス: Link先を確認
Bowei He, Yunpeng Weng, Xing Tang, Ziqiang Cui, Zexu Sun, Liang Chen, Xiuqiang He, Chen Ma, (参考訳) 昇降モデリングは、クーポンや割引などの介入に対する敏感な個人を特定するために、治療とコントロールグループ間の応答差を予測することで、オンラインマーケティングにおいて広く採用されている。 従来の \textit{conversion uplift modeling} と比較すると、企業収入と直接関係があるため、より高いポテンシャルを示す。 しかし、従来の研究では、収益アップリフトモデリングにおける長期応答の継続的な分布にほとんど対応できない。 さらに、異なる個人間のアップリフトランキングを最適化することは無視されており、これは実際にアップリフトモデリングの中核である。 このような問題に対処するために,本稿ではまずゼロインフレーション対数正規化(ZILN)損失を利用して応答を回帰し,既存のアップリフトモデルに適応可能な対応するモデリングネットワークをカスタマイズする。 そこで我々は,理論的な観点からランキング関連アップリフトモデル誤差について検討し,従来の応答回帰損失に対する追加損失項として,より厳密な2つの誤差境界を提案する。 最後に,全人口の上昇ランクの誤差を直接モデル化し,リストワイドの上昇ランクの損失を推定する。 本手法の有効性を検証するために, オフラインの公共・産業用データセットを用いた実験を行った。 さらに,オンラインフィンテックマーケティングプラットフォームであるTencent FiTで大規模な実験を行い,本手法の実用化における優位性を示す。

Uplift modeling has been widely employed in online marketing by predicting the response difference between the treatment and control groups, so as to identify the sensitive individuals toward interventions like coupons or discounts. Compared with traditional \textit{conversion uplift modeling}, \textit{revenue uplift modeling} exhibits higher potential due to its direct connection with the corporate income. However, previous works can hardly handle the continuous long-tail response distribution in revenue uplift modeling. Moreover, they have neglected to optimize the uplift ranking among different individuals, which is actually the core of uplift modeling. To address such issues, in this paper, we first utilize the zero-inflated lognormal (ZILN) loss to regress the responses and customize the corresponding modeling network, which can be adapted to different existing uplift models. Then, we study the ranking-related uplift modeling error from the theoretical perspective and propose two tighter error bounds as the additional loss terms to the conventional response regression loss. Finally, we directly model the uplift ranking error for the entire population with a listwise uplift ranking loss. The experiment results on offline public and industrial datasets validate the effectiveness of our method for revenue uplift modeling. Furthermore, we conduct large-scale experiments on a prominent online fintech marketing platform, Tencent FiT, which further demonstrates the superiority of our method in practical applications.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 整合操作によるマルチステップ推論におけるトランスフォーマーの動作の理解に向けて

Towards Understanding How Transformer Perform Multi-step Reasoning with Matching Operation ( http://arxiv.org/abs/2405.15302v1 )

ライセンス: Link先を確認
Zhiwei Wang, Yunji Wang, Zhongwang Zhang, Zhangchen Zhou, Hui Jin, Tianyang Hu, Jiacheng Sun, Zhenguo Li, Yaoyu Zhang, Zhi-Qin John Xu, (参考訳) 大規模言語モデルは、数学的問題解決のような複雑な推論タスクに一貫して苦労してきた。 これらのモデルの内部推論メカニズムを調査することで、よりよいモデルアーキテクチャとトレーニング戦略を設計し、最終的には推論能力を向上できます。 本研究では,Transformerが構築したデータセットの多段階推論に使用するマッチング機構について検討する。 我々は,モデルのマッチング機構に影響を与える要因を調査し,小さな初期化とポストレイアノームによりマッチング機構の形成が促進され,モデルの推論能力が向上することを示す。 さらに,直交雑音を付加することでモデルの推論能力を向上させる手法を提案する。 最後に、トランスフォーマーの並列推論機構について検討し、この現象に基づくモデルの推論能力の上限に関する予想を提案する。 これらの洞察は、大きな言語モデルにおける推論プロセスのより深い理解に寄与し、より効果的な推論アーキテクチャとトレーニング戦略の設計をガイドします。

Large language models have consistently struggled with complex reasoning tasks, such as mathematical problem-solving. Investigating the internal reasoning mechanisms of these models can help us design better model architectures and training strategies, ultimately enhancing their reasoning capabilities. In this study, we examine the matching mechanism employed by Transformer for multi-step reasoning on a constructed dataset. We investigate factors that influence the model's matching mechanism and discover that small initialization and post-LayerNorm can facilitate the formation of the matching mechanism, thereby enhancing the model's reasoning ability. Moreover, we propose a method to improve the model's reasoning capability by adding orthogonal noise. Finally, we investigate the parallel reasoning mechanism of Transformers and propose a conjecture on the upper bound of the model's reasoning ability based on this phenomenon. These insights contribute to a deeper understanding of the reasoning processes in large language models and guide designing more effective reasoning architectures and training strategies.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# モデル再構成のための軌道ベース多目的ハイパーパラメータ最適化

Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining ( http://arxiv.org/abs/2405.15303v1 )

ライセンス: Link先を確認
Wenyu Wang, Zheyi Fan, Szu Hui Ng, (参考訳) 機械学習モデルのトレーニングには、本質的にリソース集約的でノイズの多い反復的な学習手順が含まれており、モデルパフォーマンスのエポックな監視を可能にする。 しかし、多目的ハイパーパラメータ最適化のシナリオでは、反復的な学習手順から得られる洞察は通常、未利用のままである。 ハイパーパラメータ設定下での複数のエポック間のモデル性能の追跡は、対象空間における軌道を生成し、モデル再トレーニングのための意思決定に有用な洞察を提供する可能性にもかかわらず、軌道に沿ったトレードオフがしばしば見過ごされていることに気付く。 そこで本研究では,学習エポックを付加的な決定変数として用い,軌道情報を組み込んだ多目的ハイパーパラメータ最適化問題を提案する。 それに対応して,2つの特徴を特徴とする新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。 1)ハイパーパラメータの設定の予測軌道による改善を捉えた取得機能及び 2)エポック効率を最大化するために軌道をいつ終了させるかを決定する多目的早期停止機構。 多様な合成シミュレーションとハイパーパラメータチューニングベンチマークの数値実験により、我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端の多目的最適化器よりも優れていることが示された。

Training machine learning models inherently involves a resource-intensive and noisy iterative learning procedure that allows epoch-wise monitoring of the model performance. However, in multi-objective hyperparameter optimization scenarios, the insights gained from the iterative learning procedure typically remain underutilized. We notice that tracking the model performance across multiple epochs under a hyperparameter setting creates a trajectory in the objective space and that trade-offs along the trajectories are often overlooked despite their potential to offer valuable insights to decision-making for model retraining. Therefore, in this study, we propose to enhance the multi-objective hyperparameter optimization problem by having training epochs as an additional decision variable to incorporate trajectory information. Correspondingly, we present a novel trajectory-based multi-objective Bayesian optimization algorithm characterized by two features: 1) an acquisition function that captures the improvement made by the predictive trajectory of any hyperparameter setting and 2) a multi-objective early stopping mechanism that determines when to terminate the trajectory to maximize epoch efficiency. Numerical experiments on diverse synthetic simulations and hyperparameter tuning benchmarks indicate that our algorithm outperforms the state-of-the-art multi-objective optimizers in both locating better trade-offs and tuning efficiency.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# 概念領域補正と勾配保存による拡散モデルの非学習概念

Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient ( http://arxiv.org/abs/2405.15304v1 )

ライセンス: Link先を確認
Yongliang Wu, Shiji Zhou, Mingzhuo Yang, Lianzhe Wang, Wenbo Zhu, Heng Chang, Xiao Zhou, Xu Yang, (参考訳) 現在のテキスト・画像拡散モデルでは、画像生成タスクにおいて画期的な結果が得られている。 しかし、事前トレーニング中の機密情報の不可避な取り込みは、生成した画像に著作権侵害やプライバシー侵害などの重大なリスクをもたらす。 マシン・アンラーニング(MU)は、モデルが捉えたセンシティブな概念に対する効果的な方法であり、これらの問題に対処するための有望なアプローチであることが示されている。 それでも、概念消去のための既存のMUメソッドには、主なボトルネックが2つある。 1) 概念消去が未学習の集合内のデータにのみ有効であり、未学習の集合の外へ誘導する一般化問題は、しばしば機密概念の生成につながる。 対象概念の消去はモデルの性能を著しく低下させる。 そこで本研究では,拡散モデルにおける非学習概念のための概念ドメイン補正フレームワークを最初に提案する。 直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。 第2に,勾配手術に基づく概念保存方式を考案する。 このアプローチは、再学習の勾配に矛盾する未学習の勾配の一部を緩和し、未学習のプロセスがモデルのパフォーマンスを最小限に破壊することを保証する。 最後に,モデルの有効性を検証し,モデルの有効性を保ちながら拡散モデルにおける概念学習の課題に対処する手法の能力を実証した。

Current text-to-image diffusion models have achieved groundbreaking results in image generation tasks. However, the unavoidable inclusion of sensitive information during pre-training introduces significant risks such as copyright infringement and privacy violations in the generated images. Machine Unlearning (MU) provides a effective way to the sensitive concepts captured by the model, has been shown to be a promising approach to addressing these issues. Nonetheless, existing MU methods for concept erasure encounter two primary bottlenecks: 1) generalization issues, where concept erasure is effective only for the data within the unlearn set, and prompts outside the unlearn set often still result in the generation of sensitive concepts; and 2) utility drop, where erasing target concepts significantly degrades the model's performance. To this end, this paper first proposes a concept domain correction framework for unlearning concepts in diffusion models. By aligning the output domains of sensitive concepts and anchor concepts through adversarial training, we enhance the generalizability of the unlearning results. Secondly, we devise a concept-preserving scheme based on gradient surgery. This approach alleviates the parts of the unlearning gradient that contradict the relearning gradient, ensuring that the process of unlearning minimally disrupts the model's performance. Finally, extensive experiments validate the effectiveness of our model, demonstrating our method's capability to address the challenges of concept unlearning in diffusion models while preserving model utility.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# Diff3DS: 可変カーブレンダリングによるビュー一貫性3Dスケッチの生成

Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering ( http://arxiv.org/abs/2405.15305v1 )

ライセンス: Link先を確認
Yibo Zhang, Lihong Wang, Changqing Zou, Tieru Wu, Rui Ma, (参考訳) 3Dスケッチは、オブジェクトやシーンの3D形状と構造を視覚的に表現するために広く使用されている。 しかし、3Dスケッチの作成は、しばしばユーザーがプロの芸術的スキルを持つ必要がある。 既存の研究は、主に3D仮想システムにおけるインタラクティブなスケッチ生成能力の向上に重点を置いている。 本研究では,様々な監督下での3次元パラメトリック曲線の最適化により,ビュー一貫性を持つ3Dスケッチを生成するための,新たな差別化可能なレンダリングフレームワークDiff3DSを提案する。 具体的には、3次元有理B\'ezier曲線を2次元曲線に変換するために視点投影を行い、その後、カスタマイズ可能なラスタライザを用いて2次元ラスタ画像に変換する。 このフレームワークは3次元スケッチとラスタ画像の領域を橋渡しし、2次元画像領域で計算された勾配による3次元スケッチのエンドツーエンド最適化を実現する。 我々のDiff3DSは、テキスト3Dスケッチや画像3Dスケッチなどの新しい3Dスケッチ生成タスクを、Score Distillation Sampling (SDS)のような蒸留ベースの一般的な監督によってサポートすることができる。 大規模な実験によって有望な結果が得られ、我々のフレームワークの可能性を実証した。

3D sketches are widely used for visually representing the 3D shape and structure of objects or scenes. However, the creation of 3D sketch often requires users to possess professional artistic skills. Existing research efforts primarily focus on enhancing the ability of interactive sketch generation in 3D virtual systems. In this work, we propose Diff3DS, a novel differentiable rendering framework for generating view-consistent 3D sketch by optimizing 3D parametric curves under various supervisions. Specifically, we perform perspective projection to render the 3D rational B\'ezier curves into 2D curves, which are subsequently converted to a 2D raster image via our customized differentiable rasterizer. Our framework bridges the domains of 3D sketch and raster image, achieving end-toend optimization of 3D sketch through gradients computed in the 2D image domain. Our Diff3DS can enable a series of novel 3D sketch generation tasks, including textto-3D sketch and image-to-3D sketch, supported by the popular distillation-based supervision, such as Score Distillation Sampling (SDS). Extensive experiments have yielded promising results and demonstrated the potential of our framework.
翻訳日:2024-05-27 15:40:48 公開日:2024-05-24
# DeTikZify:TikZによる科学図とスケッチのためのグラフィックプログラムの合成

DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ ( http://arxiv.org/abs/2405.15306v1 )

ライセンス: Link先を確認
Jonas Belouadi, Steffen Eger, Simone Paolo Ponzetto, (参考訳) 紙にアイデアをスケッチするのは比較的簡単だが、高品質の科学的人物を作るのは時間と手間がかかり難い。 さらに、意味情報を保存しているフォーマットに格納されていない既存のフィギュアを再現することは、同様に複雑である。 この問題を解決するために,スケッチや既存図形に基づくTikZグラフィクスプログラムとして科学図形を自動的に合成する,新しいマルチモーダル言語モデルDeTikZifyを導入する。 これを実現するために、これまでで最大のTikZデータセットであるDaTikZv2と、360k以上の人間が作成したTikZグラフィックスを含むSketchFig、手書きのスケッチと対応する科学図とを組み合わせたデータセットであるSciCap++、さまざまな科学図と関連するメタデータのコレクションであるSciCap++の3つの新しいデータセットを作成しました。 私たちは、SciCap++とDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。 また、MCTSベースの推論アルゴリズムを導入し、DeTikZifyが追加のトレーニングを必要とせずに出力を反復的に洗練できるようにする。 DeTikZifyは,TikZプログラムの合成において商業的Claude 3とGPT-4Vよりも優れた性能を示し,MCTSアルゴリズムによりその性能を効果的に向上させる。 コード、モデル、データセットを公開しています。

Creating high-quality scientific figures can be time-consuming and challenging, even though sketching ideas on paper is relatively easy. Furthermore, recreating existing figures that are not stored in formats preserving semantic information is equally complex. To tackle this problem, we introduce DeTikZify, a novel multimodal language model that automatically synthesizes scientific figures as semantics-preserving TikZ graphics programs based on sketches and existing figures. To achieve this, we create three new datasets: DaTikZv2, the largest TikZ dataset to date, containing over 360k human-created TikZ graphics; SketchFig, a dataset that pairs hand-drawn sketches with their corresponding scientific figures; and SciCap++, a collection of diverse scientific figures and associated metadata. We train DeTikZify on SciCap++ and DaTikZv2, along with synthetically generated sketches learned from SketchFig. We also introduce an MCTS-based inference algorithm that enables DeTikZify to iteratively refine its outputs without the need for additional training. Through both automatic and human evaluation, we demonstrate that DeTikZify outperforms commercial Claude 3 and GPT-4V in synthesizing TikZ programs, with the MCTS algorithm effectively boosting its performance. We make our code, models, and datasets publicly available.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# テキスト・トゥ・SQL生成における幻覚を緩和するための新しい効果的な戦略

Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation ( http://arxiv.org/abs/2405.15307v1 )

ライセンス: Link先を確認
Ge Qu, Jinyang Li, Bowen Li, Bowen Qin, Nan Huo, Chenhao Ma, Reynold Cheng, (参考訳) In-Context Learning (ICL)によって駆動される大規模言語モデル(LLM)は、テキストからSQLへのパフォーマンスを大幅に改善した。 従来の手法では一般に2段階の推論フレームワーク、すなわち 1)スキーマリンク及びスキーマリンク 2) 論理的合成, フレームワークの有効性だけでなく解釈性も向上する。 これらの進歩にもかかわらず、LLMの一般化の本質的に悪い性質は幻覚を引き起こすことが多く、LLMの潜在能力を制限している。 本研究ではまず,テキスト・トゥ・SQLにおける各段階における幻覚の共通型を特定し,分類する。 次に,各段階における幻覚を緩和する新しい戦略であるタスクアライメント(TA)を導入する。 TAは、タスクをスクラッチから始めるのではなく、同様のタスクの経験を活用することをLLMに推奨する。 これにより、LLMは一般化の負担を軽減し、幻覚を効果的に緩和することができる。 さらに,この戦略に基づいたテキスト間SQLフレームワークであるTA-SQLを提案する。 実験結果と包括的分析により,本フレームワークの有効性とロバスト性を示した。 具体的には、BIRD開発において、GPT-4ベースラインのパフォーマンスを相対的に21.23%向上させ、6つのモデルと4つの主流で複雑なテキスト-SQLベンチマークで大幅な改善をもたらす。

Large Language Models (LLMs) driven by In-Context Learning (ICL) have significantly improved the performance of text-to-SQL. Previous methods generally employ a two-stage reasoning framework, namely 1) schema linking and 2) logical synthesis, making the framework not only effective but also interpretable. Despite these advancements, the inherent bad nature of the generalization of LLMs often results in hallucinations, which limits the full potential of LLMs. In this work, we first identify and categorize the common types of hallucinations at each stage in text-to-SQL. We then introduce a novel strategy, Task Alignment (TA), designed to mitigate hallucinations at each stage. TA encourages LLMs to take advantage of experiences from similar tasks rather than starting the tasks from scratch. This can help LLMs reduce the burden of generalization, thereby mitigating hallucinations effectively. We further propose TA-SQL, a text-to-SQL framework based on this strategy. The experimental results and comprehensive analysis demonstrate the effectiveness and robustness of our framework. Specifically, it enhances the performance of the GPT-4 baseline by 21.23% relatively on BIRD dev and it yields significant improvements across six models and four mainstream, complex text-to-SQL benchmarks.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# 保護モチベーション理論を用いた育児用パスワード変更の試み

Nudging Users to Change Breached Passwords Using the Protection Motivation Theory ( http://arxiv.org/abs/2405.15308v1 )

ライセンス: Link先を確認
Yixin Zou, Khue Le, Peter Mayer, Alessandro Acquisti, Adam J. Aviv, Florian Schaub, (参考訳) 我々は保護動機理論(PMT)に基づいて、侵入したパスワードの変更を促すナッジを設計する。 われわれのオンライン実験($n$=1,386$)は、2x2ファクターデザインの脅威控訴(パスワード侵害によるネガティブな結果のハイライト)と対処控訴(パスワード侵害の仕方に関する指示を提供する)の有効性を比較した。 コントロール条件と比較すると、脅威の訴えを受けた参加者はパスワードを変更する傾向があり、双方の訴えを受けた参加者はパスワードを変更する傾向があり、どちらの比較も影響が小さい。 参加者のパスワード変更行動は、セキュリティ姿勢(SA-6)や、侵入から経過した時間などの他の要因とさらに関連付けられており、PTTベースのヌッジは有用だが、パスワード変更を完全に動機付けるには不十分であることを示している。 本研究は, PMTのセキュリティ研究への応用に寄与し, 漏洩したクレデンシャル通知を改善するための具体的な設計上の意味を提供する。

We draw on the Protection Motivation Theory (PMT) to design nudges that encourage users to change breached passwords. Our online experiment ($n$=$1,386$) compared the effectiveness of a threat appeal (highlighting negative consequences of breached passwords) and a coping appeal (providing instructions on how to change the breached password) in a 2x2 factorial design. Compared to the control condition, participants receiving the threat appeal were more likely to intend to change their passwords, and participants receiving both appeals were more likely to end up changing their passwords; both comparisons have a small effect size. Participants' password change behaviors are further associated with other factors such as their security attitudes (SA-6) and time passed since the breach, suggesting that PMT-based nudges are useful but insufficient to fully motivate users to change their passwords. Our study contributes to PMT's application in security research and provides concrete design implications for improving compromised credential notifications.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# Spectraformer: Transformer用の統一ランダム機能フレームワーク

Spectraformer: A Unified Random Feature Framework for Transformer ( http://arxiv.org/abs/2405.15310v1 )

ライセンス: Link先を確認
Duke Nguyen, Aditya Joshi, Flora Salim, (参考訳) 様々なカーネル近似とカーネル学習技術を用いた注意の線形化は有望である。 過去の手法では、ランダムな特徴パラダイムの中でコンポーネント関数とウェイト行列の組み合わせのサブセットを使用していた。 本研究では,トランスフォーマーにおける注目学習のための重み行列と成分関数の組み合わせを体系的に比較する必要性を明らかにする。 本稿では,Transformerの線形化に着目したカーネル関数の近似と学習のための統合フレームワークであるSpectraformerを紹介する。 LRAベンチマークにおいて,3つのテキストタスクに対して,成分関数と重み行列の幅広いクラスを実験した。 構成関数と重み行列を複数組み合わせて実験した結果,従来のSOTAランダム機能であるTransformerよりも23.4%高速なトレーニング時間と25.2%低メモリ使用率の新たな組み合わせが得られた。 私たちのコードは、https://anonymous.4open.science/r/spectraformer-8A97 で利用可能です。

Linearization of attention using various kernel approximation and kernel learning techniques has shown promise. Past methods use a subset of combinations of component functions and weight matrices within the random features paradigm. We identify the need for a systematic comparison of different combinations of weight matrix and component functions for attention learning in Transformer. In this work, we introduce Spectraformer, a unified framework for approximating and learning the kernel function in linearized attention of the Transformer. We experiment with broad classes of component functions and weight matrices for three textual tasks in the LRA benchmark. Our experimentation with multiple combinations of component functions and weight matrices leads us to a novel combination with 23.4% faster training time and 25.2% lower memory consumption over the previous SOTA random feature Transformer, while maintaining the performance, as compared to the Original Transformer. Our code is available at: https://anonymous.4open.science/r/spectraformer-8A97 .
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# \textsc{Retro}]{\textsc{Retro}: \underline{Re}using \underline{t}eacher p\underline{ro}jection head for efficient embedded distillation on Lightweight Models via Self-supervised Learning

\textsc{Retro}]{\textsc{Retro}: \underline{Re}using \underline{t}eacher p\underline{ro}jection head for efficient embedding distillation on Lightweight Models via Self-supervised Learning ( http://arxiv.org/abs/2405.15311v1 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Chae Jung Park, (参考訳) 自己教師付き学習(SSL)は、大量のラベルのないデータで効果的な表現を学習する能力に注目が集まっている。 軽量モデルは、コントラストと一貫性の制約を用いて、より大規模な自己教師付き事前訓練モデルから蒸留することができる。 しかし、プロジェクションヘッドのサイズの違いは、生徒が先生の埋め込みを正確に模倣することを困難にしている。 本稿では,教師のプロジェクションヘッドを学生に再利用する「textsc{Retro}」を提案する。 例えば、ResNet-50/101/152を教師として使用したEfficientNet-B0のトレーニングでは、ImageNetの線形結果が6.9\%$、69.3\%$、69.8\%$に改善され、パラメータが大幅に少ない。

Self-supervised learning (SSL) is gaining attention for its ability to learn effective representations with large amounts of unlabeled data. Lightweight models can be distilled from larger self-supervised pre-trained models using contrastive and consistency constraints. Still, the different sizes of the projection heads make it challenging for students to mimic the teacher's embedding accurately. We propose \textsc{Retro}, which reuses the teacher's projection head for students, and our experimental results demonstrate significant improvements over the state-of-the-art on all lightweight models. For instance, when training EfficientNet-B0 using ResNet-50/101/152 as teachers, our approach improves the linear result on ImageNet to $66.9\%$, $69.3\%$, and $69.8\%$, respectively, with significantly fewer parameters.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# 多機能核融合と双方向LSTMを用いた資源効率の良い心拍分類

Resource-Efficient Heartbeat Classification Using Multi-Feature Fusion and Bidirectional LSTM ( http://arxiv.org/abs/2405.15312v1 )

ライセンス: Link先を確認
Reza Nikandish, Jiayu He, Benyamin Haghi, (参考訳) 本稿では,多機能核融合と双方向長短期記憶(Bi-LSTM)を用いた心電図に基づく心拍分類のための資源効率のよい手法を提案する。 このデータセットは、MIT-BIH Arrhythmia Database: Normal (N)、Left Bundle Branch Block (LBBB)、Right Bundle Branch Block (RBBB)、Premature Ventricular Contraction (PVC)、Paced Beat (PB)の5つのオリジナルクラスで構成されている。 離散ウェーブレット変換やデュアル移動平均ウィンドウを含む前処理手法を用いて、生ECG信号のノイズやアーチファクトを低減し、ECG波形の主点(PQRST)を抽出する。 入力特性として本質的にノイズに対して頑健な時間間隔と非曲率領域を活用することで,多機能融合を実現する。 シミュレーションにより、曲線下領域の機能を取り入れたことにより、RBBB と LBBB の難易度が 31.4\% から 84.3\% に向上し、LBBB は 69.6\% から 87.0\% に向上した。 従来のLSTMネットワークではなく、Bi-LSTMネットワークを使用することで、RBBBクラスに必要なネットワークパラメータが28倍の精度(33.8\%対21.8\%)が得られる。 パラメータサイズが小(84k)、小(150k)、中(478k)、大(1.25M)のモデルを含む複数のニューラルネットワークモデルを開発した。

In this article, we present a resource-efficient approach for electrocardiogram (ECG) based heartbeat classification using multi-feature fusion and bidirectional long short-term memory (Bi-LSTM). The dataset comprises five original classes from the MIT-BIH Arrhythmia Database: Normal (N), Left Bundle Branch Block (LBBB), Right Bundle Branch Block (RBBB), Premature Ventricular Contraction (PVC), and Paced Beat (PB). Preprocessing methods including the discrete wavelet transform and dual moving average windows are used to reduce noise and artifacts in the raw ECG signal, and extract the main points (PQRST) of the ECG waveform. Multi-feature fusion is achieved by utilizing time intervals and the proposed under-the-curve areas, which are inherently robust against noise, as input features. Simulations demonstrated that incorporating under-the-curve area features improved the classification accuracy for the challenging RBBB and LBBB classes from 31.4\% to 84.3\% for RBBB, and from 69.6\% to 87.0\% for LBBB. Using a Bi-LSTM network, rather than a conventional LSTM network, resulted in higher accuracy (33.8\% vs 21.8\%) with a 28\% reduction in required network parameters for the RBBB class. Multiple neural network models with varying parameter sizes, including tiny (84k), small (150k), medium (478k), and large (1.25M) models, are developed to achieve high accuracy \textit{across all classes}, a more crucial and challenging goal than overall classification accuracy.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# ハイブリッドマスクインフォームドフュージョンによるテキスト・画像編集の強化

Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion ( http://arxiv.org/abs/2405.15313v1 )

ライセンス: Link先を確認
Aoxue Li, Mingyang Yi, Zhenguo Li, (参考訳) 近年,拡散モデルの適用により,テキスト・トゥ・イメージ(T2I)編集が大幅に進歩している。 生成した画像の視覚的な約束にもかかわらず、期待されるテキストプロンプトとの矛盾は依然として一般的である。 本研究の目的は,拡散モデルに基づくテキスト誘導画像編集手法の体系的改善であり,その限界に対処することである。 特に拡散ベースの編集における一般的な考え方は、まず、インバージョン技術、DDIMインバージョンを通じてソースイメージを再構成する。 次に、ソース中間状態(隠れた)を(反転によって達成された)対象画像と注意深く統合する融合プロセスに従う。 残念なことに、そのような標準的なパイプラインは、テクスチャ保持の干渉と、いくつかの地域で新しい文字の生成によって、多くの場合失敗する。 これを軽減するために、人間のアノテーションを外部知識として組み込んで「マスクインフォームド」領域に編集を限定する。 次に、編集した画像に、ソース画像と構築された中間画像とを、モデルの自己保持モジュール内で慎重に融合させる。 大規模な実験結果から,提案した `MaSaFusion'' は既存の T2I 編集技術を大幅に改善することが示された。

Recently, text-to-image (T2I) editing has been greatly pushed forward by applying diffusion models. Despite the visual promise of the generated images, inconsistencies with the expected textual prompt remain prevalent. This paper aims to systematically improve the text-guided image editing techniques based on diffusion models, by addressing their limitations. Notably, the common idea in diffusion-based editing firstly reconstructs the source image via inversion techniques e.g., DDIM Inversion. Then following a fusion process that carefully integrates the source intermediate (hidden) states (obtained by inversion) with the ones of the target image. Unfortunately, such a standard pipeline fails in many cases due to the interference of texture retention and the new characters creation in some regions. To mitigate this, we incorporate human annotation as an external knowledge to confine editing within a ``Mask-informed'' region. Then we carefully Fuse the edited image with the source image and a constructed intermediate image within the model's Self-Attention module. Extensive empirical results demonstrate the proposed ``MaSaFusion'' significantly improves the existing T2I editing techniques.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# 出力制約された決定木

Output-Constrained Decision Trees ( http://arxiv.org/abs/2405.15314v1 )

ライセンス: Link先を確認
Ş. İlker Birbil, Doğanay Özese, Mustafa Baydoğan, (参考訳) 任意の対の目標の間に相関が存在する場合、ベクトル値出力を処理できる予測方法が必要である。 この設定では、多目的学習は様々なアプリケーションで広く使われているため、特に重要である。 本稿では,マルチターゲット出力だけでなく,対象間の制約も扱える決定木を新たに導入する。 我々は,制約に対処する分割基準を調整し,実現可能な予測を得ることにより,従来の決定木をカスタマイズすることに注力する。 最適化に基づく厳密なアプローチといくつかのヒューリスティックなアプローチを示し、それぞれの利点と欠点について議論する。 本研究は,提案手法の有効性を実証し,比較するための計算研究である。

When there is a correlation between any pair of targets, one needs a prediction method that can handle vector-valued output. In this setting, multi-target learning is particularly important as it is widely used in various applications. This paper introduces new variants of decision trees that can handle not only multi-target output but also the constraints among the targets. We focus on the customization of conventional decision trees by adjusting the splitting criteria to handle the constraints and obtain feasible predictions. We present both an optimization-based exact approach and several heuristics, complete with a discussion on their respective advantages and disadvantages. To support our findings, we conduct a computational study to demonstrate and compare the results of the proposed approaches.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# 障害: データ分散はフェデレーション学習に対する攻撃を分解する

Decaf: Data Distribution Decompose Attack against Federated Learning ( http://arxiv.org/abs/2405.15316v1 )

ライセンス: Link先を確認
Zhiyang Dai, Chunyi Zhou, Anmin Fu, (参考訳) 生成的敵ネットワーク攻撃、メンバシップ推論攻撃、プロパティ推論攻撃、モデルインバージョン攻撃など、一般的なFL(Federated Learning)プライバシ推論技術とは対照的に、我々は革新的なプライバシの脅威、すなわちデータ分散分解攻撃(Data Distribution Decompose Attack on FL)を考案した。 この攻撃により、真面目だが真面目なFLサーバは、被害者FLユーザーが所有する各クラスの割合を慎重にプロファイリングし、ローカル市場アイテムの分布やビジネス競争性などのセンシティブな情報を拡散することができる。 ディカフのくぼみは、局所的なモデル勾配の大きさが、各クラスの比率を含む基礎となるデータ分布を密接に反映しているという深い観察にある。 Decafは2つの重要な課題に対処する: 犠牲者が与える欠落/無効なクラスを前提として正確に識別し、勾配変化と残りの各非nullクラスの間の正確な関係を定量化する。 とくにDecafは、ひそかに運用しており、データ配布のプライバシーの侵害に関して、完全に受動的で、被害者のユーザには検出不可能だ。 5つのベンチマークデータセット(MNIST、FASHION-MNIST、CIFAR-10、FER-2013、SkinCancer)の検証では、カスタマイズされた畳み込みネットワーク、標準化されたVGG16、ResNet18など、さまざまなモデルアーキテクチャが採用されている。 結果から,IID,非IIDのいずれであっても,ローカルなデータ分散を正確に分解できることを示す。 具体的には、Deafによって分解された分布と基底真理の間の$L_{\infty}$距離を用いて測定される相似性は、ヌル類が存在しない場合、一貫して5\%以下である。 さらに、Decafは、正式な証明によって検証された任意の犠牲者のnullクラスを決定する際に、100\%の精度を達成する。

In contrast to prevalent Federated Learning (FL) privacy inference techniques such as generative adversarial networks attacks, membership inference attacks, property inference attacks, and model inversion attacks, we devise an innovative privacy threat: the Data Distribution Decompose Attack on FL, termed Decaf. This attack enables an honest-but-curious FL server to meticulously profile the proportion of each class owned by the victim FL user, divulging sensitive information like local market item distribution and business competitiveness. The crux of Decaf lies in the profound observation that the magnitude of local model gradient changes closely mirrors the underlying data distribution, including the proportion of each class. Decaf addresses two crucial challenges: accurately identify the missing/null class(es) given by any victim user as a premise and then quantify the precise relationship between gradient changes and each remaining non-null class. Notably, Decaf operates stealthily, rendering it entirely passive and undetectable to victim users regarding the infringement of their data distribution privacy. Experimental validation on five benchmark datasets (MNIST, FASHION-MNIST, CIFAR-10, FER-2013, and SkinCancer) employing diverse model architectures, including customized convolutional networks, standardized VGG16, and ResNet18, demonstrates Decaf's efficacy. Results indicate its ability to accurately decompose local user data distribution, regardless of whether it is IID or non-IID distributed. Specifically, the dissimilarity measured using $L_{\infty}$ distance between the distribution decomposed by Decaf and ground truth is consistently below 5\% when no null classes exist. Moreover, Decaf achieves 100\% accuracy in determining any victim user's null classes, validated through formal proof.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# NuwaTS:不完全な時系列を全て保存する

NuwaTS: Mending Every Incomplete Time Series ( http://arxiv.org/abs/2405.15317v1 )

ライセンス: Link先を確認
Jinguo Cheng, Chunwei Yang, Wanlin Cai, Yuxuan Liang, Yuankai Wu, (参考訳) 時系列計算は様々な現実世界のシステムにおいて重要な役割を担い、広く研究されてきた。 時系列計算のモデルは、しばしば特殊化を必要とし、異なるドメインに対する異なる設計と欠落パターンを必要とする。 本研究では,プレトレーニング言語モデル(PLM)を一般化した時系列計算のためのフレームワークであるNuwaTSを紹介する。 トレーニングが完了すると、このモデルは、欠落したパターンを持つ任意のドメインからの不完全な時系列上の計算タスクに適用することができる。 まず、不完全時系列の各サブシリーズパッチに対する特定の埋め込みを考案する。 これらの埋め込みは、パッチ自体、パッチ内の欠落したデータパターン、およびパッチの統計特性に関する情報をカプセル化する。 異なる欠落パターンに対するモデルの適応性を高めるために、異なる欠落パターン間で同じパッチの表現をより類似させる対照的な学習手法を提案する。 この対照的な損失と、欠落したデータ計算タスクを組み合わせることで、PLMを訓練して1対1の計算モデルを得る。 さらに,プラグ・アンド・プレイ方式を用いてドメイン固有モデルの学習を行う。 実験の結果,様々な領域から1700万以上の時系列のデータセットを活用することで,既存のドメイン固有モデルよりも優れた1対1の計算モデルが得られた。 また,NuwaTSは予測などの他の時系列タスクにも一般化可能であることがわかった。 私たちのコードはhttps://github.com/Chengyui/NuwaTS.comで公開されています。

Time series imputation plays a crucial role in various real-world systems and has been extensively explored. Models for time series imputation often require specialization, necessitating distinct designs for different domains and missing patterns. In this study, we introduce NuwaTS, a framework to repurpose Pre-trained Language Model (PLM) for general time series imputation. Once trained, this model can be applied to imputation tasks on incomplete time series from any domain with any missing patterns. We begin by devising specific embeddings for each sub-series patch of the incomplete time series. These embeddings encapsulate information about the patch itself, the missing data patterns within the patch, and the patch's statistical characteristics. To enhance the model's adaptability to different missing patterns, we propose a contrastive learning approach to make representations of the same patch more similar across different missing patterns. By combining this contrastive loss with the missing data imputation task, we train PLMs to obtain a one-for-all imputation model. Furthermore, we utilize a plug-and-play layer-wise fine-tuning approach to train domain-specific models. Experimental results demonstrate that leveraging a dataset of over seventeen million time series from diverse domains, we obtain a one-for-all imputation model which outperforms existing domain-specific models across various datasets and missing patterns. Additionally, we find that NuwaTS can be generalized to other time series tasks such as forecasting. Our codes are available at https://github.com/Chengyui/NuwaTS.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# Long-LLMはLong-Context Tasksの必要性か?

Are Long-LLMs A Necessity For Long-Context Tasks? ( http://arxiv.org/abs/2405.15318v1 )

ライセンス: Link先を確認
Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Yujia Zhou, Xu Chen, Zhicheng Dou, (参考訳) 長いLLMの学習とデプロイは、最近の進歩にもかかわらず難しい問題である。 本研究では,Long-LLMが長文タスクの解決に必須ではないこと,また,長文タスクの入力内でオラクルの短文を純粋に処理することで,長文タスクの解決が可能であることを論じる。 その上で,LC-Boost(Long-Context Bootstrapper)というフレームワークを提案する。 私たちのフレームワークでは、短いLLMが2つの決定を下すように促しています。 1)入力内のコンテキストの適切な部分にどのようにアクセスするか。 2)アクセスしたコンテキストを効果的に活用する方法。 LC-Boostは、提示されたタスクに基づいてコンテキストを適応的にアクセスして利用することにより、多種多様長文処理問題に対処するための一般的なフレームワークとして機能する。 LC-Boostは,リソース消費をはるかに小さくすることで,大幅な性能向上を実現している。

The learning and deployment of long-LLMs remains a challenging problem despite recent progresses. In this work, we argue that the long-LLMs are not a necessity to solve long-context tasks, as common long-context tasks are short-context solvable, i.e. they can be solved by purely working with oracle short-contexts within the long-context tasks' inputs. On top of this argument, we propose a framework called LC-Boost (Long-Context Bootstrapper), which enables a short-LLM to address the long-context tasks in a bootstrapping manner. In our framework, the short-LLM prompts itself to reason for two critical decisions: 1) how to access to the appropriate part of context within the input, 2) how to make effective use of the accessed context. By adaptively accessing and utilizing the context based on the presented tasks, LC-Boost can serve as a general framework to handle diversified long-context processing problems. We comprehensively evaluate different types of tasks from popular long-context benchmarks, where LC-Boost is able to achieve a substantially improved performance with a much smaller consumption of resource.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# トランスフォーマーを積み重ねる - 効率的なLLM事前トレーニングのためのモデル成長のクローズアップ

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training ( http://arxiv.org/abs/2405.15319v1 )

ライセンス: Link先を確認
Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu, (参考訳) LLMは大規模であるため、事前訓練には計算コストがかかる。 モデルの成長は、より大きなモデルのトレーニングを加速するために小さなモデルを活用することによって、有望なアプローチとして現れます。 しかし,LLM事前学習におけるこれらのモデル成長法の有効性は未解明のままである。 この研究は、3つの重要な$\underline{\textit{O}}$bstaclesを識別する:$\textit{O}$1) 包括的な評価の欠如、$\textit{O}$2) スケーリングのためのテストされていない生存性、$\textit{O}$3) 経験的ガイドラインの欠如。 既存のアプローチを4つの原子成長演算子にまとめ、標準LLM事前学習環境で体系的に評価する。 G_{\text{stack}}$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、8つの標準NLPベンチマークの全体的な性能は、強いベースラインと比較して改善した。 これらの有望な結果に触発された私たちは、$G_{\text{stack}}$を深く掘り下げて、$\textit{O}$2と$\textit{O}$3に対処する広範な実験を行います。 G_{\text{stack}}$は、成長後の7B LLM、750Bトークンによる事前トレーニング後の7B LLMで、スケーラブルで一貫してパフォーマンスが向上していることを示す。 例えば、従来の300Bトークンを使用した7Bモデルと比較して、G_{\text{stack}}$モデルは194Bトークンと同じ損失に収束し、54.6\%のスピードアップとなる。 さらに、$\textit{O}$3(経験的ガイドラインの欠如)に対処し、$G_{\text{stack}}$の成長タイミングと成長要因を決定するガイドラインを定式化し、一般のLCM事前学習を実践する。 我々はまた、$G_{\text{stack}}$の詳細な議論と包括的なアブレーション研究も提供する。 私たちのコードと事前トレーニングされたモデルは、$\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$で利用可能です。

LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical $\underline{\textit{O}}$bstacles: ($\textit{O}$1) lack of comprehensive evaluation, ($\textit{O}$2) untested viability for scaling, and ($\textit{O}$3) lack of empirical guidelines. To tackle $\textit{O}$1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called $G_{\text{stack}}$, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into $G_{\text{stack}}$ to address $\textit{O}$2 and $\textit{O}$3. For $\textit{O}$2 (untested scalability), our study shows that $G_{\text{stack}}$ is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our $G_{\text{stack}}$ model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address $\textit{O}$3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for $G_{\text{stack}}$, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of $G_{\text{stack}}$. Our code and pre-trained model are available at $\href{https://llm-stacking.github.io/}{https://llm-stacking.github.io/}$.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# トルコ文法的誤り訂正とLLMのための有機データ駆動手法

Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs ( http://arxiv.org/abs/2405.15320v1 )

ライセンス: Link先を確認
Asım Ersoy, Olcay Taner Yıldız, (参考訳) 文法的誤り訂正は、近年のディープラーニングの進歩によって大きな進歩を遂げている。 これらの方法は膨大な量のデータを必要とするため、このギャップを埋めるために合成データセットが構築されている。 残念なことに、合成データセットは一部のケースでは十分にオーガニックではなく、最初からクリーンなデータを必要とする。 さらに、これまで行ってきた作業の大部分は、主に英語に焦点をあてている。 本研究では,新しい有機データ駆動型アプローチ,クリーン挿入,任意の有機データから並列なトルコ文法的誤り訂正データセットの構築,大規模言語モデルのトレーニングに使用されるデータのクリーン化を提案する。 トルコ語の文法的誤り訂正テストの2つのセットについて,現在公開されている3つのうちの2つについて,最先端の結果を得た。 また,本手法が訓練言語モデルの学習損失に与える影響も示す。

Grammatical Error Correction has seen significant progress with the recent advancements in deep learning. As those methods require huge amounts of data, synthetic datasets are being built to fill this gap. Unfortunately, synthetic datasets are not organic enough in some cases and even require clean data to start with. Furthermore, most of the work that has been done is focused mostly on English. In this work, we introduce a new organic data-driven approach, clean insertions, to build parallel Turkish Grammatical Error Correction datasets from any organic data, and to clean the data used for training Large Language Models. We achieve state-of-the-art results on two Turkish Grammatical Error Correction test sets out of the three publicly available ones. We also show the effectiveness of our method on the training losses of training language models.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# SG-Adapter:Scene Graph Guidanceによるテキスト・画像生成の強化

SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance ( http://arxiv.org/abs/2405.15321v1 )

ライセンス: Link先を確認
Guibao Shen, Luozhou Wang, Jiantao Lin, Wenhang Ge, Chaozhe Zhang, Xin Tao, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Guangyong Chen, Yijun Li, Ying-Cong Chen, (参考訳) テキスト・画像生成の最近の進歩は、拡散モデルとマルチモーダリティ学習の発展によって促進されている。 しかしながら、テキストは通常これらのモデルで逐次的に表現されるため、正確な文脈化と構造制御を提供するには不足することが多い。 したがって、生成した画像は、特に複数のオブジェクトや関係を含む複雑なシナリオにおいて、人間の期待と一貫して一致しない。 本稿では,シーングラフの構造化表現を利用して,元のテキスト埋め込みにおける不正確さを補正するScene Graph Adapter(SG-Adapter)を提案する。 SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。 この強化は、複数の関係を含むシナリオにおける正確な対応を維持する上で特に顕著である。 Visual Genomeのような低品質のアノテートデータセットによって引き起こされる課題に対処するため、高度にクリーンでマルチリレーショナルなシーングラフイメージのペアデータセットであるMultiRelsを手作業でキュレートしました。 さらに、画像とシーングラフの対応性を効果的かつ徹底的に測定するために、GPT-4Vから派生した3つのメトリクスを設計する。 定性的かつ定量的な結果は、複数の関係における対応性を制御する上で、我々のアプローチの有効性を検証するものである。

Recent advancements in text-to-image generation have been propelled by the development of diffusion models and multi-modality learning. However, since text is typically represented sequentially in these models, it often falls short in providing accurate contextualization and structural control. So the generated images do not consistently align with human expectations, especially in complex scenarios involving multiple objects and relationships. In this paper, we introduce the Scene Graph Adapter(SG-Adapter), leveraging the structured representation of scene graphs to rectify inaccuracies in the original text embeddings. The SG-Adapter's explicit and non-fully connected graph representation greatly improves the fully connected, transformer-based text representations. This enhancement is particularly notable in maintaining precise correspondence in scenarios involving multiple relationships. To address the challenges posed by low-quality annotated datasets like Visual Genome, we have manually curated a highly clean, multi-relational scene graph-image paired dataset MultiRels. Furthermore, we design three metrics derived from GPT-4V to effectively and thoroughly measure the correspondence between images and scene graphs. Both qualitative and quantitative results validate the efficacy of our approach in controlling the correspondence in multiple relationships.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# Dishonest Approximate Computing - クラウドクライアントの危機

Dishonest Approximate Computing: A Coming Crisis for Cloud Clients ( http://arxiv.org/abs/2405.15322v1 )

ライセンス: Link先を確認
Ye Wang, Jian Dong, Ming Han, Jin Wu, Gang Qu, (参考訳) Approximate Computing (AC)は、エネルギー効率の高いアーキテクチャを実現するための有望な技術として登場し、クラウドサービスプロバイダ(CSP)の電力コスト削減に有効な技術になると期待されている。 しかし、ACの潜在的な誤用には十分な注意が払われておらず、ACの青写真の背後にある危機が迫っている。 違法な財政利益の追求によって、信頼できないCSPは、約束された正確な計算製品としてACサービスを提示し、AC出力を正確な結果として誤って主張することで、低コストのACデバイスをデプロイし、クライアントを欺く可能性がある。 このACの誤用は、クラウドクライアントに金銭的損失とコンピューティングの劣化をもたらす。 本稿では、この悪意ある攻撃をDHAC(DisHonest Approximate Computing)と定義し、そのような攻撃を検出する際にクライアントが直面する技術的課題を分析する。 そこで本研究では,Residual Class Check (RCC) とForward-Backward Check (FBC) の2つのゴールデンモデルフリー検出手法を提案する。 RCCはクライアントに対して、正当な正確な出力が属すべき残留クラスを推論するための低コストなアプローチを提供する。 返された結果の残余クラスを比較することで、クライアントはコンピューティングサービスが任意のAC要素を含むかどうかを判断できる。 FBCはプログラムの中間値を用いて可逆チェックブランチを演算することで潜在的なDHACを検出する。 チェックブランチの入力と返却前の値を比較して,不一致を識別する。 RCCとFBCはどちらも実際の計算タスクと同時実行可能で、現在の入力によるリアルタイムDHAC検出が可能である。 以上の結果から,CRCとFBCはともにDHACの96%~99%の症例を検出できた。

Approximate Computing (AC) has emerged as a promising technique for achieving energy-efficient architectures and is expected to become an effective technique for reducing the electricity cost for cloud service providers (CSP). However, the potential misuse of AC has not received adequate attention, which is a coming crisis behind the blueprint of AC. Driven by the pursuit of illegal financial profits, untrusted CSPs may deploy low-cost AC devices and deceive clients by presenting AC services as promised accurate computing products, while falsely claiming AC outputs as accurate results. This misuse of AC will cause both financial loss and computing degradation to cloud clients. In this paper, we define this malicious attack as DisHonest Approximate Computing (DHAC) and analyze the technical challenges faced by clients in detecting such attacks. To address this issue, we propose two golden model free detection methods: Residual Class Check (RCC) and Forward-Backward Check (FBC). RCC provides clients a low-cost approach to infer the residual class to which a legitimate accurate output should belong. By comparing the residual class of the returned result, clients can determine whether a computing service contains any AC elements. FBC detects potential DHAC by computing an invertible check branch using the intermediate values of the program. It compares the values before entering and after returning from the check branch to identify any discrepancies. Both RCC and FBC can be executed concurrently with real computing tasks, enabling real-time DHAC detection with current inputs. Our experimental results show that both RCC and FBC can detect over 96%-99% of DHAC cases without misjudging any legitimate accurate results.
翻訳日:2024-05-27 15:31:04 公開日:2024-05-24
# 継続的学習、適応、改善: 自律運転へのデュアルプロセスアプローチ

Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving ( http://arxiv.org/abs/2405.15324v1 )

ライセンス: Link先を確認
Jianbiao Mei, Yukai Ma, Xuemeng Yang, Licheng Wen, Xinyu Cai, Xin Li, Daocheng Fu, Bo Zhang, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao, (参考訳) センサー、機械学習、人工知能の改善により、自動運転は大幅に進歩した。 しかし、一般的な手法は複雑なシナリオや因果関係に苦慮し、様々な環境における適応性と解釈性を妨げている。 上記の課題に対処するため,人間の認知プロセスに触発された自律運転の新しいパラダイムである LeapADを紹介した。 特に LeapADは、意思決定に関連する重要なオブジェクトを選択し、環境解釈を単純化し、意思決定の複雑さを軽減することで、人間の注意をエミュレートする。 さらに LeapADには、徹底的な分析と推論のための解析プロセス(System-II)と、迅速かつ経験的な処理のためのヒューリスティックプロセス(System-I)からなる革新的なデュアルプロセス意思決定モジュールが組み込まれている。 分析過程はその論理的推論を利用して言語的な運転経験を蓄積し、それを教師付き微調整によってヒューリスティックプロセスに移す。 リフレクション機構とメモリバンクの増大により、LeapADはクローズドループ環境における過去のミスから継続的に改善される。 CARLAのクローズドループテストでは、LeapADはカメラ入力のみに依存したすべての手法より優れており、ラベル付きデータの桁違いに1~2桁少ないことが示されている。 また、メモリバンクが拡大するにつれて、1.8Bパラメータしか持たないヒューリスティックプロセスは、GPT-4で駆動される分析プロセスから知識を継承し、継続的なパフォーマンス改善を実現することができることを示した。 コードはhttps://github.com/PJLab-ADG/LeapAD.comでリリースされる。

Autonomous driving has advanced significantly due to sensors, machine learning, and artificial intelligence improvements. However, prevailing methods struggle with intricate scenarios and causal relationships, hindering adaptability and interpretability in varied environments. To address the above problems, we introduce LeapAD, a novel paradigm for autonomous driving inspired by the human cognitive process. Specifically, LeapAD emulates human attention by selecting critical objects relevant to driving decisions, simplifying environmental interpretation, and mitigating decision-making complexities. Additionally, LeapAD incorporates an innovative dual-process decision-making module, which consists of an Analytic Process (System-II) for thorough analysis and reasoning, along with a Heuristic Process (System-I) for swift and empirical processing. The Analytic Process leverages its logical reasoning to accumulate linguistic driving experience, which is then transferred to the Heuristic Process by supervised fine-tuning. Through reflection mechanisms and a growing memory bank, LeapAD continuously improves itself from past mistakes in a closed-loop environment. Closed-loop testing in CARLA shows that LeapAD outperforms all methods relying solely on camera input, requiring 1-2 orders of magnitude less labeled data. Experiments also demonstrate that as the memory bank expands, the Heuristic Process with only 1.8B parameters can inherit the knowledge from a GPT-4 powered Analytic Process and achieve continuous performance improvement. Code will be released at https://github.com/PJLab-ADG/LeapAD.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 瞬時依存による時間的因果表現の同定について

On the Identification of Temporally Causal Representation with Instantaneous Dependence ( http://arxiv.org/abs/2405.15325v1 )

ライセンス: Link先を確認
Zijian Li, Yifan Shen, Kaitao Zheng, Ruichu Cai, Xiangchen Song, Mingming Gong, Zhifeng Hao, Zhengmao Zhu, Guangyi Chen, Kun Zhang, (参考訳) 時間的因果表現学習は、時系列観測から潜伏因果過程を特定することを目的としているが、ほとんどの方法は潜伏因果過程が即時関係を持たないという仮定を必要とする。 最近のいくつかの手法は、即時因果関係の場合において識別可能性を達成するが、それらは潜伏変数への介入または観測のグループ化を必要とし、一般に現実世界のシナリオでは入手が困難である。 このギャップを埋めるために、潜伏因果過程がスパース時間遅れおよび瞬時関係を持つようなスパース影響制約を課すことにより、stantane\textbf{O}us \textbf{L}atent dynamics (\textbf{IDOL}) に対する \textbf{ID}entification frameworkを提案する。 具体的には、時系列データの文脈情報を用いて、十分な変動性とスパース影響制約に基づいて、潜伏因果過程の識別可能性を示す。 これらの理論に基づいて、潜伏変数を推定するための時間的変動推論アーキテクチャと、潜伏因果過程を特定するための勾配に基づく空間正規化を組み込んだ。 シミュレーションデータセットによる実験結果から,本手法が潜在因果過程を同定できることが示唆された。 さらに,複数人の動作予測ベンチマークを瞬時依存性で評価した結果,実環境における提案手法の有効性が示唆された。

Temporally causal representation learning aims to identify the latent causal process from time series observations, but most methods require the assumption that the latent causal processes do not have instantaneous relations. Although some recent methods achieve identifiability in the instantaneous causality case, they require either interventions on the latent variables or grouping of the observations, which are in general difficult to obtain in real-world scenarios. To fill this gap, we propose an \textbf{ID}entification framework for instantane\textbf{O}us \textbf{L}atent dynamics (\textbf{IDOL}) by imposing a sparse influence constraint that the latent causal processes have sparse time-delayed and instantaneous relations. Specifically, we establish identifiability results of the latent causal process based on sufficient variability and the sparse influence constraint by employing contextual information of time series data. Based on these theories, we incorporate a temporally variational inference architecture to estimate the latent variables and a gradient-based sparsity regularization to identify the latent causal process. Experimental results on simulation datasets illustrate that our method can identify the latent causal process. Furthermore, evaluations on multiple human motion forecasting benchmarks with instantaneous dependencies indicate the effectiveness of our method in real-world settings.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# Pseudo-hermitian Chebyshev差分行列と非hermitian Liouville量子力学

Pseudo-hermitian Chebyshev differential matrix and non-hermitian Liouville quantum mechanics ( http://arxiv.org/abs/2405.15326v1 )

ライセンス: Link先を確認
Chen Lan, Wei Li, Huifang Geng, (参考訳) スペクトルコロケーション法(SCM)は、有限差分法や有限要素法といった従来の手法と比較して、常微分方程式や偏微分方程式の解法において明らかな優位性を示す。 これにより、SCMは物理学における境界条件を持つシュリンガー型方程式に対処するための強力なツールとなる。 しかし、SCMでよく使われるチェビシェフ微分行列(CDM)は、エルミート的ではなく擬エルミート的である。 この非ハーモニティ性は疑似スペクトルに微妙に影響を与え、固有状態における完全性を失う。 その結果、これらの固有状態にいくつかの問題が生じる。 本稿では,非エルミート的リウヴィル量子力学を再考し,CDMの擬ハーモニティ性を強調し,その拡張モデルを探求する。 さらに,スペクトル不安定性はコンパクト化パラメータの影響を受けやすいことを示す。

The spectral collocation method (SCM) exhibits a clear superiority in solving ordinary and partial differential equations compared to conventional techniques, such as finite difference and finite element methods. This makes SCM a powerful tool for addressing the Schr\"odinger-like equations with boundary conditions in physics. However, the Chebyshev differential matrix (CDM), commonly used in SCM to replace the differential operator, is not Hermitian but pseudo-Hermitian. This non-Hermiticity subtly affects the pseudospectra and leads to a loss of completeness in the eigenstates. Consequently, several issues arise with these eigenstates. In this paper, we revisit the non-Hermitian Liouville quantum mechanics by emphasizing the pseudo-Hermiticity of the CDM and explore its expanded models. Furthermore, we demonstrate that the spectral instability can be influenced by the compactification parameter.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# マルチモーダル・レコメンデーション・アンラーニング

Multi-Modal Recommendation Unlearning ( http://arxiv.org/abs/2405.15328v1 )

ライセンス: Link先を確認
Yash Sinha, Murari Mandal, Mohan Kankanhalli, (参考訳) 法律遵守に関するプライバシー問題や懸念に対処するために、レコメンデーターシステム(RS)の未学習手法が出現している。 しかし、ユーザー好みの進化とコンテンツライセンスの問題はまだ未解決のままだ。 特にマルチモーダル・レコメンデータ・システム(MMRS)では,ユーザの嗜好に対するマルチモーダル情報の影響が増大する傾向にある。 マルチモーダルなユーザ・イテム行動データグラフとRSの行列ベース表現との非互換性のため,従来の未学習手法はMMRSには適用できない。 分割ベースのメソッドは、レコメンデーションパフォーマンスを低下させ、アグリゲーション中にかなりのオーバーヘッドコストを発生させる。 本稿では,マルチモーダル・レコメンデーション・アンラーニングのための新しいフレームワークであるMMRecUNを紹介する。 トレーニングされたレコメンデーションモデルとマーク付き忘れデータから、Reverse Bayesian Personalized Ranking(BPR)の目標を考案し、モデルを忘れるように強制する。 MMRecUNは逆と前方の両方のBPR損失機構を用いて、リザーブセット内の相互作用の影響を選択的に減らし、レザーブセット内の相互作用の重要性を同時に補強する。 MMRecUNは、ベンチマークマルチモーダルレコメンデータデータセットで評価した場合、様々な未学習要求に対してベースライン手法よりも優れていることを示す。 MMRecUNは、ベースラインメソッドと比較して最大$\mathbf{49.85%}$のリコールパフォーマンスの改善を実現している。 最大$\mathbf{1.3}\times$は、データをスクラッチから保持するようにトレーニングされた \textsc{Gold} モデルよりも高速である。 MMRecUNは、ターゲット要素の除去における優れたパフォーマンス、保持された要素のパフォーマンスの保存、以前の方法と比較してオーバーヘッドコストのゼロといった利点を提供する。

Unlearning methods for recommender systems (RS) have emerged to address privacy issues and concerns about legal compliance. However, evolving user preferences and content licensing issues still remain unaddressed. This is particularly true in case of multi-modal recommender systems (MMRS), which aim to accommodate the growing influence of multi-modal information on user preferences. Previous unlearning methods for RS are inapplicable to MMRS due to incompatibility of multi-modal user-item behavior data graph with the matrix based representation of RS. Partitioning based methods degrade recommendation performance and incur significant overhead costs during aggregation. This paper introduces MMRecUN, a new framework for multi-modal recommendation unlearning, which, to the best of our knowledge, is the first attempt in this direction. Given the trained recommendation model and marked forget data, we devise Reverse Bayesian Personalized Ranking (BPR) objective to force the model to forget it. MMRecUN employs both reverse and forward BPR loss mechanisms to selectively attenuate the impact of interactions within the forget set while concurrently reinforcing the significance of interactions within the retain set. Our experiments demonstrate that MMRecUN outperforms baseline methods across various unlearning requests when evaluated on benchmark multi-modal recommender datasets. MMRecUN achieves recall performance improvements of up to $\mathbf{49.85%}$ compared to the baseline methods. It is up to $\mathbf{1.3}\times$ faster than the \textsc{Gold} model, which is trained on retain data from scratch. MMRecUN offers advantages such as superior performance in removing target elements, preservation of performance for retained elements, and zero overhead costs in comparison to previous methods.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# Decompose and Aggregate: ステップバイステップの解釈可能な評価フレームワーク

Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework ( http://arxiv.org/abs/2405.15329v1 )

ライセンス: Link先を確認
Minzhi Li, Zhengyuan Liu, Shumin Deng, Shafiq Joty, Nancy F. Chen, Min-Yen Kan, (参考訳) LLM(Large Language Models)研究の加速により、生成されたテキストを評価する新たな可能性が生まれた。 それらはスケーラブルで経済的な評価者として機能するが、これらの評価者がどの程度信頼できるかという問題は重要な研究課題として浮上している。 審査員としてのLCMのメタ評価における先行研究は、LCMの推進を単一の用途に制限し、最終的な評価決定を得る。 すると、LLMの出力と人間のラベルとの合意を計算する。 これはLLMの評価能力を理解する上での解釈可能性に欠ける。 この課題を踏まえて、我々は、評価プロセスを教育実践に基づいて異なる段階に分解するDecompose and Aggregateを提案する。 実験の結果,LLM の評価精度が向上するだけでなく,様々なメタ評価ベンチマークの異なる LLM に対して 39.6% の改善がもたらされた。

The acceleration of Large Language Models (LLMs) research has opened up new possibilities for evaluating generated texts. They serve as scalable and economical evaluators, but the question of how reliable these evaluators are has emerged as a crucial research question. Prior research efforts in the meta-evaluation of LLMs as judges limit the prompting of an LLM to a single use to obtain a final evaluation decision. They then compute the agreement between LLMs' outputs and human labels. This lacks interpretability in understanding the evaluation capability of LLMs. In light of this challenge, we propose Decompose and Aggregate, which breaks down the evaluation process into different stages based on pedagogical practices. Our experiments illustrate that it not only provides a more interpretable window for how well LLMs evaluate, but also leads to improvements up to 39.6% for different LLMs on a variety of meta-evaluation benchmarks.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# テキスト・画像拡散モデルの作業メカニズムの理解に向けて

Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model ( http://arxiv.org/abs/2405.15330v1 )

ライセンス: Link先を確認
Mingyang Yi, Aoxue Li, Yi Xin, Zhenguo Li, (参考訳) 近年,高画質のテキスト・トゥ・イメージ(T2I)生成には,符号化されたターゲットテキストを段階的に復号化拡散画像生成器にインジェクションすることにより,強力な遅延拡散確率モデル(DPM)が適用されている。 DPMが実際に成功したにも拘わらず、そのメカニズムはまだ解明されていない。 この空白を埋めるために、我々はDPMにおける段階的な騒音発生過程における中間状態を調べることから始める。 経験的観察は、最初の数ステップ後に画像の形状が再構成され、さらに詳細(例えばテクスチャ)で画像が満たされることを示している。 この現象は、DPMにノイズを付加する前処理(生成初期)の最終段階までノイズ画像の低周波信号(形状関連)が劣化しないためである。 本研究は,2段階間のテキストプロンプトにおける各トークンの影響について検討する。 一連のT2I世代の実験の後、一連のテキストプロンプトに条件付けされた。 我々は、初期段階では、画像はテキストプロンプト内の特別なトークン [\texttt{EOS}] によって決定され、テキストプロンプト内の情報は、この段階で既に伝達されていると結論付けている。 その後、拡散モデルは、生成した画像の詳細を自身からの情報により完成する。 最後に,テキストガイダンスを適切に除去することで,T2I生成のプロセスの高速化にこの観測を適用し,最終的に25\%以上のサンプリングを高速化する。

Recently, the strong latent Diffusion Probabilistic Model (DPM) has been applied to high-quality Text-to-Image (T2I) generation (e.g., Stable Diffusion), by injecting the encoded target text prompt into the gradually denoised diffusion image generator. Despite the success of DPM in practice, the mechanism behind it remains to be explored. To fill this blank, we begin by examining the intermediate statuses during the gradual denoising generation process in DPM. The empirical observations indicate, the shape of image is reconstructed after the first few denoising steps, and then the image is filled with details (e.g., texture). The phenomenon is because the low-frequency signal (shape relevant) of the noisy image is not corrupted until the final stage in the forward process (initial stage of generation) of adding noise in DPM. Inspired by the observations, we proceed to explore the influence of each token in the text prompt during the two stages. After a series of experiments of T2I generations conditioned on a set of text prompts. We conclude that in the earlier generation stage, the image is mostly decided by the special token [\texttt{EOS}] in the text prompt, and the information in the text prompt is already conveyed in this stage. After that, the diffusion model completes the details of generated images by information from themselves. Finally, we propose to apply this observation to accelerate the process of T2I generation by properly removing text guidance, which finally accelerates the sampling up to 25\%+.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 相互Validated Off-Policy評価

Cross-Validated Off-Policy Evaluation ( http://arxiv.org/abs/2405.15332v1 )

ライセンス: Link先を確認
Matej Cief, Michal Kompan, Branislav Kveton, (参考訳) 本稿では,オフ政治評価における推定器選択とハイパーパラメータチューニングの問題について検討する。 クロスバリデーションは教師付き学習において最も一般的なモデル選択法であるが、オフ政治評価は主に理論に基づくアプローチに依存しており、実践者への限られた指導しか提供しない。 政治以外の評価にクロスバリデーションをどう使うかを示す。 このことは、非政治評価におけるクロスバリデーションが実現不可能であるという一般的な信念に挑戦する。 提案手法を実証的に評価し,様々なユースケースに対処することを示す。

In this paper, we study the problem of estimator selection and hyper-parameter tuning in off-policy evaluation. Although cross-validation is the most popular method for model selection in supervised learning, off-policy evaluation relies mostly on theory-based approaches, which provide only limited guidance to practitioners. We show how to use cross-validation for off-policy evaluation. This challenges a popular belief that cross-validation in off-policy evaluation is not feasible. We evaluate our method empirically and show that it addresses a variety of use cases.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 認知歪文の検出と肯定的再構成:マンダリンデータセットと評価

Detection and Positive Reconstruction of Cognitive Distortion sentences: Mandarin Dataset and Evaluation ( http://arxiv.org/abs/2405.15334v1 )

ライセンス: Link先を確認
Shuya Lin, Yuxiong Wang, Jonathan Dong, Shiguang Ni, (参考訳) 本研究は、ポジティブ心理学理論に基づくポジティブリコンストラクションフレームワークを紹介する。 否定的な考えを克服することは困難であり、私たちの目標は、肯定的な再解釈を通じてそれらに対処し、再設計することにあります。 この課題に取り組むためには、認知的歪みを識別し、元の思考の意味を保ちながら肯定的に再構成された代替案を提案するという2つのアプローチが必要である。 近年,このプロセスの各段階での自然言語処理(NLP)モデルの英語への応用が研究されている。 本研究では,広義・広義理論に基づくポジティブ・リコンストラクション・フレームワークの理論基盤を強調した。 認知的歪みを検出するための4001のインスタンスと、マンダリンの肯定的な再構成のための1900のインスタンスを含む共有コーパスを提供する。 トランスファーラーニング、微調整済みネットワーク、迅速なエンジニアリングを含む最近のNLP技術を活用し、両タスクの自動化ツールの有効性を実証する。 要約して,本研究は多言語的肯定的再構成に寄与し,認知的歪み検出と肯定的再構成におけるNLPの有効性を強調した。

This research introduces a Positive Reconstruction Framework based on positive psychology theory. Overcoming negative thoughts can be challenging, our objective is to address and reframe them through a positive reinterpretation. To tackle this challenge, a two-fold approach is necessary: identifying cognitive distortions and suggesting a positively reframed alternative while preserving the original thought's meaning. Recent studies have investigated the application of Natural Language Processing (NLP) models in English for each stage of this process. In this study, we emphasize the theoretical foundation for the Positive Reconstruction Framework, grounded in broaden-and-build theory. We provide a shared corpus containing 4001 instances for detecting cognitive distortions and 1900 instances for positive reconstruction in Mandarin. Leveraging recent NLP techniques, including transfer learning, fine-tuning pretrained networks, and prompt engineering, we demonstrate the effectiveness of automated tools for both tasks. In summary, our study contributes to multilingual positive reconstruction, highlighting the effectiveness of NLP in cognitive distortion detection and positive reconstruction.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 総変分距離の判別的推定:生成データに対する忠実度監査者

Discriminative Estimation of Total Variation Distance: A Fidelity Auditor for Generative Data ( http://arxiv.org/abs/2405.15337v1 )

ライセンス: Link先を確認
Lan Tao, Shirong Xu, Chi-Hua Wang, Namjoon Suh, Guang Cheng, (参考訳) 生成AIの普及と、生成データの量の増加(合成データとも呼ばれる)により、生成データの忠実度を評価することが重要な関心事となっている。 本稿では,2つの分布間の総変動(TV)距離を,生成データ忠実度を効果的に評価するための識別的アプローチを提案する。 本手法は,2つの分布の分類におけるベイズリスクとテレビの距離の関係を定量的に評価する。 したがって、総変動距離の推定はベイズリスクの推定に還元される。 特に,2つのガウス分布間のテレビ距離推定誤差の収束率に関する理論的結果を確立する。 分類において、特定の仮説クラスを選択することで、テレビの距離を推定する際の高速収束率が達成できることを実証する。 具体的には、テレビ距離の推定精度は、2つのガウス分布の分離に本質的に依存していることが証明されている。 この現象は広範なシミュレーションを通じて実証的に検証される。 最後に、MNISTデータセットを用いて、合成画像データの忠実度をランク付けするために、この判別的推定手法を適用する。

With the proliferation of generative AI and the increasing volume of generative data (also called as synthetic data), assessing the fidelity of generative data has become a critical concern. In this paper, we propose a discriminative approach to estimate the total variation (TV) distance between two distributions as an effective measure of generative data fidelity. Our method quantitatively characterizes the relation between the Bayes risk in classifying two distributions and their TV distance. Therefore, the estimation of total variation distance reduces to that of the Bayes risk. In particular, this paper establishes theoretical results regarding the convergence rate of the estimation error of TV distance between two Gaussian distributions. We demonstrate that, with a specific choice of hypothesis class in classification, a fast convergence rate in estimating the TV distance can be achieved. Specifically, the estimation accuracy of the TV distance is proven to inherently depend on the separation of two Gaussian distributions: smaller estimation errors are achieved when the two Gaussian distributions are farther apart. This phenomenon is also validated empirically through extensive simulations. In the end, we apply this discriminative estimation method to rank fidelity of synthetic image data using the MNIST dataset.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# V-Zen:新しいマルチモーダルLLMによるGUIの効率的な理解と精密グラウンドディング

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM ( http://arxiv.org/abs/2405.15341v1 )

ライセンス: Link先を確認
Abdur Rahman, Rajat Chawla, Muskaan Kumar, Arkajit Datta, Adarsh Jha, Mukunda NS, Ishaan Bhola, (参考訳) AI研究と応用の急速な発展の中で、マルチモーダル言語モデル(MLLM)は、テキスト、画像、グラフィカルユーザインタフェース(GUI)といった様々なモダリティからの情報の解釈と統合に適した変換力として登場した。 これらの進歩にもかかわらず、GUIの微妙な相互作用と理解は、自動化レベルを高めるために既存のモデルの可能性を制限するという大きな課題を生んでいる。 このギャップを埋めるために,GUIの理解と基盤化の領域に革命をもたらすために,革新的なマルチモーダル大規模言語モデル(MLLM)であるV-Zenを提案する。 デュアル解像度のイメージエンコーダを備えたV-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立し、自己動作型コンピュータシステムの基盤となる。 補完V-ZenはGUIDEデータセットであり、現実世界のGUI要素とタスクベースのシーケンスの広範なコレクションであり、微調整を専門とする触媒として機能している。 V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。 本稿は、GUI自動化の未来を形作る、このエキサイティングな旅に参加するための研究コミュニティへの招待を拡大する。 オープンサイエンスの精神では、私たちのコード、データ、モデルが公開され、複雑で正確な対話を伴うマルチモーダル対話シナリオの道が開かれます。

In the rapidly evolving landscape of AI research and application, Multimodal Large Language Models (MLLMs) have emerged as a transformative force, adept at interpreting and integrating information from diverse modalities such as text, images, and Graphical User Interfaces (GUIs). Despite these advancements, the nuanced interaction and understanding of GUIs pose a significant challenge, limiting the potential of existing models to enhance automation levels. To bridge this gap, this paper presents V-Zen, an innovative Multimodal Large Language Model (MLLM) meticulously crafted to revolutionise the domain of GUI understanding and grounding. Equipped with dual-resolution image encoders, V-Zen establishes new benchmarks in efficient grounding and next-action prediction, thereby laying the groundwork for self-operating computer systems. Complementing V-Zen is the GUIDE dataset, an extensive collection of real-world GUI elements and task-based sequences, serving as a catalyst for specialised fine-tuning. The successful integration of V-Zen and GUIDE marks the dawn of a new era in multimodal AI research, opening the door to intelligent, autonomous computing experiences. This paper extends an invitation to the research community to join this exciting journey, shaping the future of GUI automation. In the spirit of open science, our code, data, and model will be made publicly available, paving the way for multimodal dialogue scenarios with intricate and precise interactions.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# CERNのCMSWEB Kubernetesクラスタにおける新しいセキュリティ機能の実装

Implementation of New Security Features in CMSWEB Kubernetes Cluster at CERN ( http://arxiv.org/abs/2405.15342v1 )

ライセンス: Link先を確認
Aamir Ali, Muhammad Imran, Valentin Kuznetsov, Spyridon Trigazis, Aroosha Pervaiz, Andreas Pfeiffer, Marco Mascheroni, (参考訳) CMSWEBクラスタは、CMS実験の運用に必要な重要なサービスをホストしているため、CMS(Compact Muon Solenoid)実験のアクティビティに欠かせない。 これらのサービスと対応するデータのセキュリティは、CMSにとって極めて重要です。 悪意のある攻撃は、サービスの可用性を損なう可能性がある。 したがって、堅牢なセキュリティインフラを構築することが重要である。 本稿では、CMSWEB Kubernetes("k8s")クラスタに導入された新たなセキュリティ機能について論じる。 新機能としては、ネットワークポリシの実装、Open Policy Agent(OPA)のデプロイ、OPAポリシの実施、Vaultの統合などがある。 ネットワークポリシはクラスタ内のファイアウォールとして機能し、ポッド間のネットワーク通信を最小限に制限します。 OPAは、セキュリティをさらに強化するために、操作の生成、更新、削除の間、いくつかのカスタム定義ポリシーに対してオブジェクトを検証する。 Kubernetes APIサーバの設定を再コンパイルしたり変更することなく、Kubernetesオブジェクトとその監査機能にカスタマイズされたポリシーを適用することで、既存の競合や問題を検出することができます。 Kubernetesにはシークレットの概念が含まれているが、ベース64エンコードされているだけで、動的に設定されていない。 Vaultは動的に保護し、保存し、機密データへのアクセスを厳しく制御する。 これにより、秘密情報は暗号化され、保護され、中央集権化され、よりスケーラブルで管理が容易になる。 したがって、これらの3つのセキュリティ機能の実装は、CMSWEB Kubernetesインフラストラクチャのセキュリティと信頼性の強化を裏付けるものだ。

The CMSWEB cluster is pivotal to the activities of the Compact Muon Solenoid (CMS) experiment, as it hosts critical services required for the operational needs of the CMS experiment. The security of these services and the corresponding data is crucial to CMS. Any malicious attack can compromise the availability of our services. Therefore, it is important to construct a robust security infrastructure. In this work, we discuss new security features introduced to the CMSWEB Kubernetes ("k8s") cluster. The new features include the implementation of network policies, deployment of Open Policy Agent (OPA), enforcement of OPA policies, and the integration of Vault. The network policies act as an inside-the-cluster firewall to limit the network communication between the pods to the minimum necessary, and its dynamic nature allows us to work with microservices. The OPA validates the objects against some custom-defined policies during create, update, and delete operations to further enhance security. Without recompiling or changing the configuration of the Kubernetes API server, it can apply customized policies on Kubernetes objects and their audit functionality enabling us to detect pre-existing conflicts and issues. Although Kubernetes incorporates the concepts of secrets, they are only base64 encoded and are not dynamically configured. This is where Vault comes into play: Vault dynamically secures, stores, and tightly controls access to sensitive data. This way, the secret information is encrypted, secured, and centralized, making it more scalable and easier to manage. Thus, the implementation of these three security features corroborate the enhanced security and reliability of the CMSWEB Kubernetes infrastructure.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# どんなフェイクビデオでも見分けがつく: 大規模データとモーションのパワーを解放する

Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features ( http://arxiv.org/abs/2405.15343v1 )

ライセンス: Link先を確認
Lichuan Ji, Yingqi Lin, Zhenhua Huang, Yan Han, Xiaogang Xu, Jiafei Wu, Chong Wang, Zhe Liu, (参考訳) AIGC(AI-Generated Content)の開発により、Soraを含むような、驚くほどリアルなAI生成ビデオの開発が促進された。 しかし、これらのモデルの普及により、顔ビデオ詐欺や著作権侵害など、潜在的な誤用に関する懸念が高まっている。 これらの懸念に対処するためには、ビデオの信頼性を正確に判定できる堅牢なツールの開発が必要である。 主な課題は、トレーニングのためのデータセットとニューラル分類器にある。 現在のデータセットには、効果的な識別のために、リアルおよび生成されたコンテンツの多様で包括的なリポジトリが欠けている。 本稿では,AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットについて紹介する。 実際のビデオと生成されたビデオの2.66万以上のインスタンスが含まれており、カテゴリ、毎秒フレーム、解像度、長さが異なる。 GenVidDetの包括性は、一般化可能なビデオ検出器のトレーニングを可能にする。 また,DuB3D(Dual-Branch 3D Transformer)という,映像と実写映像を区別する革新的で効果的な手法を提案する。 DuB3Dは、生の時空間データと光の流れを適応的に利用し、融合するデュアルブランチアーキテクチャを使用している。 検出性能に影響を及ぼす重要な要因を系統的に検討し,DuB3Dの最適構成を実現する。 GenVidDetでトレーニングされたDuB3Dは、96.77%の精度で、実際のビデオコンテンツと生成されたビデオコンテンツを区別することができる。

The development of AI-Generated Content (AIGC) has empowered the creation of remarkably realistic AI-generated videos, such as those involving Sora. However, the widespread adoption of these models raises concerns regarding potential misuse, including face video scams and copyright disputes. Addressing these concerns requires the development of robust tools capable of accurately determining video authenticity. The main challenges lie in the dataset and neural classifier for training. Current datasets lack a varied and comprehensive repository of real and generated content for effective discrimination. In this paper, we first introduce an extensive video dataset designed specifically for AI-Generated Video Detection (GenVidDet). It includes over 2.66 M instances of both real and generated videos, varying in categories, frames per second, resolutions, and lengths. The comprehensiveness of GenVidDet enables the training of a generalizable video detector. We also present the Dual-Branch 3D Transformer (DuB3D), an innovative and effective method for distinguishing between real and generated videos, enhanced by incorporating motion information alongside visual appearance. DuB3D utilizes a dual-branch architecture that adaptively leverages and fuses raw spatio-temporal data and optical flow. We systematically explore the critical factors affecting detection performance, achieving the optimal configuration for DuB3D. Trained on GenVidDet, DuB3D can distinguish between real and generated video content with 96.77% accuracy, and strong generalization capability even for unseen types.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# BiSup: 大規模言語モデルの双方向量子化エラー抑制

BiSup: Bidirectional Quantization Error Suppression for Large Language Models ( http://arxiv.org/abs/2405.15346v1 )

ライセンス: Link先を確認
Minghui Zou, Ronghui Guo, Sai Zhang, Xiaowang Zhang, Zhiyong Feng, (参考訳) LLM(Large Language Models)のサイズと文脈の長さが大きくなるにつれて、LLMの効率的な展開のための重要な技術として重量活性化量子化が出現している。 重量のみの量子化と比較して、重量活性化量子化は、活性化における外れ値の存在によりより大きな課題をもたらす。 既存の手法は、混合精度の量子化と外れ値の抑制を探索することによって大きな進歩を遂げた。 しかし、これらの手法は主に単一行列乗法の結果の最適化に重点を置いており、LLMにおける量子化誤差の双方向伝播を無視している。 具体的には、エラーは層を通して同じトークン内に垂直に蓄積し、自己保持機構によって異なるトークンを水平方向に拡散する。 この問題に対処するために、双方向量子化誤差抑圧法であるBiSupを導入する。 適切な最適化可能なパラメータ空間を構築することで、BiSupは量子化を意識したパラメータ効率の微調整に少量のデータを使用し、誤差垂直蓄積を抑制する。 さらに、BiSupでは、システムプロンプトのキー値キャッシュの高精度を保ち、エラー水平拡散を緩和するプロンプト混合量子化戦略を採用している。 Llama と Qwen ファミリーの大規模な実験により、BiSup は2つの最先端手法(平均 WikiText2 のパープレクシリティは Atom では 13.26 から 9.41 に、W3A3-g128 構成では QuaRot では 14.33 から 7.85 に減少し、さらに低ビット重量活性化量子化の実践的応用を促進できることを示した。

As the size and context length of Large Language Models (LLMs) grow, weight-activation quantization has emerged as a crucial technique for efficient deployment of LLMs. Compared to weight-only quantization, weight-activation quantization presents greater challenges due to the presence of outliers in activations. Existing methods have made significant progress by exploring mixed-precision quantization and outlier suppression. However, these methods primarily focus on optimizing the results of single matrix multiplication, neglecting the bidirectional propagation of quantization errors in LLMs. Specifically, errors accumulate vertically within the same token through layers, and diffuse horizontally across different tokens due to self-attention mechanisms. To address this issue, we introduce BiSup, a Bidirectional quantization error Suppression method. By constructing appropriate optimizable parameter spaces, BiSup utilizes a small amount of data for quantization-aware parameter-efficient fine-tuning to suppress the error vertical accumulation. Besides, BiSup employs prompt mixed-precision quantization strategy, which preserves high precision for the key-value cache of system prompts, to mitigate the error horizontal diffusion. Extensive experiments on Llama and Qwen families demonstrate that BiSup can improve performance over two state-of-the-art methods (the average WikiText2 perplexity decreases from 13.26 to 9.41 for Atom and from 14.33 to 7.85 for QuaRot under the W3A3-g128 configuration), further facilitating the practical applications of low-bit weight-activation quantization.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# UnKE: 大規模言語モデルにおける非構造化知識編集

UnKE: Unstructured Knowledge Editing in Large Language Models ( http://arxiv.org/abs/2405.15349v1 )

ライセンス: Link先を確認
Jingcheng Deng, Zihao Wei, Liang Pang, Hanxing Ding, Huawei Shen, Xueqi Cheng, (参考訳) 近年の知識編集手法は、構造化知識がMLP層や特定のニューロンに局所的にキー-値対として格納されるという仮定に大きく依存しているため、大きな言語モデルにおける構造化知識の修正に重点を置いている。 しかし、このタスク設定は、現実世界の知識のかなりの部分が、長文の内容、ノイズ、複雑で包括的な性質を特徴とする非構造化形式に格納されているという事実を見落としている。 従来の手法(例えば、MEMIT)で用いられた仮定から得られる「知識の配置」と「期間駆動最適化」技術は、構造化されていない知識には不適である。 これらの課題に対処するため、我々は新しい非構造化知識編集手法、すなわちUnKEを提案し、レイヤー次元とトークン次元における以前の仮定を拡張した。 まず、レイヤの次元において、私たちは"知識の配置"のステップを捨て、最初の少数のレイヤをキーとして扱います。 次に、トークン次元の全ての入力トークンに対して「終了駆動最適化」を「原因駆動最適化」に置き換え、キージェネレータの最後の層を直接最適化して編集を行い、必要なキーベクトルを生成する。 レイヤレベルでキーと値のペアを利用することで、UnKEは、複雑で包括的な非構造化知識を効果的に表現し、編集し、MDP層とアテンション層の両方の可能性を活用する。 新たに提案された非構造知識編集データセット(UnKEBench)と従来の構造化データセットの結果は、UnKEが優れたパフォーマンスを発揮し、強力なベースラインを超えたことを示している。

Recent knowledge editing methods have primarily focused on modifying structured knowledge in large language models, heavily relying on the assumption that structured knowledge is stored as key-value pairs locally in MLP layers or specific neurons. However, this task setting overlooks the fact that a significant portion of real-world knowledge is stored in an unstructured format, characterized by long-form content, noise, and a complex yet comprehensive nature. The "knowledge locating" and "term-driven optimization" techniques conducted from the assumption used in previous methods (e.g., MEMIT) are ill-suited for unstructured knowledge. To address these challenges, we propose a novel unstructured knowledge editing method, namely UnKE, which extends previous assumptions in the layer dimension and token dimension. Firstly, in the layer dimension, we discard the "knowledge locating" step and treat first few layers as the key, which expand knowledge storage through layers to break the "knowledge stored locally" assumption. Next, we replace "term-driven optimization" with "cause-driven optimization" across all inputted tokens in the token dimension, directly optimizing the last layer of the key generator to perform editing to generate the required key vectors. By utilizing key-value pairs at the layer level, UnKE effectively represents and edits complex and comprehensive unstructured knowledge, leveraging the potential of both the MLP and attention layers. Results on newly proposed unstructure knowledge editing dataset (UnKEBench) and traditional structured datasets demonstrate that UnKE achieves remarkable performance, surpassing strong baselines.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 幻覚誘導最適化による大型視線モデルにおける幻覚の緩和

Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization ( http://arxiv.org/abs/2405.15356v1 )

ライセンス: Link先を確認
Beitao Chen, Xinyu Lyu, Lianli Gao, Jingkuan Song, Heng Tao Shen, (参考訳) 大規模視覚言語モデル(LVLM)は多モーダルデータの理解において例外的な能力を示したが、幻覚に悩まされ、生成されたテキストと対応する画像とが切り離される。 現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して、幻覚と対象物の間の対数ギャップを適切に広げることで、これらの幻覚を緩和しようとするものである。 しかし、世界的視覚の不確実性の制御不能な性質のため、幻覚トークンを正確に誘導することは困難であり、幻覚を緩和する効果を著しく制限し、望ましくない幻覚を発生させるかもしれない。 この問題に対処するため,コントラスト復号法の有効性を高めるために理論的解析を行った。 この知見に基づいて,Halucination-induced Optimization (HIO) という新しい最適化戦略を導入する。 この戦略は、微調整された理論的選好モデル(Contrary Bradley-Terry Model)に依存する幻覚とターゲットトークンのコントラストを増幅し、LVLMにおける幻覚を緩和するための効率的なコントラスト復号を容易にする。 我々のHIO戦略はLVLMの幻覚を効果的に低減し、様々なベンチマークで最先端の手法より優れていることを示す。

Although Large Visual Language Models (LVLMs) have demonstrated exceptional abilities in understanding multimodal data, they invariably suffer from hallucinations, leading to a disconnect between the generated text and the corresponding images. Almost all current visual contrastive decoding methods attempt to mitigate these hallucinations by introducing visual uncertainty information that appropriately widens the contrastive logits gap between hallucinatory and targeted ones. However, due to uncontrollable nature of the global visual uncertainty, they struggle to precisely induce the hallucinatory tokens, which severely limits their effectiveness in mitigating hallucinations and may even lead to the generation of undesired hallucinations. To tackle this issue, we conducted the theoretical analysis to promote the effectiveness of contrast decoding. Building on this insight, we introduce a novel optimization strategy named Hallucination-Induced Optimization (HIO). This strategy seeks to amplify the contrast between hallucinatory and targeted tokens relying on a fine-tuned theoretical preference model (i.e., Contrary Bradley-Terry Model), thereby facilitating efficient contrast decoding to alleviate hallucinations in LVLMs. Extensive experimental research demonstrates that our HIO strategy can effectively reduce hallucinations in LVLMs, outperforming state-of-the-art methods across various benchmarks.
翻訳日:2024-05-27 15:21:18 公開日:2024-05-24
# 群ベースSLOPEモデルの強スクリーニング規則

Strong screening rules for group-based SLOPE models ( http://arxiv.org/abs/2405.15357v1 )

ライセンス: Link先を確認
Fabio Feser, Marina Evangelou, (参考訳) ペナル化回帰モデルにおける正規化パラメータの調整は高価な作業であり、パラメータのパスに沿って複数のモデルを適合させる必要がある。 強いスクリーニング規則は、適合前に入力の寸法を小さくすることで、計算コストを劇的に削減する。 我々は,グループSLOPEとスパースグループSLOPEというグループベースSLOPEモデルに対する強力なスクリーニングルールを開発する。 開発されたルールは、OSCARを含むグループベースのOWLモデルのより広範なファミリーに適用できる。 合成データと実データの両方を用いた実験により, スクリーニング規則が適合過程を著しく加速することが示された。 スクリーニング規則により、SLOPE群とスパース群SLOPE群は高次元データセット、特に遺伝学で遭遇したデータセットに適用できる。

Tuning the regularization parameter in penalized regression models is an expensive task, requiring multiple models to be fit along a path of parameters. Strong screening rules drastically reduce computational costs by lowering the dimensionality of the input prior to fitting. We develop strong screening rules for group-based Sorted L-One Penalized Estimation (SLOPE) models: Group SLOPE and Sparse-group SLOPE. The developed rules are applicable for the wider family of group-based OWL models, including OSCAR. Our experiments on both synthetic and real data show that the screening rules significantly accelerate the fitting process. The screening rules make it accessible for group SLOPE and sparse-group SLOPE to be applied to high-dimensional datasets, particularly those encountered in genetics.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 直交非巡回グラフを用いた協調型多言語学習

Coordinated Multi-Neighborhood Learning on a Directed Acyclic Graph ( http://arxiv.org/abs/2405.15358v1 )

ライセンス: Link先を確認
Stephen Smith, Qing Zhou, (参考訳) 因果有向非巡回グラフ(DAG)の構造を学習することは、機械学習や人工知能の多くの分野において、幅広い応用において有用である。 しかし、高次元の環境では、強い、しばしば制限的な仮定なしで優れた経験的、理論的結果を得るのは難しい。 さらに、ネットワークに格納される変数のすべてが観測可能であるかどうかも疑わしい。 すると、関連する信頼できる推論のために変数のサブセットに考慮を限定することが興味がある。 実際、様々な分野の研究者は、通常、因果発見のためにネットワーク内のターゲットノードのセットを選択することができる。 本論文では,複数のユーザ特定ターゲットノードの周囲の局所的構造を推定する制約に基づく新しい手法を開発し,近隣における構造学習の協調を可能にする。 本手法はDAG構造全体を学習することなく因果発見を容易にする。 真のグラフにおける対象ノードの局所的近傍構造に対して,アルゴリズムの整合性を評価する。 合成および実世界のデータを用いた実験結果から,我々のアルゴリズムは,DAG全体を推定する標準的な手法よりも計算コストの少ない近傍構造を学習する上で,より正確であることが示された。 我々のメソッドを実装するRパッケージはhttps://github.com/stephenvsmith/CMLでアクセスできます。

Learning the structure of causal directed acyclic graphs (DAGs) is useful in many areas of machine learning and artificial intelligence, with wide applications. However, in the high-dimensional setting, it is challenging to obtain good empirical and theoretical results without strong and often restrictive assumptions. Additionally, it is questionable whether all of the variables purported to be included in the network are observable. It is of interest then to restrict consideration to a subset of the variables for relevant and reliable inferences. In fact, researchers in various disciplines can usually select a set of target nodes in the network for causal discovery. This paper develops a new constraint-based method for estimating the local structure around multiple user-specified target nodes, enabling coordination in structure learning between neighborhoods. Our method facilitates causal discovery without learning the entire DAG structure. We establish consistency results for our algorithm with respect to the local neighborhood structure of the target nodes in the true graph. Experimental results on synthetic and real-world data show that our algorithm is more accurate in learning the neighborhood structures with much less computational cost than standard methods that estimate the entire DAG. An R package implementing our methods may be accessed at https://github.com/stephenvsmith/CML.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 位相最適化によるマルチキュービット量子状態生成

Multi-qubit quantum state preparation enabled by topology optimization ( http://arxiv.org/abs/2405.15361v1 )

ライセンス: Link先を確認
A. Miguel-Torcal, A. González-Tudela, F. J. García-Vidal, A. I. Fernández-Domínguez, (参考訳) トポロジー最適化を用いることで、逆設計のナノフォトニックキャビティにより、量子エミッタのペアとトリプルの純状態が作成できる。 我々の装置は誘電率の適度な値を持ち、連続的なレーザー駆動の下で動作し、遠方量子ビット(多波長の自然波長)に接近するターゲット(ベル、W)状態に忠実性をもたらす。 本手法では,エミッタ間の散逸結合を最大化して絡み合いを発生させることにより,システムの駆動散逸ダイナミクスにおいて,多粒子純定常状態の生成を可能にする。 我々の発見は、非古典的な光発生、量子シミュレーション、量子センシングの潜在的な応用を含む、工学的な特徴を持つマルチキュービット量子状態の効率的かつ迅速な準備に向けての道を開く。

Using topology optimization, we inverse-design nanophotonic cavities enabling the preparation of pure states of pairs and triples of quantum emitters. Our devices involve moderate values of the dielectric constant, operate under continuous laser driving, and yield fidelities to the target (Bell and W) states approaching unity for distant qubits (several natural wavelengths apart). In the fidelity optimization procedure, our algorithm generates entanglement by maximizing the dissipative coupling between the emitters, which allows the formation of multipartite pure steady states in the driven-dissipative dynamics of the system. Our findings open the way towards the efficient and fast preparation of multiqubit quantum states with engineered features, with potential applications for nonclassical light generation, quantum simulation, and quantum sensing.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 制御可能なメモリを用いたパイプライン並列処理

Pipeline Parallelism with Controllable Memory ( http://arxiv.org/abs/2405.15362v1 )

ライセンス: Link先を確認
Penghui Qi, Xinyi Wan, Nyamdavaa Amar, Min Lin, (参考訳) パイプライン並列性は広く研究されてきたが、既存のスケジュールには体系的な方法論がない。 本稿では,パイプラインスケジュールをビルディングブロックの繰り返しとして分解するフレームワークを提案し,ビルディングブロックの寿命がパイプラインスケジュールのピークアクティベーションメモリを決定することを示す。 観察によってガイドされた結果,既存のパイプラインスケジュールのほとんどすべてが,私たちの知る限りでは,メモリ非効率であることが分かりました。 これを解決するために、制御可能なアクティベーションメモリを備えたメモリ効率の良いビルディングブロック群を導入し、1F1Bのピークアクティベーションメモリを、効率を犠牲にすることなく1/2に削減し、最大スループットで1/3にまで削減する。 また、1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現できる。 我々の評価は、純粋なパイプライン並列化設定では、スループットの点で1F1Bを7%から55%上回っていることを示している。 提案手法は,大規模言語モデルの1F1Bベースラインよりも16%のスループット向上を示す。

Pipeline parallelism has been widely explored, but most existing schedules lack a systematic methodology. In this paper, we propose a framework to decompose pipeline schedules as repeating a building block and we show that the lifespan of the building block decides the peak activation memory of the pipeline schedule. Guided by the observations, we find that almost all existing pipeline schedules, to the best of our knowledge, are memory inefficient. To address this, we introduce a family of memory efficient building blocks with controllable activation memory, which can reduce the peak activation memory to 1/2 of 1F1B without sacrificing efficiency, and even to 1/3 with comparable throughput. We can also achieve almost zero pipeline bubbles while maintaining the same activation memory as 1F1B. Our evaluations demonstrate that in pure pipeline parallelism settings, our methods outperform 1F1B by from 7% to 55% in terms of throughput. When employing a grid search over hybrid parallelism hyperparameters in practical scenarios, our proposed methods demonstrate a 16% throughput improvement over the 1F1B baseline for large language models.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# NVSソルバー:ゼロショット新規ビューシンセサイザーとしてのビデオ拡散モデル

NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer ( http://arxiv.org/abs/2405.15364v1 )

ライセンス: Link先を確認
Meng You, Zhiyu Zhu, Hui Liu, Junhui Hou, (参考訳) 事前学習した大規模ビデオ拡散モデルの強力な生成能力を生かして,新しいビュー合成(NVS)パラダイムであるNVS-Solverを提案する。 NVS-Solverは、任意のビューで拡散サンプリングプロセスを適応的に調整し、静的シーンの1つまたは複数のビューや動的シーンのモノクロビデオから顕著な視覚体験を作成できるようにする。 具体的には,我々の理論モデルに基づいて,映像拡散過程を制御するために,所与のシーンの先行をワープ入力ビューで表現したスコア関数を反復的に変調する。 さらに,推定誤差の境界を理論的に探索することにより,ビューポーズと拡散ステップの数に応じて適応的に変調を実現する。 静的シーンと動的シーンの両方における広範囲な評価は、NVS-Solverの最先端手法に対する有意な優位性を定量的および定性的に裏付ける。 \textit{ Source code in } \href{https://github.com/ZHU-Zhiyu/NVS_Solver}{https://github.com/ZHU-Zhiyu/NVS$\_$Solver}

By harnessing the potent generative capabilities of pre-trained large video diffusion models, we propose NVS-Solver, a new novel view synthesis (NVS) paradigm that operates \textit{without} the need for training. NVS-Solver adaptively modulates the diffusion sampling process with the given views to enable the creation of remarkable visual experiences from single or multiple views of static scenes or monocular videos of dynamic scenes. Specifically, built upon our theoretical modeling, we iteratively modulate the score function with the given scene priors represented with warped input views to control the video diffusion process. Moreover, by theoretically exploring the boundary of the estimation error, we achieve the modulation in an adaptive fashion according to the view pose and the number of diffusion steps. Extensive evaluations on both static and dynamic scenes substantiate the significant superiority of our NVS-Solver over state-of-the-art methods both quantitatively and qualitatively. \textit{ Source code in } \href{https://github.com/ZHU-Zhiyu/NVS_Solver}{https://github.com/ZHU-Zhiyu/NVS$\_$Solver}.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# U3M:マルチモーダルセマンティックセマンティックセグメンテーションのための無バイアスマルチスケールモーダル核融合モデル

U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation ( http://arxiv.org/abs/2405.15365v1 )

ライセンス: Link先を確認
Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li, (参考訳) マルチモーダルセマンティックセグメンテーションはコンピュータビジョンの重要な構成要素であり、様々なソースから設定された豊富な情報を活用することで、通常、一元的手法を超越している。 これらのバイアスは特定の状況では有利かもしれないが、一般的に異なるマルチモーダルコンテキストにおけるモデルの適応性を制限し、パフォーマンスを損なう可能性がある。 この問題に対処するために、モデル自体の本質的能力を活用して、マルチモーダル核融合における最適平衡を発見し、U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentationを導入する。 具体的には、マルチモーダル視覚データの非バイアス統合を含む。 さらに,グローバル機能とローカル機能の両方を効果的に抽出・統合するために,複数スケールで機能融合を利用する。 実験結果から,本手法は複数のデータセットにまたがる優れた性能を実現し,セマンティックセグメンテーションの堅牢性と汎用性を検証した。 コードはU3M-multimodal-semantic-segmentationで利用可能です。

Multimodal semantic segmentation is a pivotal component of computer vision and typically surpasses unimodal methods by utilizing rich information set from various sources.Current models frequently adopt modality-specific frameworks that inherently biases toward certain modalities. Although these biases might be advantageous in specific situations, they generally limit the adaptability of the models across different multimodal contexts, thereby potentially impairing performance. To address this issue, we leverage the inherent capabilities of the model itself to discover the optimal equilibrium in multimodal fusion and introduce U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation. Specifically, this method involves an unbiased integration of multimodal visual data. Additionally, we employ feature fusion at multiple scales to ensure the effective extraction and integration of both global and local features. Experimental results demonstrate that our approach achieves superior performance across multiple datasets, verifing its efficacy in enhancing the robustness and versatility of semantic segmentation in diverse settings. Our code is available at U3M-multimodal-semantic-segmentation.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 表現ミスマッチのキャプチャによるドメイン間政策適応

Cross-Domain Policy Adaptation by Capturing Representation Mismatch ( http://arxiv.org/abs/2405.15369v1 )

ライセンス: Link先を確認
Jiafei Lyu, Chenjia Bai, Jingwen Yang, Zongqing Lu, Xiu Li, (参考訳) 強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。 本稿では、ソースドメインとターゲットドメインの間に動的ミスマッチが存在する場合の動的適応設定について考察し、ターゲットドメインとの限られた相互作用しか持たず、十分なソースドメインデータにアクセスできることを示す。 既存のメソッドは、ドメイン分類器を学習し、値の不一致の観点からデータフィルタリングを行うなど、この問題に対処します。 代わりに、分離された表現学習の観点から、この課題に取り組む。 対象領域のみに表現学習を行い、ソース領域からの遷移における表現偏差を測定し、動的ミスマッチの信号であることを示す。 また、表現偏差は、表現偏差を報酬として採用する動機となる、ソースドメインとターゲットドメインにおける所定のポリシのパフォーマンス差を示す。 生成された表現は、ポリシーまたは値関数の両方に関与しないが、報酬ペナライザとしてのみ機能する。 運動学および形態学のミスマッチを用いた環境実験を行い,本手法が多くのタスクに対して強い性能を示すことを示す。 私たちのコードはhttps://github.com/dmksjfl/PARで公開されています。

It is vital to learn effective policies that can be transferred to different domains with dynamics discrepancies in reinforcement learning (RL). In this paper, we consider dynamics adaptation settings where there exists dynamics mismatch between the source domain and the target domain, and one can get access to sufficient source domain data, while can only have limited interactions with the target domain. Existing methods address this problem by learning domain classifiers, performing data filtering from a value discrepancy perspective, etc. Instead, we tackle this challenge from a decoupled representation learning perspective. We perform representation learning only in the target domain and measure the representation deviations on the transitions from the source domain, which we show can be a signal of dynamics mismatch. We also show that representation deviation upper bounds performance difference of a given policy in the source domain and target domain, which motivates us to adopt representation deviation as a reward penalty. The produced representations are not involved in either policy or value function, but only serve as a reward penalizer. We conduct extensive experiments on environments with kinematic and morphology mismatch, and the results show that our method exhibits strong performance on many tasks. Our code is publicly available at https://github.com/dmksjfl/PAR.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 高精度かつ解釈可能な時系列異常検出が可能な大規模言語モデル

Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection ( http://arxiv.org/abs/2405.15370v1 )

ライセンス: Link先を確認
Jun Liu, Chaoyun Zhang, Jiaxu Qian, Minghua Ma, Si Qin, Chetan Bansal, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, (参考訳) 時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定し、システムの完全性を維持し、迅速な応答対策を可能にすることで、様々な産業において重要な役割を担っている。 従来のTSADモデルは、しばしばディープラーニングに依存し、広範なトレーニングデータを必要とし、ブラックボックスとして動作し、検出された異常の解釈性に欠ける。 これらの課題に対処するために,LLMADを提案する。Large Language Models (LLMs) を用いた新しいTSAD手法で,高精度かつ解釈可能なTSAD結果を提供する。 LLMADは, 肯定的, 否定的に類似した時系列セグメントを検索することで, 文脈内異常検出にLLMを革新的に応用し, LLMの有効性を著しく向上させた。 さらにLLMADでは、AnoCoT(Anomaly Detection Chain-of-Thought)アプローチを採用して、意思決定プロセスのエキスパートロジックを模倣している。 この手法は、その性能をさらに向上させ、LLMADは、ユーザ意思決定において特に重要である多角的視点を通じて、検出に関する説明を提供することができる。 3つのデータセットの実験から、LLMADは最先端のディープラーニング手法に匹敵する検出性能を達成し、検出に顕著な解釈性を提供することを示す。 私たちの知る限りでは、TSADにLSMを直接採用するのはこれが初めてです。

Time series anomaly detection (TSAD) plays a crucial role in various industries by identifying atypical patterns that deviate from standard trends, thereby maintaining system integrity and enabling prompt response measures. Traditional TSAD models, which often rely on deep learning, require extensive training data and operate as black boxes, lacking interpretability for detected anomalies. To address these challenges, we propose LLMAD, a novel TSAD method that employs Large Language Models (LLMs) to deliver accurate and interpretable TSAD results. LLMAD innovatively applies LLMs for in-context anomaly detection by retrieving both positive and negative similar time series segments, significantly enhancing LLMs' effectiveness. Furthermore, LLMAD employs the Anomaly Detection Chain-of-Thought (AnoCoT) approach to mimic expert logic for its decision-making process. This method further enhances its performance and enables LLMAD to provide explanations for their detections through versatile perspectives, which are particularly important for user decision-making. Experiments on three datasets indicate that our LLMAD achieves detection performance comparable to state-of-the-art deep learning methods while offering remarkable interpretability for detections. To the best of our knowledge, this is the first work that directly employs LLMs for TSAD.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 介護ロボットのための自律的なクイットスプレッド

Autonomous Quilt Spreading for Caregiving Robots ( http://arxiv.org/abs/2405.15373v1 )

ライセンス: Link先を確認
Yuchun Guo, Zhiqing Lu, Yanling Zhou, Xin Jiang, (参考訳) 本研究では,睡眠中のキルトを故意に消耗させる乳児の早期かつ正確に再発見を確実にするための新しい戦略を提案する。 我々のアプローチは、干渉分解能とキルト拡散の2つのステップに定式化されている。 提案手法は,DWPoseヒト骨格検出モデルとSegment Anythingインスタンスセグメンテーションモデルを利用して,乳児の状態を正確に認識し,乳児の手足から生じる干渉に対処する。 事前の研究に基づいて、EM*D深層学習モデルを用いて、キルト拡散動作前後のキルト状態遷移を予測する。 処理されたキルトの状態変化を識別する際のネットワークの感度を向上させるため,ボキセル化キルト状態をより代表的なものに変換する改良された損失関数を導入する。 シミュレーションと実世界の実験の両方で,幼児にキルトを拡散し,回復させる方法の有効性が検証された。

In this work, we propose a novel strategy to ensure infants, who inadvertently displace their quilts during sleep, are promptly and accurately re-covered. Our approach is formulated into two subsequent steps: interference resolution and quilt spreading. By leveraging the DWPose human skeletal detection and the Segment Anything instance segmentation models, the proposed method can accurately recognize the states of the infant and the quilt over her, which involves addressing the interferences resulted from an infant's limbs laid on part of the quilt. Building upon prior research, the EM*D deep learning model is employed to forecast quilt state transitions before and after quilt spreading actions. To improve the sensitivity of the network in distinguishing state variation of the handled quilt, we introduce an enhanced loss function that translates the voxelized quilt state into a more representative one. Both simulation and real-world experiments validate the efficacy of our method, in spreading and recover a quilt over an infant.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 学術知識グラフにおける意味的クエリ処理のための大規模言語モデルの活用

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph ( http://arxiv.org/abs/2405.15374v1 )

ライセンス: Link先を確認
Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez, Pouya G. Omran, (参考訳) 本研究は,オーストラリア国立大学(ANU)のコンピュータサイエンス(CS)研究者による研究成果の包括的情報を得ることのできる,革新的なセマンティッククエリ処理システムを開発することを目的とする。 このシステムは、大規模言語モデル(LLM)とANU Scholarly Knowledge Graph(ASKG)を統合する。 各アーティファクトとその部分は、知識グラフ(KG)に格納されたテキストノードとして表現される。 従来の学術的なKG構築・利用手法の限界に対処するため,包括的文書表現のためのDeep Document Model(DDM)と,複雑なクエリ処理を最適化するためのKG拡張クエリ処理(KGQP)を統合した新しいフレームワークを提案する。 DDMは学術論文における階層構造と意味的関係のきめ細かい表現を可能にし、KGQPはKG構造を活用してLLMによるクエリ精度と効率を向上させる。 ASKGとLLMを組み合わせることで,知識利用と自然言語理解能力の向上が図られる。 提案システムは,ASKGから関連する事実やテキストノードを検索するために,自動LLM-SPARQL融合を用いる。 最初の実験では,本フレームワークは精度検索やクエリ効率の点で,ベースライン手法よりも優れていることが示された。 我々は,学術研究のシナリオにおける我々の枠組みの実践的応用を紹介し,学術的な知識管理と発見に革命をもたらす可能性を強調した。 この研究により、研究者は文書からより効果的に知識を取得し、活用することができ、LLMとの正確で信頼性の高い相互作用を開発するための基盤を提供する。

The proposed research aims to develop an innovative semantic query processing system that enables users to obtain comprehensive information about research works produced by Computer Science (CS) researchers at the Australian National University (ANU). The system integrates Large Language Models (LLMs) with the ANU Scholarly Knowledge Graph (ASKG), a structured repository of all research-related artifacts produced at ANU in the CS field. Each artifact and its parts are represented as textual nodes stored in a Knowledge Graph (KG). To address the limitations of traditional scholarly KG construction and utilization methods, which often fail to capture fine-grained details, we propose a novel framework that integrates the Deep Document Model (DDM) for comprehensive document representation and the KG-enhanced Query Processing (KGQP) for optimized complex query handling. DDM enables a fine-grained representation of the hierarchical structure and semantic relationships within academic papers, while KGQP leverages the KG structure to improve query accuracy and efficiency with LLMs. By combining the ASKG with LLMs, our approach enhances knowledge utilization and natural language understanding capabilities. The proposed system employs an automatic LLM-SPARQL fusion to retrieve relevant facts and textual nodes from the ASKG. Initial experiments demonstrate that our framework is superior to baseline methods in terms of accuracy retrieval and query efficiency. We showcase the practical application of our framework in academic research scenarios, highlighting its potential to revolutionize scholarly knowledge management and discovery. This work empowers researchers to acquire and utilize knowledge from documents more effectively and provides a foundation for developing precise and reliable interactions with LLMs.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# OpenStreetMapとH3 Gridに基づく惑星スケール空間時間知識グラフ

A Planet Scale Spatial-Temporal Knowledge Graph Based On OpenStreetMap And H3 Grid ( http://arxiv.org/abs/2405.15375v1 )

ライセンス: Link先を確認
Martin Böckling, Heiko Paulheim, Sarah Detzler, (参考訳) 地理空間データ(Geospatial data)は、OpenStreetMap(OSM)がそのようなデータの豊富なソースを提供する世界モデリングにおいて中心的な役割を果たす。 しばしば空間データは表形式で表現されるが、グラフベースの表現は表形式で分離されたエンティティを相互に関連付けることができる。 本稿では,OpenStreetMapデータの時空間知識グラフへの惑星スケール変換を支援するフレームワークを提案する。 OpenStreetMapデータに加えて、異なるOpenStreetMapジオメトリを個々のh3グリッドセルに並べる。 構築した空間知識グラフと他の空間知識グラフを比較し,本論文における貢献について概説する。 計算の基盤として、時空間知識グラフ構築のための計算フレームワークとしてApache Sedonaを使用します。

Geospatial data plays a central role in modeling our world, for which OpenStreetMap (OSM) provides a rich source of such data. While often spatial data is represented in a tabular format, a graph based representation provides the possibility to interconnect entities which would have been separated in a tabular representation. We propose in our paper a framework which supports a planet scale transformation of OpenStreetMap data into a Spatial Temporal Knowledge Graph. In addition to OpenStreetMap data, we align the different OpenStreetMap geometries on individual h3 grid cells. We compare our constructed spatial knowledge graph to other spatial knowledge graphs and outline our contribution in this paper. As a basis for our computation, we use Apache Sedona as a computational framework for our Spatial Temporal Knowledge Graph construction
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# 制限ボルツマンマシンの高速かつ高精度な訓練とサンプリング

Fast, accurate training and sampling of Restricted Boltzmann Machines ( http://arxiv.org/abs/2405.15376v1 )

ライセンス: Link先を確認
Nicolas Béreux, Aurélien Decelle, Cyril Furtlehner, Lorenzo Rosset, Beatriz Seoane, (参考訳) そのシンプルなアーキテクチャのおかげで、制約ボルツマンマシン(RBM)は複雑なシステムをモデリングし、データから解釈可能な洞察を抽出する強力なツールである。 しかし、他のエネルギーベースモデルと同様に、RBMを高度に構造化したデータで訓練することは、マルコフ連鎖モンテカルロシミュレーションを混合して勾配を推定することに依存するため、大きな課題となる。 この過程は、しばしば複数の二階相転移と関連する臨界減速によって妨げられる。 本稿では,凸最適化手法を用いて,データセットの主方向を低ランクRBMに統合する革新的な手法を提案する。 このアプローチは静的モンテカルロ過程による平衡測度の効率的なサンプリングを可能にする。 標準的なトレーニングプロセスを、データのメインモードを正確に表現したモデルで開始することにより、初期フェーズ遷移をバイパスする。 この戦略は,従来の手法が失敗するデータセットにおけるデータの多様性をフルに捉えるために,RAMのトレーニングに成功していることを示す。 さらに、トレーニングトラジェクトリを用いて新しいサンプリング手法 {\em parallel trajectory tempering} を提案する。これにより、従来の最適化MCMCアプローチよりもはるかに高速にトレーニングされたモデルの平衡測定をサンプリングし、ログ類似度をよりよく推定することができる。 いくつかの高度に構造化されたデータセット上でのトレーニング手法の成功について説明する。

Thanks to their simple architecture, Restricted Boltzmann Machines (RBMs) are powerful tools for modeling complex systems and extracting interpretable insights from data. However, training RBMs, as other energy-based models, on highly structured data poses a major challenge, as effective training relies on mixing the Markov chain Monte Carlo simulations used to estimate the gradient. This process is often hindered by multiple second-order phase transitions and the associated critical slowdown. In this paper, we present an innovative method in which the principal directions of the dataset are integrated into a low-rank RBM through a convex optimization procedure. This approach enables efficient sampling of the equilibrium measure via a static Monte Carlo process. By starting the standard training process with a model that already accurately represents the main modes of the data, we bypass the initial phase transitions. Our results show that this strategy successfully trains RBMs to capture the full diversity of data in datasets where previous methods fail. Furthermore, we use the training trajectories to propose a new sampling method, {\em parallel trajectory tempering}, which allows us to sample the equilibrium measure of the trained model much faster than previous optimized MCMC approaches and a better estimation of the log-likelihood. We illustrate the success of the training method on several highly structured datasets.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# Log-Concave Smpling on Compact Support: A Versatile Proximal Framework

Log-Concave Sampling on Compact Supports: A Versatile Proximal Framework ( http://arxiv.org/abs/2405.15379v1 )

ライセンス: Link先を確認
Lu Yu, (参考訳) 本稿では,凸およびコンパクトな支持体上に定義された強対数凹分布のサンプリングについて検討する。 本稿では,制約セットへの射影を包含する一般近位フレームワークを提案する。 具体的には、ユークリッド射影とガウス射影のケースを考察し、後者は会員託宣を効率的に行うという利点を持つ。 このフレームワークは、複数のサンプリングメソッドとシームレスに統合できる。 本分析は,制約サンプリングの文脈におけるLangevin型サンプリングアルゴリズムに着目した。 W1 と W2 の誤差に対する漸近的上限を与え、制約サンプリングにおけるこれらの手法の性能を詳細に比較する。

In this paper, we explore sampling from strongly log-concave distributions defined on convex and compact supports. We propose a general proximal framework that involves projecting onto the constrained set, which is highly flexible and supports various projection options. Specifically, we consider the cases of Euclidean and Gauge projections, with the latter having the advantage of being performed efficiently using a membership oracle. This framework can be seamlessly integrated with multiple sampling methods. Our analysis focuses on Langevin-type sampling algorithms within the context of constrained sampling. We provide nonasymptotic upper bounds on the W1 and W2 errors, offering a detailed comparison of the performance of these methods in constrained sampling.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# RISC-Vシステムのための機械学習推論ワークロードのフルスタック評価

Full-stack evaluation of Machine Learning inference workloads for RISC-V systems ( http://arxiv.org/abs/2405.15380v1 )

ライセンス: Link先を確認
Debjyoti Bhattacharjee, Anmol, Tommaso Marinelli, Karan Pathak, Peter Kourzanov, (参考訳) RISC-V研究において、建築シミュレータは重要な役割を担い、コストのかかる物理的プロトタイプを必要とせずに、ワークロード評価のための重要なプラットフォームを提供する。 これらは革新的なアーキテクチャ概念を探求するための動的環境として機能し、迅速なイテレーションとパフォーマンスメトリクスの徹底的な分析を可能にします。 ディープラーニングアルゴリズムがますます普及するにつれて、新しいアーキテクチャを機械学習のワークロードでベンチマークすることが不可欠である。 ディープラーニングアルゴリズムで使用される多種多様な計算カーネルは、対象とするハードウェアプラットフォームにマップする包括的なコンパイルツールチェーンの必要性を強調している。 本研究は,オープンソースのアーキテクチャシミュレータであるgem5を用いて,RISC-Vアーキテクチャ上での機械学習ワークロードの性能を評価する。 MLIR(Multi-Level Intermediate Representation)に基づいたオープンソースのコンパイルツールチェーンを活用することで、ディープラーニング推論ワークロードに特化したベンチマーク結果が提示される。 さらに、RISC-Vアーキテクチャをシミュレートする際のgem5の現在の限界に光を当て、将来の開発と改良のための洞察を提供する。

Architectural simulators hold a vital role in RISC-V research, providing a crucial platform for workload evaluation without the need for costly physical prototypes. They serve as a dynamic environment for exploring innovative architectural concepts, enabling swift iteration and thorough analysis of performance metrics. As deep learning algorithms become increasingly pervasive, it is essential to benchmark new architectures with machine learning workloads. The diverse computational kernels used in deep learning algorithms highlight the necessity for a comprehensive compilation toolchain to map to target hardware platforms. This study evaluates the performance of a wide array of machine learning workloads on RISC-V architectures using gem5, an open-source architectural simulator. Leveraging an open-source compilation toolchain based on Multi-Level Intermediate Representation (MLIR), the research presents benchmarking results specifically focused on deep learning inference workloads. Additionally, the study sheds light on current limitations of gem5 when simulating RISC-V architectures, offering insights for future development and refinement.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# モンテカルロ木探索による大規模言語モデルによるコードワールドモデルの生成

Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search ( http://arxiv.org/abs/2405.15383v1 )

ライセンス: Link先を確認
Nicola Dainese, Matteo Merler, Minttu Alakuijala, Pekka Marttinen, (参考訳) 本稿では,大規模言語モデル(LLM)が生成する世界モデルであるコードワールドモデルを,モデルベース強化学習(RL)のためのPythonコード形式で考察する。 LLMではなくコードを呼び出すことは、正確で信頼性があり、解釈可能で、非常に効率的であるという利点があります。 しかし、適切なコードワールドモデルを書くには、複雑な命令を理解し、非自明なロジックで正確なコードを生成し、ユニットテストや環境トラジェクトリからのフィードバックで長いプログラムを自己デバッグする能力が必要です。 これらの課題に対処するため,LLMの新しいコード生成戦略であるGenerate, Improve and Fix with Monte Carlo Tree Search (GIF-MCTS)を提案する。 本稿では,プログラム合成と計画タスクのスイートであるCode World Models Benchmark (CWMB)を紹介した。 GIF-MCTS は CWMB と他の2つのベンチマークのベースラインを超越し,それで合成した Code World Models が計画にうまく利用でき,その結果,サンプル効率と推論速度を大幅に向上したモデルベース RL エージェントが得られた。

In this work we consider Code World Models, world models generated by a Large Language Model (LLM) in the form of Python code for model-based Reinforcement Learning (RL). Calling code instead of LLMs for planning has the advantages of being precise, reliable, interpretable, and extremely efficient. However, writing appropriate Code World Models requires the ability to understand complex instructions, to generate exact code with non-trivial logic and to self-debug a long program with feedback from unit tests and environment trajectories. To address these challenges, we propose Generate, Improve and Fix with Monte Carlo Tree Search (GIF-MCTS), a new code generation strategy for LLMs. To test our approach, we introduce the Code World Models Benchmark (CWMB), a suite of program synthesis and planning tasks comprised of 18 diverse RL environments paired with corresponding textual descriptions and curated trajectories. GIF-MCTS surpasses all baselines on the CWMB and two other benchmarks, and we show that the Code World Models synthesized with it can be successfully used for planning, resulting in model-based RL agents with greatly improved sample efficiency and inference speed.
翻訳日:2024-05-27 15:11:32 公開日:2024-05-24
# コンテクストエンコーダ特化学習速度を必要とする高効率リカレントオフポリティRL

Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate ( http://arxiv.org/abs/2405.15384v1 )

ライセンス: Link先を確認
Fan-Ming Luo, Zuolin Tu, Zefang Huang, Yang Yu, (参考訳) 実世界の意思決定タスクは、通常は部分的に観察可能なマルコフ決定プロセス(POMDP)であり、状態は完全に観察できない。 近年の進歩により、リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)と、意思決定のための多層パーセプトロン(MLP)ポリシーに基づくコンテキストエンコーダで構成されており、部分的可観測性を軽減し、POMDPタスクの堅牢なベースラインとして機能することが示されている。 しかし, 従来の繰り返しRL法では, RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。 本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフポリシーRLを提案する。 具体的には、RESeLは文脈エンコーダの学習率を他のMLP層よりも低くし、後者の訓練効率を維持しつつ、前者の安定性を確保する。 我々は,この手法を既存の法外RL手法に統合し,RESeLアルゴリズムを実現する。 我々は,古典的,メタRL,クレジット代入シナリオを含む18のPOMDPタスクと5つのMDPロコモーションタスクでRESeLを評価した。 実験はRESeLによるトレーニング安定性を著しく改善した。 比較の結果、RESeLは従来の繰り返しRLベースラインよりも顕著な性能向上を実現し、MDPタスクでは最先端の手法と競合するか、さらに超えていることがわかった。 さらにアブレーション研究は、文脈エンコーダに個別の学習率を適用する必要性を強調している。

Real-world decision-making tasks are usually partially observable Markov decision processes (POMDPs), where the state is not fully observable. Recent progress has demonstrated that recurrent reinforcement learning (RL), which consists of a context encoder based on recurrent neural networks (RNNs) for unobservable state prediction and a multilayer perceptron (MLP) policy for decision making, can mitigate partial observability and serve as a robust baseline for POMDP tasks. However, previous recurrent RL methods face training stability issues due to the gradient instability of RNNs. In this paper, we propose Recurrent Off-policy RL with Context-Encoder-Specific Learning Rate (RESeL) to tackle this issue. Specifically, RESeL uses a lower learning rate for context encoder than other MLP layers to ensure the stability of the former while maintaining the training efficiency of the latter. We integrate this technique into existing off-policy RL methods, resulting in the RESeL algorithm. We evaluated RESeL in 18 POMDP tasks, including classic, meta-RL, and credit assignment scenarios, as well as five MDP locomotion tasks. The experiments demonstrate significant improvements in training stability with RESeL. Comparative results show that RESeL achieves notable performance improvements over previous recurrent RL baselines in POMDP tasks, and is competitive with or even surpasses state-of-the-art methods in MDP tasks. Further ablation studies highlight the necessity of applying a distinct learning rate for the context encoder.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# CPT-Interp:4次元医用画像補間のための連続sPatialとTemporalの動作モデリング

CPT-Interp: Continuous sPatial and Temporal Motion Modeling for 4D Medical Image Interpolation ( http://arxiv.org/abs/2405.15385v1 )

ライセンス: Link先を確認
Xia Li, Runzhao Yang, Xiangtai Li, Antony Lomax, Ye Zhang, Joachim Buhmann, (参考訳) 4D医療画像からの運動情報は、臨床評価や放射線治療計画のための患者の解剖学の動的変化に対する重要な洞察を与え、3D画像解析の能力を高める。 しかし、画像ハードウェアの物理的および技術的な制約は、時間分解能と画質の妥協を必要とすることが多い。 フレーム補間はこの課題に対する重要な解決策として現れる。 従来の手法は、中間動作を推定して前方のワープを実行すると、しばしば判断に苦しむ。 本研究では流体力学からインスピレーションを得て,暗黙の神経表現を用いた患者解剖運動の連続モデリング手法を提案する。 これは空間的連続性と時間的連続性の両方を保証し、自然に連続的なフレーム補間を容易にするために、ユーレアンとラグランジュの仕様を効果的にブリッジする。 複数のデータセットにまたがる実験により、この手法の精度と速度が向上した。 さらに、ケース固有の最適化(トレーニング不要)アプローチとして、広範なデータセットやモデル一般化問題への対処の必要性を回避している。

Motion information from 4D medical imaging offers critical insights into dynamic changes in patient anatomy for clinical assessments and radiotherapy planning and, thereby, enhances the capabilities of 3D image analysis. However, inherent physical and technical constraints of imaging hardware often necessitate a compromise between temporal resolution and image quality. Frame interpolation emerges as a pivotal solution to this challenge. Previous methods often suffer from discretion when they estimate the intermediate motion and execute the forward warping. In this study, we draw inspiration from fluid mechanics to propose a novel approach for continuously modeling patient anatomic motion using implicit neural representation. It ensures both spatial and temporal continuity, effectively bridging Eulerian and Lagrangian specifications together to naturally facilitate continuous frame interpolation. Our experiments across multiple datasets underscore the method's superior accuracy and speed. Furthermore, as a case-specific optimization (training-free) approach, it circumvents the need for extensive datasets and addresses model generalization issues.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# 言語駆動型対話型交通軌跡生成

Language-Driven Interactive Traffic Trajectory Generation ( http://arxiv.org/abs/2405.15388v1 )

ライセンス: Link先を確認
Junkai Xia, Chenxin Xu, Qingyao Xu, Chen Xie, Yanfeng Wang, Siheng Chen, (参考訳) 自然言語制御による現実的な軌道生成は、自動運転車技術の進歩に欠かせない。 しかし、従来の手法では、個々の交通参加者の軌跡生成に重点を置いていたため、対話的な交通力学の複雑さを考慮できなかった。 本研究では,対話型トラフィックトラジェクトリを生成可能な最初の言語駆動型トラフィックトラジェクトリであるInteractTrajを提案する。 InteractTrajは抽象的な軌跡記述を具体的な形式化された相互作用対応の数値コードに解釈し、これらの形式化されたコードと最終的な対話的な軌跡の間のマッピングを学ぶ。 言語記述を解釈するために,新しい対話型符号化戦略を用いた言語間エンコーダを提案する。 対話型トラジェクトリを実現するために,環境マップと車両の相互作用を相乗化して移動させる,対話型特徴集約を用いたコード・ツー・トラジェクトリ・デコーダを提案する。 大規模な実験により,従来のSoTA手法よりも優れた性能を示し,多種多様な自然言語コマンドによる対話的トラフィックトラジェクトリのより現実的な生成を可能にした。 私たちのコードはhttps://github.com/X1a-jk/InteractTraj.gitで利用可能です。

Realistic trajectory generation with natural language control is pivotal for advancing autonomous vehicle technology. However, previous methods focus on individual traffic participant trajectory generation, thus failing to account for the complexity of interactive traffic dynamics. In this work, we propose InteractTraj, the first language-driven traffic trajectory generator that can generate interactive traffic trajectories. InteractTraj interprets abstract trajectory descriptions into concrete formatted interaction-aware numerical codes and learns a mapping between these formatted codes and the final interactive trajectories. To interpret language descriptions, we propose a language-to-code encoder with a novel interaction-aware encoding strategy. To produce interactive traffic trajectories, we propose a code-to-trajectory decoder with interaction-aware feature aggregation that synergizes vehicle interactions with the environmental map and the vehicle moves. Extensive experiments show our method demonstrates superior performance over previous SoTA methods, offering a more realistic generation of interactive traffic trajectories with high controllability via diverse natural language commands. Our code is available at https://github.com/X1a-jk/InteractTraj.git
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# Tensor Frames - 任意のメッセージパッシングネットワークを不変にする方法

Tensor Frames -- How To Make Any Message Passing Network Equivariant ( http://arxiv.org/abs/2405.15389v1 )

ライセンス: Link先を確認
Peter Lippmann, Gerrit Gerhartz, Roman Remme, Fred A. Hamprecht, (参考訳) 幾何学的深層学習の多くの応用において、大域座標フレームの選択は任意であり、予測は基準フレームとは独立にすべきである。 言い換えれば、ネットワークは入力の回転と反射、すなわち O(d) の変換に関して同変であるべきである。 我々は、同変メッセージパッシングアーキテクチャを構築し、同変メッセージパッシングアーキテクチャを変更するための新しいフレームワークを提案する。 本手法は,メッセージ中にテンソルオブジェクトを含めることで,幾何学的情報を一貫した通信を行う,局所座標フレームに基づく。 このフレームワークは任意の次元ユークリッド空間における幾何学的データへのメッセージパッシングに適用できる。 非標準正規化層や非線形性など,他の多くのメッセージパッシング手法では特別なビルディングブロックを必要とするが,このような変更を伴わずに既存のアーキテクチャに容易に適用することができる。 我々は、一般的な点クラウドアーキテクチャにおけるO(3)-等分散の利点を明確に示し、点クラウド上の通常のベクトル回帰に関する最先端の結果を生成する。

In many applications of geometric deep learning, the choice of global coordinate frame is arbitrary, and predictions should be independent of the reference frame. In other words, the network should be equivariant with respect to rotations and reflections of the input, i.e., the transformations of O(d). We present a novel framework for building equivariant message passing architectures and modifying existing non-equivariant architectures to be equivariant. Our approach is based on local coordinate frames, between which geometric information is communicated consistently by including tensorial objects in the messages. Our framework can be applied to message passing on geometric data in arbitrary dimensional Euclidean space. While many other approaches for equivariant message passing require specialized building blocks, such as non-standard normalization layers or non-linearities, our approach can be adapted straightforwardly to any existing architecture without such modifications. We explicitly demonstrate the benefit of O(3)-equivariance for a popular point cloud architecture and produce state-of-the-art results on normal vector regression on point clouds.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# Reshuffling Resampling Splitsはハイパーパラメータ最適化の一般化を改善する

Reshuffling Resampling Splits Can Improve Generalization of Hyperparameter Optimization ( http://arxiv.org/abs/2405.15393v1 )

ライセンス: Link先を確認
Thomas Nagler, Lennart Schneider, Bernd Bischl, Matthias Feurer, (参考訳) ハイパーパラメータ最適化は、機械学習モデルのピークパフォーマンスを得るために不可欠である。 標準プロトコルは、一般化誤差の再サンプリング推定を用いて様々なハイパーパラメータ構成を評価し、最適化をガイドし、最終的なハイパーパラメータ構成を選択する。 多くの証拠がなければ、ペア化された再サンプリングの分割、すなわち、固定列車の改札または固定列車の改札方式がしばしば推奨される。 意外なことに、各構成の分割をリシャッフルすることで、最終的なモデルの非表示データに対する一般化性能が向上することが少なくない。 我々の理論的分析は,リシャッフルがバリデーション損失面の漸近的挙動にどのように影響するかを説明し,限界状態における期待された後悔に束縛を与える。 このバウンダリは、下層の最適化問題の信号と雑音特性にリシャッフルの潜在的な利点を結びつける。 我々は,制御されたシミュレーション実験で理論結果を検証し,大規模で現実的なハイパーパラメータ最適化実験においてリシャフリングの実用的有用性を示す。 再シャッフルは固定分割の使用と競合するテスト性能をもたらすが、単一の列車価のホールドアウトプロトコルの結果を大幅に改善し、計算的に安価でありながら標準CVとの競合を招きかねない。

Hyperparameter optimization is crucial for obtaining peak performance of machine learning models. The standard protocol evaluates various hyperparameter configurations using a resampling estimate of the generalization error to guide optimization and select a final hyperparameter configuration. Without much evidence, paired resampling splits, i.e., either a fixed train-validation split or a fixed cross-validation scheme, are often recommended. We show that, surprisingly, reshuffling the splits for every configuration often improves the final model's generalization performance on unseen data. Our theoretical analysis explains how reshuffling affects the asymptotic behavior of the validation loss surface and provides a bound on the expected regret in the limiting regime. This bound connects the potential benefits of reshuffling to the signal and noise characteristics of the underlying optimization problem. We confirm our theoretical results in a controlled simulation study and demonstrate the practical usefulness of reshuffling in a large-scale, realistic hyperparameter optimization experiment. While reshuffling leads to test performances that are competitive with using fixed splits, it drastically improves results for a single train-validation holdout protocol and can often make holdout become competitive with standard CV while being computationally cheaper.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# 複数のリモートセンシングデータセットからの部分的マルチタスク学習のための知識蒸留の活用

Leveraging knowledge distillation for partial multi-task learning from multiple remote sensing datasets ( http://arxiv.org/abs/2405.15394v1 )

ライセンス: Link先を確認
Hoàng-Ân Lê, Minh-Tan Pham, (参考訳) ターゲットタスクの1つにトレーニング例をアノテートする部分的マルチタスク学習は、さまざまなタスクにアノテートされたデータセットを組み合わせて、ネットワークパラメータを少なくすることで、リモートセンシングにおいて有望なアイデアである。 部分的マルチタスク学習に対する「積極的」アプローチは、共同表現を学習するための全タスクアノテーションが欠如しているため、準最適である。 本稿では, 知識蒸留を用いて, 代替課題における基礎的真理の必要性を代替し, その性能を向上させることを提案する。 パブリックISPRS 2D Semantic Labeling Contestデータセットで実施された実験は、空中画像におけるオブジェクト検出やセマンティックセグメンテーションを含むセマンティックタスクに対する部分的マルチタスク学習における提案されたアイデアの有効性を示す。

Partial multi-task learning where training examples are annotated for one of the target tasks is a promising idea in remote sensing as it allows combining datasets annotated for different tasks and predicting more tasks with fewer network parameters. The na\"ive approach to partial multi-task learning is sub-optimal due to the lack of all-task annotations for learning joint representations. This paper proposes using knowledge distillation to replace the need of ground truths for the alternate task and enhance the performance of such approach. Experiments conducted on the public ISPRS 2D Semantic Labeling Contest dataset show the effectiveness of the proposed idea on partial multi-task learning for semantic tasks including object detection and semantic segmentation in aerial images.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# フィールドスケール:熱赤外画像の局所性を考慮した適応的再スケーリング

Fieldscale: Locality-Aware Field-based Adaptive Rescaling for Thermal Infrared Image ( http://arxiv.org/abs/2405.15395v1 )

ライセンス: Link先を確認
Hyeonjae Gil, Myung-Hwan Jeon, Ayoung Kim, (参考訳) 熱赤外(TIR)カメラは、外部照明に対する堅牢性から、安全関連分野において有望なセンサーとして出現している。 しかし、RAW TIR画像は14ビットの画素深度を持ち、一般的な用途では8ビットに再スケールする必要がある。 これまでの作業では、グローバルな1Dルックアップテーブルを使用して、その強度のみに基づいてピクセル単位のゲインを計算することで、熱の局所的な性質を考慮せずに画質を劣化させる。 本研究では、画像内の各画素の強度値と空間コンテキストの両方を埋め込んだ局所性認識2Dフィールドに基づく再スケーリングであるFieldscaleを提案する。 各領域の画素ゲインを適応的に決定し、空間的に一貫した8ビットのリスケール画像を最小限の情報損失と高可視性で生成することができる。 画像品質評価と他の2つの下流タスクにおける一貫性のある性能改善は、Fieldscaleの有効性とユーザビリティをサポートする。 この分野での研究の進展を促進するために、すべてのコードが公開されています。 https://github.com/hyeonjaegil/fieldscale

Thermal infrared (TIR) cameras are emerging as promising sensors in safety-related fields due to their robustness against external illumination. However, RAW TIR image has 14 bits of pixel depth and needs to be rescaled into 8 bits for general applications. Previous works utilize a global 1D look-up table to compute pixel-wise gain solely based on its intensity, which degrades image quality by failing to consider the local nature of the heat. We propose Fieldscale, a rescaling based on locality-aware 2D fields where both the intensity value and spatial context of each pixel within an image are embedded. It can adaptively determine the pixel gain for each region and produce spatially consistent 8-bit rescaled images with minimal information loss and high visibility. Consistent performance improvement on image quality assessment and two other downstream tasks support the effectiveness and usability of Fieldscale. All the codes are publicly opened to facilitate research advancements in this field. https://github.com/hyeonjaegil/fieldscale
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# Ant-based Ant System, Max-Min Ant System, Ant Colony System の4つの代表的な Ant Colony Optimization Variants の比較検討

Comparative Analysis of Four Prominent Ant Colony Optimization Variants: Ant System, Rank-Based Ant System, Max-Min Ant System, and Ant Colony System ( http://arxiv.org/abs/2405.15397v1 )

ライセンス: Link先を確認
Ahmed Mohamed Abdelmoaty, Ibrahim Ihab Ibrahim, (参考訳) 本研究は,旅行セールスマン問題(TSP)を解決するために,Ant Colony Optimization (ACO)の4つの変種であるAnt System (AS), Rank-Based Ant System (ASRank), Max-Min Ant System (MMAS), Ant Colony System (ACS)を比較した。 その結果,アルゴリズムの性能は問題スケールやインスタンスタイプに大きく影響していることがわかった。 ACSは高速収束のためより小さなTSPインスタンスに優れており、PACSは中規模の問題に対してより適応可能であることを証明している。 MMASは、特に大規模なインスタンスにおいて、局所的な最適化を避ける能力のために、すべてのスケールで一貫して競争結果を達成する。 しかし、ASRankは、他のアルゴリズムのパフォーマンスに合わせるのに苦労している。 この研究は、これらのACO変異体の長所と短所に関する洞察を与え、特定のTSPアプリケーションに最も適したアルゴリズムの選択を導く。

This research conducts a comparative analysis of four Ant Colony Optimization (ACO) variants -- Ant System (AS), Rank-Based Ant System (ASRank), Max-Min Ant System (MMAS), and Ant Colony System (ACS) -- for solving the Traveling Salesman Problem (TSP). Our findings demonstrate that algorithm performance is significantly influenced by problem scale and instance type. ACS excels in smaller TSP instances due to its rapid convergence, while PACS proves more adaptable for medium-sized problems. MMAS consistently achieves competitive results across all scales, particularly for larger instances, due to its ability to avoid local optima. ASRank, however, struggles to match the performance of the other algorithms. This research provides insights into the strengths and weaknesses of these ACO variants, guiding the selection of the most suitable algorithm for specific TSP applications.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# PriCE: ハイブリッドクラウド上での大規模医療画像処理ワークフローの並列化のためのプライバシ保護とコスト効果スケジューリング

PriCE: Privacy-Preserving and Cost-Effective Scheduling for Parallelizing the Large Medical Image Processing Workflow over Hybrid Clouds ( http://arxiv.org/abs/2405.15398v1 )

ライセンス: Link先を確認
Yuandou Wang, Neel Kanwal, Kjersti Engan, Chunming Rong, Paola Grosso, Zhiming Zhao, (参考訳) 大きな医療画像のためのディープニューラルネットワークを実行することは、集中型コンピューティングにおけるリソース不足と時間を要するタスクである。 このような医療画像処理タスクをハイブリッドクラウドにアウトソーシングすることは、実行時間の大幅な削減や金銭的コストといったメリットがある。 しかし、プライバシ上の懸念から、クラウド上で機密性の高い医療画像を処理することは依然として困難であり、多くの現実世界のアプリケーションへのデプロイメントを妨げている。 この問題を解決するために、我々はまずプライバシ保護分散システムモデルの全体的な最適化目標を定式化し、すなわち、プロセス全体を通して敵が学習したプライベートデータに関する情報量を最小化し、ユーザ予算制約の下での最大実行時間とコストを削減する。 この多目的最適化問題を解決するために,PriCEと呼ばれる新しいプライバシ保護・コスト効率の手法を提案する。 ワークフロータスクとして5つの深い畳み込みニューラルネットワークのアンサンブルを用いて,医用画像のアーティファクト検出タスクを広範囲にシミュレーションした。 実験結果から,PriCE は幅広い入力ギガピクセルの医療画像をグラフカラー化戦略で分割し,所望の出力ユーティリティを実現し,プライバシリスク,メースパン,金銭的コストを低減した。

Running deep neural networks for large medical images is a resource-hungry and time-consuming task with centralized computing. Outsourcing such medical image processing tasks to hybrid clouds has benefits, such as a significant reduction of execution time and monetary cost. However, due to privacy concerns, it is still challenging to process sensitive medical images over clouds, which would hinder their deployment in many real-world applications. To overcome this, we first formulate the overall optimization objectives of the privacy-preserving distributed system model, i.e., minimizing the amount of information about the private data learned by the adversaries throughout the process, reducing the maximum execution time and cost under the user budget constraint. We propose a novel privacy-preserving and cost-effective method called PriCE to solve this multi-objective optimization problem. We performed extensive simulation experiments for artifact detection tasks on medical images using an ensemble of five deep convolutional neural network inferences as the workflow task. Experimental results show that PriCE successfully splits a wide range of input gigapixel medical images with graph-coloring-based strategies, yielding desired output utility and lowering the privacy risk, makespan, and monetary cost under user's budget.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# ランダムにないデータ欠落に対するバイアス分散結合最適化のための微粒化動的フレームワーク

Fine-Grained Dynamic Framework for Bias-Variance Joint Optimization on Data Missing Not at Random ( http://arxiv.org/abs/2405.15403v1 )

ライセンス: Link先を確認
Mingming Ha, Xuewen Tao, Wenfang Lin, Qionxu Ma, Wujiang Xu, Linxun Chen, (参考訳) レコメンデーションシステムやディスプレイ広告など、ほとんどの実践的応用において、収集されたデータは、しばしば欠落した値を含んでおり、それらの欠落した値は、一般的には非ランダムであり、モデルの予測性能を低下させる。 既存の推定器と正規化器は予測性能を改善するために不偏推定を試みている。 しかしながら、これらの方法の分散と一般化は、確率スコアがゼロになる傾向にあるとき、その安定性と頑健さを妥協するときに、一般に非有界である。 本稿ではまず,正規化手法の限界を理論的に明らかにする。 さらに、より一般的な推定器では、不偏性は必然的に非有界な分散をもたらす。 これらの一般的な法則は、推定器の設計が単にバイアスを排除したり、ばらつきを減らしたり、単にバイアス-ばらつきのトレードオフを達成したりするだけではないことを示唆する。 代わりに、バイアスと分散の定量的な共同最適化が伴う。 そこで我々は,バイアスと分散を協調的に最適化する,体系的なきめ細かな動的学習フレームワークを開発し,事前に定義された目的関数に従って,各ユーザ・イテム対に対する適切な推定器を適応的に選択する。 この操作により、モデルの一般化境界と分散は減少し、理論的な保証と結び付けられる。 提案した動的学習フレームワークの理論的結果と有効性を検証するために,広範囲な実験を行った。

In most practical applications such as recommendation systems, display advertising, and so forth, the collected data often contains missing values and those missing values are generally missing-not-at-random, which deteriorates the prediction performance of models. Some existing estimators and regularizers attempt to achieve unbiased estimation to improve the predictive performance. However, variances and generalization bound of these methods are generally unbounded when the propensity scores tend to zero, compromising their stability and robustness. In this paper, we first theoretically reveal that limitations of regularization techniques. Besides, we further illustrate that, for more general estimators, unbiasedness will inevitably lead to unbounded variance. These general laws inspire us that the estimator designs is not merely about eliminating bias, reducing variance, or simply achieve a bias-variance trade-off. Instead, it involves a quantitative joint optimization of bias and variance. Then, we develop a systematic fine-grained dynamic learning framework to jointly optimize bias and variance, which adaptively selects an appropriate estimator for each user-item pair according to the predefined objective function. With this operation, the generalization bounds and variances of models are reduced and bounded with theoretical guarantees. Extensive experiments are conducted to verify the theoretical results and the effectiveness of the proposed dynamic learning framework.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# マルチラベルリモートセンシング画像分類のためのトランスフォーマーに基づくフェデレーション学習

Transformer-based Federated Learning for Multi-Label Remote Sensing Image Classification ( http://arxiv.org/abs/2405.15405v1 )

ライセンス: Link先を確認
Barış Büyüktaş, Kenneth Weitzel, Sebastian Völkers, Felix Zailskas, Begüm Demir, (参考訳) Federated Learning (FL) は、クライアントのトレーニングデータにアクセスすることなく、分散化されたデータアーカイブ(クライアント)からディープラーニングモデルパラメータを協調的に学習することを目的としている。 しかし、クライアント間でのトレーニングデータは独立性がなく、同じ分散(非IID)ではないかもしれないため、最適なモデル収束を達成するのが困難になる可能性がある。 本研究では,リモートセンシング(RS)におけるマルチラベル分類(MLC)問題におけるFLの文脈において,最先端トランスフォーマーアーキテクチャ(MLP-Mixer,ConvMixer,PoolFormer)の,各クライアントにわたる非IIDトレーニングデータに関連する課題に対処する能力について検討する。 検討されたトランスフォーマーアーキテクチャは、それぞれとResNet-50アーキテクチャで比較される。 1) データの不均一性の訓練に対する堅牢性 2)現地研修の複雑さ,及び 3) 凝集度は非IIDレベルの異なる。 BigEarthNet-S2ベンチマークアーカイブで得られた実験結果は、検討されたアーキテクチャが局所的なトレーニングと集約の複雑さを高くするコストで一般化能力を高めることを示した。 本分析に基づいて,RS MLCにおけるFLの文脈における変圧器アーキテクチャの適切な選択のためのガイドラインを導出する。 この作業のコードはhttps://git.tu-berlin.de/rsim/FL-Transformer.comで公開されている。

Federated learning (FL) aims to collaboratively learn deep learning model parameters from decentralized data archives (i.e., clients) without accessing training data on clients. However, the training data across clients might be not independent and identically distributed (non-IID), which may result in difficulty in achieving optimal model convergence. In this work, we investigate the capability of state-of-the-art transformer architectures (which are MLP-Mixer, ConvMixer, PoolFormer) to address the challenges related to non-IID training data across various clients in the context of FL for multi-label classification (MLC) problems in remote sensing (RS). The considered transformer architectures are compared among themselves and with the ResNet-50 architecture in terms of their: 1) robustness to training data heterogeneity; 2) local training complexity; and 3) aggregation complexity under different non-IID levels. The experimental results obtained on the BigEarthNet-S2 benchmark archive demonstrate that the considered architectures increase the generalization ability with the cost of higher local training and aggregation complexities. On the basis of our analysis, some guidelines are derived for a proper selection of transformer architecture in the context of FL for RS MLC. The code of this work is publicly available at https://git.tu-berlin.de/rsim/FL-Transformer.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# ジェネレーティブ人工知能による流体運動のミスリーディングギャラリー

A Misleading Gallery of Fluid Motion by Generative Artificial Intelligence ( http://arxiv.org/abs/2405.15406v1 )

ライセンス: Link先を確認
Ali Kashefi, (参考訳) 本稿では,流体力学コミュニティに親しむ一般的な流体運動現象を説明するプロンプトに応答して,よく知られた生成人工知能(AI)アプリケーションからの出力の精度を広範囲に調査する。 私たちは、Google、OpenAI、Meta、Microsoftといった著名な企業が導入した、Midjourney、Dall-E、Runway ML、Microsoft Designer、Gemini、Meta AI、Leonardo AIなど、さまざまなアプリケーションを調べます。 Von Karman vortex Street, "flow past a airfoil", "Kelvin-Helmholtz instability", "shock wave on a sharp-nosed supersonic body"などです。 これらのアプリケーションによって生成された画像と実験室実験と数値ソフトウェアによる実画像を比較した。 以上の結果から,これらの生成AIモデルは流体力学画像において十分な訓練を受けていないことが示唆された。 テキスト・画像・映像生成以外にも、これらのAIツールを用いた画像・映像からテキスト生成への移行についても検討し、流体運動現象の記述の正確性について検討する。 本報告は、教育機関の教育者に対して、これらのツールが学生を誤解させる可能性があることを強調した注意書きとして機能する。 また、これらの著名な企業の研究者に、この問題に対処するよう促すことも目標としている。 この欠点の主な理由は、科学雑誌から著作権保護された流体動画像へのアクセスが制限されていることであると推測する。

In this technical report, we extensively investigate the accuracy of outputs from well-known generative artificial intelligence (AI) applications in response to prompts describing common fluid motion phenomena familiar to the fluid mechanics community. We examine a range of applications, including Midjourney, Dall-E, Runway ML, Microsoft Designer, Gemini, Meta AI, and Leonardo AI, introduced by prominent companies such as Google, OpenAI, Meta, and Microsoft. Our text prompts for generating images or videos include examples such as "Von Karman vortex street", "flow past an airfoil", "Kelvin-Helmholtz instability", "shock waves on a sharp-nosed supersonic body", etc. We compare the images generated by these applications with real images from laboratory experiments and numerical software. Our findings indicate that these generative AI models are not adequately trained in fluid dynamics imagery, leading to potentially misleading outputs. Beyond text-to-image/video generation, we further explore the transition from image/video to text generation using these AI tools, aiming to investigate the accuracy of their descriptions of fluid motion phenomena. This report serves as a cautionary note for educators in academic institutions, highlighting the potential for these tools to mislead students. It also aims to inform researchers at these renowned companies, encouraging them to address this issue. We conjecture that a primary reason for this shortcoming is the limited access to copyright-protected fluid motion images from scientific journals.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# クライアント駆動のフェデレーションラーニングを目指して

Towards Client Driven Federated Learning ( http://arxiv.org/abs/2405.15407v1 )

ライセンス: Link先を確認
Songze Li, Chenqing Zhu, (参考訳) 従来のフェデレーション学習(FL)フレームワークは、サーバがセッション開始とクライアントの参加を決定するサーバー駆動モデルに従っている。 私たちは、クライアントを駆動する新しいFLフレームワークであるクライアント駆動フェデレートラーニング(CDFL:Client-Driven Federated Learning)を紹介します。 CDFLでは、各クライアントは、ローカルにトレーニングされたモデルをサーバにアップロードし、ローカルタスクに合わせてカスタマイズされたモデルを受け取ることで、独立して非同期にモデルを更新する。 サーバはクラスタモデルのリポジトリを保持し、受信したクライアントモデルを使用してそれを反復的に精錬する。 本フレームワークは,クラスタ分散の時間変化によって特徴付けられる,クライアントのデータ分散の複雑なダイナミクスに対応し,より優れたパフォーマンスで新しいタスクへの迅速な適応を可能にする。 分散推定を行うために複数のクラスタモデルをクライアントに送信する従来のクラスタリングFLプロトコルとは対照的に,推定タスクをサーバにオフロードし,単一のモデルのみをクライアントに送信するパラダイムと,推定精度を向上させる新たな戦略を提案する。 我々はCDFLの収束に関する理論的解析を行う。 さまざまなデータセットとシステム設定にわたる大規模な実験は、ベースラインよりもモデルパフォーマンスと計算効率において、CDFLのかなりのアドバンテージを浮き彫りにしている。

Conventional federated learning (FL) frameworks follow a server-driven model where the server determines session initiation and client participation, which faces challenges in accommodating clients' asynchronous needs for model updates. We introduce Client-Driven Federated Learning (CDFL), a novel FL framework that puts clients at the driving role. In CDFL, each client independently and asynchronously updates its model by uploading the locally trained model to the server and receiving a customized model tailored to its local task. The server maintains a repository of cluster models, iteratively refining them using received client models. Our framework accommodates complex dynamics in clients' data distributions, characterized by time-varying mixtures of cluster distributions, enabling rapid adaptation to new tasks with superior performance. In contrast to traditional clustered FL protocols that send multiple cluster models to a client to perform distribution estimation, we propose a paradigm that offloads the estimation task to the server and only sends a single model to a client, and novel strategies to improve estimation accuracy. We provide a theoretical analysis of CDFL's convergence. Extensive experiments across various datasets and system settings highlight CDFL's substantial advantages in model performance and computation efficiency over baselines.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# 海洋エミュレータORCA : 年次予測のための地球規模の海洋エミュレータ

ORCA: A Global Ocean Emulator for Multi-year to Decadal Predictions ( http://arxiv.org/abs/2405.15412v1 )

ライセンス: Link先を確認
Zijie Guo, Pumeng Lyu, Fenghua Ling, Jing-Jia Luo, Niklas Boers, Wanli Ouyang, Lei Bai, (参考訳) 海洋力学は、地球規模の気象と気候パターンを駆動する上で重要な役割を担っている。 海洋力学の高精度かつ効率的なモデリングは、複雑な海洋循環とプロセスの理解の向上、気候変動の変動とその関連する相互接続の予測、気候変動の課題への対処に不可欠である。 OGCM(Ocean General Circulation Models)の改良に多大な努力が払われているが、多年にわたる大洋変動の正確な予測は長年にわたる課題である。 ここでは, 海洋循環を複数年から1年で予測する最初のデータ駆動モデルであるORCA(Oceanic Reliable foreCAst)を紹介する。 ORCAは、大洋の3次元の循環と力学を、高い物理的整合性で正確にシミュレートする。 主要な海洋変数のヒドキャストは、海洋変動を予測するORCAの顕著な予測能力と、最先端の数値OGCMと、地下海洋やENSOの垂直パターンにおける極端な事象の発生を捉える能力を示している。 これらの結果は、安価で効率的で正確な大洋モデルと予測を提供するための、データ駆動型海洋モデルの可能性を示している。 さらに、ORCAは周期的な時間スケールで海洋力学を安定かつ忠実にエミュレートし、気候予測にもその可能性を示す。 モデルはhttps://github.com/OpenEarthLab/ORCAで入手できる。

Ocean dynamics plays a crucial role in driving global weather and climate patterns. Accurate and efficient modeling of ocean dynamics is essential for improved understanding of complex ocean circulation and processes, for predicting climate variations and their associated teleconnections, and for addressing the challenges of climate change. While great efforts have been made to improve numerical Ocean General Circulation Models (OGCMs), accurate forecasting of global oceanic variations for multi-year remains to be a long-standing challenge. Here, we introduce ORCA (Oceanic Reliable foreCAst), the first data-driven model predicting global ocean circulation from multi-year to decadal time scales. ORCA accurately simulates the three-dimensional circulations and dynamics of the global ocean with high physical consistency. Hindcasts of key oceanic variables demonstrate ORCA's remarkable prediction skills in predicting ocean variations compared with state-of-the-art numerical OGCMs and abilities in capturing occurrences of extreme events at the subsurface ocean and ENSO vertical patterns. These results demonstrate the potential of data-driven ocean models for providing cheap, efficient, and accurate global ocean modeling and prediction. Moreover, ORCA stably and faithfully emulates ocean dynamics at decadal timescales, demonstrating its potential even for climate projections. The model will be available at https://github.com/OpenEarthLab/ORCA.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# MambaVC: 選択された状態空間で視覚的圧縮を学ぶ

MambaVC: Learned Visual Compression with Selective State Spaces ( http://arxiv.org/abs/2405.15413v1 )

ライセンス: Link先を確認
Shiyu Qin, Jinpeng Wang, Yimin Zhou, Bin Chen, Tianci Luo, Baoyi An, Tao Dai, Shutao Xia, Yaowei Wang, (参考訳) 学習された視覚圧縮はマルチメディアにおいて重要かつ活発なタスクである。 既存のアプローチでは、コンテンツ配信をモデル化し、冗長性を排除するためのCNNやTransformerベースの様々な設計が検討されている。 近年、状態空間モデル (SSM) は、その長距離モデリング能力と効率性から、将来性を示している。 このことに触発されて、私たちは視覚的圧縮のためのSSMを探究する第一歩を踏み出した。 本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。 MambaVCは、ダウンサンプリング後の非線形アクティベーション関数として2次元選択的スキャン(2DSS)モジュールを備えた視覚状態空間(VSS)ブロックを開発する。 圧縮ベンチマークデータセットでは、MambaVCはより低い計算およびメモリオーバーヘッドでより優れたレート歪み性能を達成する。 具体的には、CNN と Transformer のそれぞれ 9.3% と 15.6% を Kodak で上回り、計算を 42% と 24% に減らし、メモリの 12% と 71% を節約した。 MambaVCは高解像度の画像でさらに改善され、現実世界のアプリケーションにおけるその可能性とスケーラビリティを強調している。 また、異なるネットワーク設計の包括的な比較も提供し、MambaVCの利点を裏付けています。

Learned visual compression is an important and active task in multimedia. Existing approaches have explored various CNN- and Transformer-based designs to model content distribution and eliminate redundancy, where balancing efficacy (i.e., rate-distortion trade-off) and efficiency remains a challenge. Recently, state-space models (SSMs) have shown promise due to their long-range modeling capacity and efficiency. Inspired by this, we take the first step to explore SSMs for visual compression. We introduce MambaVC, a simple, strong and efficient compression network based on SSM. MambaVC develops a visual state space (VSS) block with a 2D selective scanning (2DSS) module as the nonlinear activation function after each downsampling, which helps to capture informative global contexts and enhances compression. On compression benchmark datasets, MambaVC achieves superior rate-distortion performance with lower computational and memory overheads. Specifically, it outperforms CNN and Transformer variants by 9.3% and 15.6% on Kodak, respectively, while reducing computation by 42% and 24%, and saving 12% and 71% of memory. MambaVC shows even greater improvements with high-resolution images, highlighting its potential and scalability in real-world applications. We also provide a comprehensive comparison of different network designs, underscoring MambaVC's advantages.
翻訳日:2024-05-27 15:01:48 公開日:2024-05-24
# Luban: 自律的身体認証によるオープンエンディングクリエイティブエージェントの構築

Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification ( http://arxiv.org/abs/2405.15414v1 )

ライセンス: Link先を確認
Yuxuan Guo, Shaohui Peng, Jiaming Guo, Di Huang, Xishan Zhang, Rui Zhang, Yifan Hao, Ling Li, Zikang Tian, Mingju Gao, Yutai Li, Yiming Gan, Shuai Liang, Zihao Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen, (参考訳) オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。 既存のLLMエージェントは、明確に定義された目標(Minecraftの「マイニングダイアモンド」など)で、長い水平タスクで優れています。 しかし、両者のギャップを埋めることができないため、オープンな目標と抽象的な基準を持つ創造的なタスクでは困難に直面するため、タスクの解決における自己改善に対するフィードバックが欠如している。 本研究では,エージェントがギャップを埋める自律的実施検証手法を導入し,創造的タスクの基盤となる。 具体的には,(1)エージェント合成CADモデリングプログラムから得られた3次元構造的推測の視覚的検証,(2)抽象的基準に基づいて環境関連機能プログラムを生成し,検証することにより,創造の実用的検証を行う。 大規模な多次元人間の研究とエロの評価は、ルバンが提案したベンチマークで多様な創造的な建築タスクを完了し、可視化とプラグマティズムの両方において他のベースライン(33\%$から100\%$)を上回っていることを示している。 現実世界のロボットアームのさらなるデモは、物理的な世界でのルバンの創造の可能性を示している。

Building open agents has always been the ultimate goal in AI research, and creative agents are the more enticing. Existing LLM agents excel at long-horizon tasks with well-defined goals (e.g., `mine diamonds' in Minecraft). However, they encounter difficulties on creative tasks with open goals and abstract criteria due to the inability to bridge the gap between them, thus lacking feedback for self-improvement in solving the task. In this work, we introduce autonomous embodied verification techniques for agents to fill the gap, laying the groundwork for creative tasks. Specifically, we propose the Luban agent target creative building tasks in Minecraft, which equips with two-level autonomous embodied verification inspired by human design practices: (1) visual verification of 3D structural speculates, which comes from agent synthesized CAD modeling programs; (2) pragmatic verification of the creation by generating and verifying environment-relevant functionality programs based on the abstract criteria. Extensive multi-dimensional human studies and Elo ratings show that the Luban completes diverse creative building tasks in our proposed benchmark and outperforms other baselines ($33\%$ to $100\%$) in both visualization and pragmatism. Additional demos on the real-world robotic arm show the creation potential of the Luban in the physical world.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 雑音を考慮したモデルレス強化学習による光学系における自動実験制御

Model-free reinforcement learning with noisy actions for automated experimental control in optics ( http://arxiv.org/abs/2405.15421v1 )

ライセンス: Link先を確認
Lea Richtmann, Viktoria-S. Schmiesing, Dennis Wilken, Jan Heine, Aaron Tranter, Avishek Anand, Tobias J. Osborne, Michèle Heurs, (参考訳) 実験的な制御は、正確な調整のための非自明な決定を伴う多くの手作業を伴う。 本稿では,RLを用いた光ファイバーにレーザ光を結合するための自動実験アライメントについて検討する。 我々は,ミラーステアリングモータの不正確さによる時間的トレーニング,部分的可観測性,ノイズなどの現実的な課題に直面している。 時間を節約するために、私たちは仮想テストベッドを使用して、部分的な可観測性を扱うように環境をチューニングし、Soft Actor-Critic (SAC)やTruncated Quantile Critics (TQC)のような比較的サンプル効率のよいモデルレスRLアルゴリズムを使用します。 さらに、実験の完全トレーニングにより、エージェントは、現在あるノイズを処理するために直接学習する。 大規模な実験では、90%のカップリングを達成でき、提案手法の有効性を示す。 我々は、モーターの不正確さにもかかわらず、フィードバックループを追加せずに、人間の専門家に匹敵するこの効率に達する。 この結果は実世界のタスクに対するRLの即応性の一例である。 我々はRLを実験室の作業量を削減できる有望なツールだと考えている。

Experimental control involves a lot of manual effort with non-trivial decisions for precise adjustments. Here, we study the automatic experimental alignment for coupling laser light into an optical fiber using reinforcement learning (RL). We face several real-world challenges, such as time-consuming training, partial observability, and noisy actions due to imprecision in the mirror steering motors. We show that we can overcome these challenges: To save time, we use a virtual testbed to tune our environment for dealing with partial observability and use relatively sample-efficient model-free RL algorithms like Soft Actor-Critic (SAC) or Truncated Quantile Critics (TQC). Furthermore, by fully training on the experiment, the agent learns directly to handle the noise present. In our extensive experimentation, we show that we are able to achieve 90% coupling, showcasing the effectiveness of our proposed approaches. We reach this efficiency, which is comparable to that of a human expert, without additional feedback loops despite the motors' inaccuracies. Our result is an example of the readiness of RL for real-world tasks. We consider RL a promising tool for reducing the workload in labs.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 量子中心の強い電子相関と動的電子相関:近距離量子デバイスに対するリソース効率の2次$N$電子価摂動理論の定式化

Quantum-centric strong and dynamical electron correlation: A resource-efficient second-order $N$-electron valence perturbation theory formulation for near-term quantum devices ( http://arxiv.org/abs/2405.15422v1 )

ライセンス: Link先を確認
Aaron Fitzpatrick, N. Walter Talarico, Roberto Di Remigio Eikås, Stefan Knecht, (参考訳) 本稿では, 短期量子デバイスにおけるStrongly-Contracted $N$-Electron Valence Perturbation Theory (SC-NEVPT2) の高効率実装について述べる。 我々は,適応型情報完全正作用素値測定(IC-POVMs)の特性を利用して,量子デバイス上での基底状態エネルギー推定の結果をリサイクルし,その後のCPU駆動型NEVPT2計算に使用する3体および4体還元密度行列の行列要素を再構成する。 提案手法は,従来のNEVPT2シミュレーションとよく一致した結果が得られるとともに,量子計測のコストを大幅に削減し,古典的後処理における高次RDMの恥ずかしい並列推定を可能にする。 提案手法は,システムサイズに関して,撮影回数のスケールアップに好適であることを示す。 これは、ハイブリッド量子古典計算パイプラインにおける動的電子相関効果の定期的な包含方法である。

We present a measurement-cost efficient implementation of Strongly-Contracted $N$-Electron Valence Perturbation Theory (SC-NEVPT2) for use on near-term quantum devices. At the heart of our algorithm we exploit the properties of adaptive Informationally Complete positive operator valued measures (IC-POVMs) to recycle the measurement outcomes from a ground state energy estimation on a quantum device to reconstruct the matrix elements of the three- and four-body reduced density matrices for use in a subsequent CPU-driven NEVPT2 calculation. The proposed scheme is capable of producing results in good agreement with corresponding conventional NEVPT2 simulations, while significantly reducing the cost of quantum measurements and allowing for embarrassingly parallel estimations of higher-order RDMs in classical post-processing. Our scheme shows favourable scaling of the total number of shots with respect to system size. This paves the way for routine inclusion of dynamic electron correlation effects in hybrid quantum-classical computing pipelines.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 平均損失:機械学習モデルに対するメンバーシップ推論攻撃を評価するための新しい具体的セットアップ

Lost in the Averages: A New Specific Setup to Evaluate Membership Inference Attacks Against Machine Learning Models ( http://arxiv.org/abs/2405.15423v1 )

ライセンス: Link先を確認
Florent Guépin, Nataša Krčo, Matthieu Meeus, Yves-Alexandre de Montjoye, (参考訳) メンバーシップ推論攻撃(MIA)は、個々のレコードを記憶するための機械学習(ML)モデルの妥当性と、モデルを公開するプライバシーリスクを評価するために広く使用されている。 MIAはトレーニング中に見つからないデータセットでトレーニングされたモデルのテストセット上で実行され、より大きなプールである$D_{eval}$からサンプルされる。 MIAは、このテストセットの全データセットで評価され、$D_{eval}$のサンプルの分布で評価される。 これはML評価のMIAへの自然な拡張であるが、最近の研究によると、レコードのリスクは特定のデータセットに大きく依存している。 例えば、outlierは特に脆弱性があるが、一方のデータセットのoutlierは他方のデータセットではないかもしれない。 現在MIAを評価するのに使われているランダムな情報源は、個人のプライバシーリスクの推定を不正確なものにする可能性がある。 そこで本研究では,MLモデルに対するMIAの新しい具体的な評価設定を提案し,重み初期化をランダム性の唯一の源として用いた。 これにより、特定のデータセットでトレーニングされたモデルのリリースに伴うリスクを正確に評価することができます。 SOTA MIAを用いて、現在の設定によるリスク見積の結果、多くのレコードが低いリスクとして誤分類されていることを実証的に示す。 実験的な証拠と組み合わせた理論的結果から、現在の設定で算出されたリスクは、各サンプルデータセットに特有のリスクの平均であり、無作為性の唯一の源としてウェイト初期化の使用が有効であることが示唆された。 最後に、より強力な敵を持つMIAが、ターゲットデータセットに関する情報を利用してメンバーシップを推測する。 その結果、現在のMIA評価は、不正確なリスク推定につながるデータセット間のリスクを平均化し、ターゲットデータセットに関する情報を活用する攻撃によるリスクが過小評価される可能性が示唆された。

Membership Inference Attacks (MIAs) are widely used to evaluate the propensity of a machine learning (ML) model to memorize an individual record and the privacy risk releasing the model poses. MIAs are commonly evaluated similarly to ML models: the MIA is performed on a test set of models trained on datasets unseen during training, which are sampled from a larger pool, $D_{eval}$. The MIA is evaluated across all datasets in this test set, and is thus evaluated across the distribution of samples from $D_{eval}$. While this was a natural extension of ML evaluation to MIAs, recent work has shown that a record's risk heavily depends on its specific dataset. For example, outliers are particularly vulnerable, yet an outlier in one dataset may not be one in another. The sources of randomness currently used to evaluate MIAs may thus lead to inaccurate individual privacy risk estimates. We propose a new, specific evaluation setup for MIAs against ML models, using weight initialization as the sole source of randomness. This allows us to accurately evaluate the risk associated with the release of a model trained on a specific dataset. Using SOTA MIAs, we empirically show that the risk estimates given by the current setup lead to many records being misclassified as low risk. We derive theoretical results which, combined with empirical evidence, suggest that the risk calculated in the current setup is an average of the risks specific to each sampled dataset, validating our use of weight initialization as the only source of randomness. Finally, we consider an MIA with a stronger adversary leveraging information about the target dataset to infer membership. Taken together, our results show that current MIA evaluation is averaging the risk across datasets leading to inaccurate risk estimates, and the risk posed by attacks leveraging information about the target dataset to be potentially underestimated.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# スムースオンライン分類はバッチ分類より難しい

Smoothed Online Classification can be Harder than Batch Classification ( http://arxiv.org/abs/2405.15424v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari, (参考訳) 我々はスムーズな敵の下でオンライン分類を研究する。 この設定では、各時点において、相手は、固定基底測度に関して有界密度を持つ分布から例を引き出す。 二分法分類とスカラー値回帰について、以前の研究であるcitep{haghtalab2020smoothed, block2022smoothed} は、スムーズなオンライン学習はPACモデルの下でのiidバッチ設定での学習と同じくらい容易であることを示した。 しかし、スムーズなオンライン分類は、ラベル空間が非有界である場合、iidバッチ分類よりも難しい可能性がある。 特に、PACモデルではiidバッチ設定で学習できるが、スムーズなオンラインモデルでは学習できない仮説クラスを構築した。 最後に、仮説クラスのPAC学習性が、そのスムーズなオンライン学習に十分であることを示す条件を特定する。

We study online classification under smoothed adversaries. In this setting, at each time point, the adversary draws an example from a distribution that has a bounded density with respect to a fixed base measure, which is known apriori to the learner. For binary classification and scalar-valued regression, previous works \citep{haghtalab2020smoothed, block2022smoothed} have shown that smoothed online learning is as easy as learning in the iid batch setting under PAC model. However, we show that smoothed online classification can be harder than the iid batch classification when the label space is unbounded. In particular, we construct a hypothesis class that is learnable in the iid batch setting under the PAC model but is not learnable under the smoothed online model. Finally, we identify a condition that ensures that the PAC learnability of a hypothesis class is sufficient for its smoothed online learnability.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 散乱・放射媒体のモデリングとレンダリングのためのボリュームプリミティブ

Volumetric Primitives for Modeling and Rendering Scattering and Emissive Media ( http://arxiv.org/abs/2405.15425v1 )

ライセンス: Link先を確認
Jorge Condor, Sebastien Speierer, Lukas Bode, Aljaz Bozic, Simon Green, Piotr Didyk, Adrian Jarabo, (参考訳) 本稿では, プリミティブに基づくボリューム表現を提案し, 散乱と放射媒質をモデル化する。 多くのコンピュータグラフィックスアプリケーションにおいて、効率的なレンダリングを可能にする正確なシーン表現が不可欠である。 表面および体積に基づく表現を同時に扱うことができ、物理的に正確なモデリングを可能にする一般的な統一された表現は研究課題のままである。 近年,3次元ガウスの混合を利用したシーン再構成法に触発されて,単純なカーネルベースボリュームプリミティブの混合を用いて散乱媒体と放射媒体のモデリングを形式化し,一般化した。 本稿では,3次元ガウス核における透過率とフリーフライ距離サンプリングのためのクローズドフォームソリューションを提案し,この手法を任意の既製ボリュームパストレーサ内で効率的に使用するためのいくつかの最適化手法を提案する。 本手法は,散乱媒体の前方および逆レンダリングのためのボリュームモデリング(例えば,ボクセルグリッドに基づく表現)の代替として,本手法を実証する。 さらに,この手法を放射場最適化とレンダリングの問題に適用し,最先端技術に匹敵する性能を示すとともに,性能とユーザビリティの面でさらなる柔軟性を提供する。

We propose a volumetric representation based on primitives to model scattering and emissive media. Accurate scene representations enabling efficient rendering are essential for many computer graphics applications. General and unified representations that can handle surface and volume-based representations simultaneously, allowing for physically accurate modeling, remain a research challenge. Inspired by recent methods for scene reconstruction that leverage mixtures of 3D Gaussians to model radiance fields, we formalize and generalize the modeling of scattering and emissive media using mixtures of simple kernel-based volumetric primitives. We introduce closed-form solutions for transmittance and free-flight distance sampling for 3D Gaussian kernels, and propose several optimizations to use our method efficiently within any off-the-shelf volumetric path tracer by leveraging ray tracing for efficiently querying the medium. We demonstrate our method as an alternative to other forms of volume modeling (e.g. voxel grid-based representations) for forward and inverse rendering of scattering media. Furthermore, we adapt our method to the problem of radiance field optimization and rendering, and demonstrate comparable performance to the state of the art, while providing additional flexibility in terms of performance and usability.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# AuthNet: 統合認証論理を用いたニューラルネットワーク

AuthNet: Neural Network with Integrated Authentication Logic ( http://arxiv.org/abs/2405.15426v1 )

ライセンス: Link先を確認
Yuling Cai, Fan Xiang, Guozhu Meng, Yinzhi Cao, Kai Chen, (参考訳) モデル盗難、すなわち、ディープラーニングモデルの不正アクセスと流出は、主要な脅威の1つとなっている。 プロプライエタリモデルはアクセス制御と暗号化によって保護される。 しかし、実際には、これらの措置はシステム違反、クエリベースのモデル抽出、あるいは不満を抱いたインサイダーによって妥協される可能性がある。 ニューラルネットワークのセキュリティ強化は、例えば、モデル透かしは受動的であり、海賊行為の発生を防ぎ、変換に対して堅牢ではない、という制限に悩まされている。 そこで本研究では,認証ロジックをモデルの一部として統合する,AuthNetと呼ばれるネイティブ認証機構を提案する。 我々の重要な洞察は、余剰ニューロンを低活性化で再利用し、ゲート層と呼ばれる中間層に認証ビットを埋め込むことである。 次にAuthNetは、認証ロジックを埋め込むためにゲート層の後層を微調整し、特別な秘密鍵を持つ入力だけがAuthNetの正しいロジックをトリガーできるようにします。 直感的な2つの利点がある。 これは最後の防衛ライン、すなわち、たとえ流出しても、敵がキーなしで有効な入力を生成できないため、モデルは使用できない。 さらに、認証ロジックは、モデル内の数百万から数十億のニューロンを検査し識別することは困難である。 理論的には、秘密鍵に対するAuthNetの高感度と、無許可サンプルに対する高い混乱を実証する。 AuthNetは、任意の畳み込みニューラルネットワークと互換性があり、我々の広範な評価によると、AuthNetは、正当性のあるユーザ(平均精度が22.03%まで低下する)を、自明な精度低下(平均1.18%)で拒否する目標を達成することができ、モデル変換や適応攻撃に対して堅牢である。

Model stealing, i.e., unauthorized access and exfiltration of deep learning models, has become one of the major threats. Proprietary models may be protected by access controls and encryption. However, in reality, these measures can be compromised due to system breaches, query-based model extraction or a disgruntled insider. Security hardening of neural networks is also suffering from limits, for example, model watermarking is passive, cannot prevent the occurrence of piracy and not robust against transformations. To this end, we propose a native authentication mechanism, called AuthNet, which integrates authentication logic as part of the model without any additional structures. Our key insight is to reuse redundant neurons with low activation and embed authentication bits in an intermediate layer, called a gate layer. Then, AuthNet fine-tunes the layers after the gate layer to embed authentication logic so that only inputs with special secret key can trigger the correct logic of AuthNet. It exhibits two intuitive advantages. It provides the last line of defense, i.e., even being exfiltrated, the model is not usable as the adversary cannot generate valid inputs without the key. Moreover, the authentication logic is difficult to inspect and identify given millions or billions of neurons in the model. We theoretically demonstrate the high sensitivity of AuthNet to the secret key and its high confusion for unauthorized samples. AuthNet is compatible with any convolutional neural network, where our extensive evaluations show that AuthNet successfully achieves the goal in rejecting unauthenticated users (whose average accuracy drops to 22.03%) with a trivial accuracy decrease (1.18% on average) for legitimate users, and is robust against model transformation and adaptive attacks.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# ポリネーターの農業への取り組み 4.0: 物体認識によるハチのモニタリング

Enhancing Pollinator Conservation towards Agriculture 4.0: Monitoring of Bees through Object Recognition ( http://arxiv.org/abs/2405.15428v1 )

ライセンス: Link先を確認
Ajay John Alex, Chloe M. Barnes, Pedro Machado, Isibor Ihianle, Gábor Markó, Martin Bencsik, Jordan J. Bird, (参考訳) 急速な気候変動と食糧生産に対する悪影響の時代には、受粉者の保全を監視するための技術介入は、地球規模の食料安全保障のための環境監視と保全にとって最重要課題である。 人類の生存は、受粉者の保護に依存している。 本稿では,ハチの行動の自律的追跡・報告にコンピュータビジョンと物体認識を用いる方法について検討する。 ビデオストリームから蜂を含む9664画像の新しいデータセットを抽出し、バウンディングボックスで注釈付けする。 トレーニング, 検証, テストセット (6722, 1915, 997 画像) を用いて, COCO をベースとした YOLO モデルファインチューニング手法の結果から, YOLOv5m が認識精度の面で最も効果的なアプローチであることが示された。 しかし、YOLOv5sは平均処理時間5.1msの動画フレームでリアルタイム蜂検出に最適であることが判明した。 トレーニングされたモデルは、説明可能なAIインターフェース内にパッケージされ、検出イベントをタイムスタンプ付きレポートやチャートに変換する。

In an era of rapid climate change and its adverse effects on food production, technological intervention to monitor pollinator conservation is of paramount importance for environmental monitoring and conservation for global food security. The survival of the human species depends on the conservation of pollinators. This article explores the use of Computer Vision and Object Recognition to autonomously track and report bee behaviour from images. A novel dataset of 9664 images containing bees is extracted from video streams and annotated with bounding boxes. With training, validation and testing sets (6722, 1915, and 997 images, respectively), the results of the COCO-based YOLO model fine-tuning approaches show that YOLOv5m is the most effective approach in terms of recognition accuracy. However, YOLOv5s was shown to be the most optimal for real-time bee detection with an average processing and inference time of 5.1ms per video frame at the cost of slightly lower ability. The trained model is then packaged within an explainable AI interface, which converts detection events into timestamped reports and charts, with the aim of facilitating use by non-technical users such as expert stakeholders from the apiculture industry towards informing responsible consumption and production.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# E(n)同変トポロジカルニューラルネットワーク

E(n) Equivariant Topological Neural Networks ( http://arxiv.org/abs/2405.15429v1 )

ライセンス: Link先を確認
Claudio Battiloro, Ege Karaismailoğlu, Mauricio Tec, George Dasoulas, Michelle Audirac, Francesca Dominici, (参考訳) グラフニューラルネットワークはペアインタラクションのモデリングに優れていますが、高階インタラクションや機能に柔軟に対応できません。 トポロジカルディープラーニング(TDL)がこの問題に対処するための有望なツールとして最近登場した。 TDLはグラフの代わりに単純あるいはセル複体のような組合せトポロジカル空間で操作することで、任意の多方向、階層的な高次相互作用の原理的モデリングを可能にする。 しかし、TDLの位置や速度といった幾何学的特徴をどのように活用するかについては、ほとんど分かっていない。 本稿では,E(n)-Equivariant Topological Neural Networks (ETNN)を紹介し,E(n)-Equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant graphs, hypergraphs, simplicial, path, cell complex)について述べる。 ETNNは回転と翻訳の等価性を尊重しながら幾何学的ノード特徴を取り入れている。 さらにETNNは、ヘテロジニアスなインタラクションで設定する準備ができている。 幾何グラフのアーキテクチャ上でのETNNの表現性の改善を示す理論的解析を行う。 また、TDLモデルのいくつかのE(n)不変変種が、我々のフレームワークから直接導出可能であることを示す。 ETNNの幅広い適用性は、大きく異なる性質の2つのタスクを通して示される。 一 QM9ベンチマークにおける分子特性予測及び 二 マルチレゾリューション不規則地空間データによる大気汚染の局所的評価のための土地利用回帰 実験の結果,ETNNは多種多様なリッチな構造化データから学習するための有効なツールであり,幾何学的帰納バイアスの利点を浮き彫りにしている。

Graph neural networks excel at modeling pairwise interactions, but they cannot flexibly accommodate higher-order interactions and features. Topological deep learning (TDL) has emerged recently as a promising tool for addressing this issue. TDL enables the principled modeling of arbitrary multi-way, hierarchical higher-order interactions by operating on combinatorial topological spaces, such as simplicial or cell complexes, instead of graphs. However, little is known about how to leverage geometric features such as positions and velocities for TDL. This paper introduces E(n)-Equivariant Topological Neural Networks (ETNNs), which are E(n)-equivariant message-passing networks operating on combinatorial complexes, formal objects unifying graphs, hypergraphs, simplicial, path, and cell complexes. ETNNs incorporate geometric node features while respecting rotation and translation equivariance. Moreover, ETNNs are natively ready for settings with heterogeneous interactions. We provide a theoretical analysis to show the improved expressiveness of ETNNs over architectures for geometric graphs. We also show how several E(n) equivariant variants of TDL models can be directly derived from our framework. The broad applicability of ETNNs is demonstrated through two tasks of vastly different nature: i) molecular property prediction on the QM9 benchmark and ii) land-use regression for hyper-local estimation of air pollution with multi-resolution irregular geospatial data. The experiment results indicate that ETNNs are an effective tool for learning from diverse types of richly structured data, highlighting the benefits of principled geometric inductive bias.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 安全基準を用いた強化学習システムの実証ガイドによる修復

Counterexample-Guided Repair of Reinforcement Learning Systems Using Safety Critics ( http://arxiv.org/abs/2405.15430v1 )

ライセンス: Link先を確認
David Boetius, Stefan Leue, (参考訳) 訓練された深層強化学習エージェントは、致命的な安全性の制約を満たすことができないかもしれない。 コストのかかる再訓練を避けるため、トレーニング済みの強化学習エージェントを修復して、安全でない行動を回避したいと願う。 安全評論家を活かした強化学習システム修復のための逆例誘導修復アルゴリズムを考案する。 このアルゴリズムは、勾配に基づく制約最適化を用いて、強化学習エージェントと安全評論家を共同で修復する。

Naively trained Deep Reinforcement Learning agents may fail to satisfy vital safety constraints. To avoid costly retraining, we may desire to repair a previously trained reinforcement learning agent to obviate unsafe behaviour. We devise a counterexample-guided repair algorithm for repairing reinforcement learning systems leveraging safety critics. The algorithm jointly repairs a reinforcement learning agent and a safety critic using gradient-based constrained optimisation.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 線形最適化のための実測的説明法

Counterfactual Explanations for Linear Optimization ( http://arxiv.org/abs/2405.15431v1 )

ライセンス: Link先を確認
Jannis Kurtz, Ş. İlker Birbil, Dick den Hertog, (参考訳) 対実的説明(CE)の概念は、複雑なAIシステムの内部動作を理解するための重要な概念の1つとして登場した。 本稿では,CEの考え方を線形最適化に変換し,3種類のCE(強度,弱度,相対性)の提案,動機付け,解析を行う。 強いCEと弱いCEを導出することは計算的に難解であるように見えるが、相対CEを効率的に計算できることが示される。 後者の場合において発生する最適化問題の隠れ凸構造を検出・活用することにより、相対CEは元の線形最適化問題の解法と同程度の時間で得られることを示す。 これは、NetLIBライブラリに関する広範な数値実験によって確認されている。

The concept of counterfactual explanations (CE) has emerged as one of the important concepts to understand the inner workings of complex AI systems. In this paper, we translate the idea of CEs to linear optimization and propose, motivate, and analyze three different types of CEs: strong, weak, and relative. While deriving strong and weak CEs appears to be computationally intractable, we show that calculating relative CEs can be done efficiently. By detecting and exploiting the hidden convex structure of the optimization problem that arises in the latter case, we show that obtaining relative CEs can be done in the same magnitude of time as solving the original linear optimization problem. This is confirmed by an extensive numerical experiment study on the NETLIB library.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# オンライン学習におけるディトラクション検出のためのバイオメトリックスと行動モデリング

Biometrics and Behavioral Modelling for Detecting Distractions in Online Learning ( http://arxiv.org/abs/2405.15434v1 )

ライセンス: Link先を確認
Álvaro Becerra, Javier Irigoyen, Roberto Daza, Ruth Cobos, Aythami Morales, Julian Fierrez, Mutlu Cukurova, (参考訳) 本稿では,eラーニングセッション中の異常な頭部ポーズを検出するコンピュータビジョンアプローチについて検討し,これらのセッションにおける携帯電話の利用状況について検討する。 我々はMOOC学習セッションに参加している120人の学習者から収集した行動データを利用する。 本研究は,電話使用前後の行動,生理的反応,特に注意,心拍数,想想などに及ぼす電話使用事象の影響に焦点を当てた。 また、MOOC学習セッション中にウェブカメラが撮影した画像を用いて、頭部ポーズイベントを推定し、電話使用イベントを検出する手法を提案する。 本仮説は,eラーニングセッション中に学習者がコンピュータと対面する典型的な行動と対照的に,学習者が携帯電話と対話するときの頭部姿勢に大きな変化が生じることを示唆している。 本研究では,学習者のセッション中に観測された平均値から頭部姿勢の偏差を検出するための手法を提案する。 このシステムは、その後の人間のレビューと携帯電話の使用状況の選択のための頭部姿勢の変化を示すイベントを90%以上の感度でフラグ付けする。

In this article, we explore computer vision approaches to detect abnormal head pose during e-learning sessions and we introduce a study on the effects of mobile phone usage during these sessions. We utilize behavioral data collected from 120 learners monitored while participating in a MOOC learning sessions. Our study focuses on the influence of phone-usage events on behavior and physiological responses, specifically attention, heart rate, and meditation, before, during, and after phone usage. Additionally, we propose an approach for estimating head pose events using images taken by the webcam during the MOOC learning sessions to detect phone-usage events. Our hypothesis suggests that head posture undergoes significant changes when learners interact with a mobile phone, contrasting with the typical behavior seen when learners face a computer during e-learning sessions. We propose an approach designed to detect deviations in head posture from the average observed during a learner's session, operating as a semi-supervised method. This system flags events indicating alterations in head posture for subsequent human review and selection of mobile phone usage occurrences with a sensitivity over 90%.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# ハイブリッドコンテキスト検索拡張生成パイプライン:LLM強化知識グラフと認定報告支援のためのベクトルデータベース

Hybrid Context Retrieval Augmented Generation Pipeline: LLM-Augmented Knowledge Graphs and Vector Database for Accreditation Reporting Assistance ( http://arxiv.org/abs/2405.15436v1 )

ライセンス: Link先を確認
Candace Edwards, (参考訳) 高等教育においては、認定は品質保証のプロセスであり、機関は生徒に高品質なプログラムとサービスを提供することを約束する。 全国的にも国際的にも、AACSB(Association to Advance Collegiate Schools of Business)認定は金本位制である。 ビジネススクールが認定を受け、その後維持するためには、AACSB標準との整合性を示すために、厳格で時間のかかる報告と査読手続きを講ずる必要がある。 このプロジェクトでは、認定に必要なドキュメントのアライメントと報告プロセスを支援する、ハイブリッドなコンテキスト検索拡張生成パイプラインを作成します。 我々は,機関データとAACSB標準データの両方を含む知識ストアとして,ベクトルデータベースと知識グラフの両方を実装した。 パイプラインのアウトプットは、機関の利害関係者が認定レポートを構築するために使用することができる。 知識グラフの開発には,手作業による構築プロセスと LLM Augmented Knowledge Graph アプローチを併用した。 RAGAsフレームワークを用いてパイプラインの評価を行い,回答の妥当性と回答の正解率の指標を最適に評価した。

In higher education, accreditation is a quality assurance process, where an institution demonstrates a commitment to delivering high quality programs and services to their students. For business schools nationally and internationally the Association to Advance Collegiate Schools of Business (AACSB) accreditation is the gold standard. For a business school to receive and subsequently maintain accreditation, the school must undertake a rigorous, time consuming reporting and peer review process, to demonstrate alignment with the AACSB Standards. For this project we create a hybrid context retrieval augmented generation pipeline that can assist in the documentation alignment and reporting process necessary for accreditation. We implement both a vector database and knowledge graph, as knowledge stores containing both institutional data and AACSB Standard data. The output of the pipeline can be used by institution stakeholders to build their accreditation report, dually grounded by the context from the knowledge stores. To develop our knowledge graphs we utilized both a manual construction process as well as an LLM Augmented Knowledge Graph approach. We evaluated the pipeline using the RAGAs framework and observed optimal performance on answer relevancy and answer correctness metrics.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# TikTokにおけるデータ、アルゴリズム、アルゴリズムの正義に関する個人的意義

Learning about Data, Algorithms, and Algorithmic Justice on TikTok in Personally Meaningful Ways ( http://arxiv.org/abs/2405.15437v1 )

ライセンス: Link先を確認
Luis Morales-Navarro, Yasmin B. Kafai, Ha Nguyen, Kayla DesPortes, Ralph Vacca, Camillia Matuk, Megan Silander, Anna Amato, Peter Woods, Francisco Castro, Mia Shaw, Selin Akgun, Christine Greenhow, Antero Garcia, (参考訳) 人気のショートビデオ共有アプリTikTokは、若者のためのソーシャルメディアプラットフォームとして登場し、若い女性やカラーの人々がオンラインでどのように交流するかに顕著な影響を与えている。 このアプリケーションは、エンタテイメントだけでなく、人工知能/機械学習(AI/ML)主導のレコメンデーションと、生成AIフィルターのようなAI/M駆動のツールを使ってコンテンツを作成する機会を提供する。 これは若者がこれらのシステムの内部の働き、その意味を探求し、疑問を呈する機会を与え、それらを使って彼らが情熱を抱いている原因を提唱する。 我々は、TikTokと関わり合う際に、若者が個々に意味のある方法でどのように学習するかについて異なる視点を提示する。 我々は、TikTokがどのように機能するか(データとアルゴリズムを考慮)、倫理とアルゴリズムの正義の問題を考慮し、プラットフォームに対する理解を利用して変化を提唱するかを若者がどのように調査するかについて議論する。

TikTok, a popular short video sharing application, emerged as the dominant social media platform for young people, with a pronounced influence on how young women and people of color interact online. The application has become a global space for youth to connect with each other, offering not only entertainment but also opportunities to engage with artificial intelligence/machine learning (AI/ML)-driven recommendations and create content using AI/M-powered tools, such as generative AI filters. This provides opportunities for youth to explore and question the inner workings of these systems, their implications, and even use them to advocate for causes they are passionate about. We present different perspectives on how youth may learn in personally meaningful ways when engaging with TikTok. We discuss how youth investigate how TikTok works (considering data and algorithms), take into account issues of ethics and algorithmic justice and use their understanding of the platform to advocate for change.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# 中国北東部と南西部の森林と対照的な森林における新たな森林在庫計画を用いたリモートセンシングに基づく森林バイオマスマッピング手法の比較

Comparing remote sensing-based forest biomass mapping approaches using new forest inventory plots in contrasting forests in northeastern and southwestern China ( http://arxiv.org/abs/2405.15438v1 )

ライセンス: Link先を確認
Wenquan Dong, Edward T. A. Mitchard, Yuwei Chen, Man Chen, Congfeng Cao, Peilun Hu, Cong Xu, Steven Hancock, (参考訳) 大規模高空間分解能地上バイオマス(AGB)マップは、森林炭素資源の決定と変化の仕方において重要な役割を担っており、これは地球規模の炭素循環を理解し、気候変動を緩和するための政策を実行するのに役立っている。 NASAの新しい宇宙搭載LiDARセンサーであるGEDIは、特にSAR(Synthetic Aperture Radar)と受動光学データによる飽和度を示す高密度・高密度の森林において、高解像度で森林AGBの正確で偏りのない推定を可能にする。 しかし、GEDIはサンプリング装置であり、分散されたフットプリントを収集し、そのデータを他の連続カバー衛星のデータと組み合わせて、局所的な機械学習手法を用いて高解像度の地図を作成する必要がある。 本研究では,中国からの最小フィールドデータを組み込んだGEDI L4 AGBデータ作成モデルとして,GEDI L2Aデータから森林AGBを推定するローカルモデルを開発した。 次に,25mの壁面AGBマップの生成にLightGBMとランダム森林回帰を適用し,GEDIフットプリントとSentinel-1データ,ALOS-2 PALSAR-2およびSentinel-2光データを用いた。 5倍のクロスバリデーションにより、LightGBMは2つの対照的な領域にわたるランダムフォレストよりも若干優れたパフォーマンスを示した。 しかし、両領域とも、LightGBMの計算速度はランダムフォレストモデルよりもかなり高速であり、同じハードウェア上で計算するのに約3分の1の時間を要する。 フィールドデータに対する検証により, GEDI L4B AGBデータと比較して, 局所モデルを用いて生成した25m解像度のAGBマップの精度が高かった。 両地域では斜面の上昇に伴い誤差が増加した。 訓練されたモデルは近くの異なる地域で試験され、優れた性能を示した。

Large-scale high spatial resolution aboveground biomass (AGB) maps play a crucial role in determining forest carbon stocks and how they are changing, which is instrumental in understanding the global carbon cycle, and implementing policy to mitigate climate change. The advent of the new space-borne LiDAR sensor, NASA's GEDI instrument, provides unparalleled possibilities for the accurate and unbiased estimation of forest AGB at high resolution, particularly in dense and tall forests, where Synthetic Aperture Radar (SAR) and passive optical data exhibit saturation. However, GEDI is a sampling instrument, collecting dispersed footprints, and its data must be combined with that from other continuous cover satellites to create high-resolution maps, using local machine learning methods. In this study, we developed local models to estimate forest AGB from GEDI L2A data, as the models used to create GEDI L4 AGB data incorporated minimal field data from China. We then applied LightGBM and random forest regression to generate wall-to-wall AGB maps at 25 m resolution, using extensive GEDI footprints as well as Sentinel-1 data, ALOS-2 PALSAR-2 and Sentinel-2 optical data. Through a 5-fold cross-validation, LightGBM demonstrated a slightly better performance than Random Forest across two contrasting regions. However, in both regions, the computation speed of LightGBM is substantially faster than that of the random forest model, requiring roughly one-third of the time to compute on the same hardware. Through the validation against field data, the 25 m resolution AGB maps generated using the local models developed in this study exhibited higher accuracy compared to the GEDI L4B AGB data. We found in both regions an increase in error as slope increased. The trained models were tested on nearby but different regions and exhibited good performance.
翻訳日:2024-05-27 14:52:03 公開日:2024-05-24
# キーボードベースパラレルスキップ変換器を用いたテキスト誘導型3次元人体運動生成

Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer ( http://arxiv.org/abs/2405.15439v1 )

ライセンス: Link先を確認
Zichen Geng, Caren Han, Zeeshan Hayder, Jian Liu, Mubarak Shah, Ajmal Mian, (参考訳) テキスト駆動型ヒューマンモーション生成はアニメーションとヒューマノイドロボットの設計において新たな課題である。 既存のアルゴリズムは、計算コストが高く、重要なポーズに特に注意を払わないためエラーを起こしやすい全シーケンスを生成する。 入力テキストに対応する可塑性な人間の動作シーケンスを生成するKeyMotionを提案する。 可変オートエンコーダ(VAE)とKullback-Leibler正則化を用いて,鍵フレームを潜在空間に投影し,次元の低減とその後の拡散過程の促進を図る。 逆拡散のために,キーフレームラテントとテキスト条件間の相互参照を行う新しいパラレルスキップ変換器を提案する。 そこで本研究では,人間の動作の物理的制約に対する忠実さと忠実さの両面を確実に維持し,動きを埋め込むためのテキスト誘導変換器を提案する。 実験の結果,HumanML3Dデータセットでは,R精度の指標やマルチモーダル距離が他よりも優れていることがわかった。 KeyMotionはまた、KITデータセット上での競争的なパフォーマンスも達成し、Top3 R-precision、FID、およびDiversityメトリクスで最高の結果を達成する。

Text-driven human motion generation is an emerging task in animation and humanoid robot design. Existing algorithms directly generate the full sequence which is computationally expensive and prone to errors as it does not pay special attention to key poses, a process that has been the cornerstone of animation for decades. We propose KeyMotion, that generates plausible human motion sequences corresponding to input text by first generating keyframes followed by in-filling. We use a Variational Autoencoder (VAE) with Kullback-Leibler regularization to project the keyframes into a latent space to reduce dimensionality and further accelerate the subsequent diffusion process. For the reverse diffusion, we propose a novel Parallel Skip Transformer that performs cross-modal attention between the keyframe latents and text condition. To complete the motion sequence, we propose a text-guided Transformer designed to perform motion-in-filling, ensuring the preservation of both fidelity and adherence to the physical constraints of human motion. Experiments show that our method achieves state-of-theart results on the HumanML3D dataset outperforming others on all R-precision metrics and MultiModal Distance. KeyMotion also achieves competitive performance on the KIT dataset, achieving the best results on Top3 R-precision, FID, and Diversity metrics.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# Kernel Max-Sliced Wasserstein 距離の統計的および計算的保証

Statistical and Computational Guarantees of Kernel Max-Sliced Wasserstein Distances ( http://arxiv.org/abs/2405.15441v1 )

ライセンス: Link先を確認
Jie Wang, March Boedihardjo, Yao Xie, (参考訳) 最適輸送は様々な機械学習タスクで非常に成功したが、次元性の呪いに苦しむことが知られている。 したがって、低次元構造を持つ高次元データに適用する場合、次元減少が望ましい。 カーネル最大スライシング(KMS)ワッサースタイン距離は、ワッサースタイン距離を計算する前にデータを1ドルで次元に還元する最適な非線形写像を求めることによって、この目的のために開発された。 しかし、その理論的性質はまだ完全には発展していない。 本稿では、KMS$p$-ワッサーシュタイン距離と一般的な$p\in[1,\infty)$に対する$n$サンプルの2つの経験的分布に対する最先端のKMS$p$-Wasserstein距離と比較して、より穏やかな技術的仮定の下で、鋭い有限サンプル保証を提供する。 アルゴリズム的に、KMS 2$-Wasserstein 距離の計算はNPハードであることを示し、さらに、多項式時間で効率的に解ける半有限緩和法(SDR)の定式化を提案し、SDPソリューションに緩和ギャップを与える。 本研究では,高次元2サンプル試験における提案手法の優れた性能を示す数値的な例を示す。

Optimal transport has been very successful for various machine learning tasks; however, it is known to suffer from the curse of dimensionality. Hence, dimensionality reduction is desirable when applied to high-dimensional data with low-dimensional structures. The kernel max-sliced (KMS) Wasserstein distance is developed for this purpose by finding an optimal nonlinear mapping that reduces data into $1$ dimensions before computing the Wasserstein distance. However, its theoretical properties have not yet been fully developed. In this paper, we provide sharp finite-sample guarantees under milder technical assumptions compared with state-of-the-art for the KMS $p$-Wasserstein distance between two empirical distributions with $n$ samples for general $p\in[1,\infty)$. Algorithm-wise, we show that computing the KMS $2$-Wasserstein distance is NP-hard, and then we further propose a semidefinite relaxation (SDR) formulation (which can be solved efficiently in polynomial time) and provide a relaxation gap for the SDP solution. We provide numerical examples to demonstrate the good performance of our scheme for high-dimensional two-sample testing.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# 精密医療を目指して - 時系列と画像データのロバスト融合-

Towards Precision Healthcare: Robust Fusion of Time Series and Image Data ( http://arxiv.org/abs/2405.15442v1 )

ライセンス: Link先を確認
Ali Rasekh, Reza Heidari, Amir Hosein Haji Mohammad Rezaie, Parsa Sharifi Sedeh, Zahra Ahmadi, Prasenjit Mitra, Wolfgang Nejdl, (参考訳) 多様なデータタイプ、特に医療実験からの画像や時系列データの利用が増加し、様々なデータモダリティを効果的に組み合わせるための技術が求められている。 私たちのモチベーションは、データの種類によって予測能力が大幅に向上する、死亡率予測と表現型化の重要な領域から来ています。 この課題に対処するために,2つの異なるエンコーダ(データの種類毎に1つ)を使用して,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。 技術的課題とは別に、私たちのゴールは、ノイズの多い状況下で予測モデルをより堅牢にし、現在の方法よりも優れたパフォーマンスを提供することです。 また、不均衡なデータセットを扱い、不確実性損失関数を使用し、不確実性をモデル化する原則的な手段を同時に提供しながら、改善された結果を得る。 さらに、異なるモダリティを融合させるアテンションメカニズムが含まれており、モデルが各タスクにとって重要なものに集中できるようにします。 我々はMIMIC-IVデータセットとMIMIC-CXRデータセットを組み合わせた総合マルチモーダルMIMICデータセットを用いてアプローチを検証した。 本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。 コードはオンラインで公開されます。

With the increasing availability of diverse data types, particularly images and time series data from medical experiments, there is a growing demand for techniques designed to combine various modalities of data effectively. Our motivation comes from the important areas of predicting mortality and phenotyping where using different modalities of data could significantly improve our ability to predict. To tackle this challenge, we introduce a new method that uses two separate encoders, one for each type of data, allowing the model to understand complex patterns in both visual and time-based information. Apart from the technical challenges, our goal is to make the predictive model more robust in noisy conditions and perform better than current methods. We also deal with imbalanced datasets and use an uncertainty loss function, yielding improved results while simultaneously providing a principled means of modeling uncertainty. Additionally, we include attention mechanisms to fuse different modalities, allowing the model to focus on what's important for each task. We tested our approach using the comprehensive multimodal MIMIC dataset, combining MIMIC-IV and MIMIC-CXR datasets. Our experiments show that our method is effective in improving multimodal deep learning for clinical applications. The code will be made available online.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# フェアネス・アキュリー・トレードオフ:因果的視点

Fairness-Accuracy Trade-Offs: A Causal Perspective ( http://arxiv.org/abs/2405.15443v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim, (参考訳) 機械学習に基づくシステムは、性別、性別、宗教、人種などの繊細な特徴に基づく差別行動を示す。 これを踏まえて、公平さの様々な概念と差別の定量化方法が提案され、公正な予測子を構築するための多くのアプローチが開発された。 同時に、公正性の制約を課すことは、意思決定者の実用性を低下させ、公正性と実用性の間の緊張を浮き彫りにする。 この緊張は、例えば1964年公民権法第7章の異種衝突説(1964年)において、ビジネス上の必要性の考慮に特に注意を払っている場合など、法的な枠組みでも認識されている。 本研究は, 正当性と正当性の間の張力について, 初めて解析するものである。 本稿では,因果フェアネス制約が適用された場合,予測器の損失がどれだけ増加するかを把握するパス固有余剰損失(PSEL)の概念を紹介する。 次に,全ての因果経路に沿った予測値の損失と制約のない予測値との差として定義される総余剰損失(TEL)が,より局所的なPSELの和に分解可能であることを示す。 同時に、因果制約を強制することは、しばしば人口集団間の格差を減少させる。 そこで本研究では,因果経路の制約による過剰な損失に対する差別の低減の比率として定義される因果フェアネス/効用比という,公平性・効用トレードオフを要約した量を紹介した。 この量は、因果経路間の公正効用トレードオフを比較するのに適している。 最後に、我々のアプローチでは因果制約付きフェア予測器を必要とするため、因果制約付きフェアラーニングのための新しいニューラルアプローチを導入する。

Systems based on machine learning may exhibit discriminatory behavior based on sensitive characteristics such as gender, sex, religion, or race. In light of this, various notions of fairness and methods to quantify discrimination were proposed, leading to the development of numerous approaches for constructing fair predictors. At the same time, imposing fairness constraints may decrease the utility of the decision-maker, highlighting a tension between fairness and utility. This tension is also recognized in legal frameworks, for instance in the disparate impact doctrine of Title VII of the Civil Rights Act of 1964 -- in which specific attention is given to considerations of business necessity -- possibly allowing the usage of proxy variables associated with the sensitive attribute in case a high-enough utility cannot be achieved without them. In this work, we analyze the tension between fairness and accuracy from a causal lens for the first time. We introduce the notion of a path-specific excess loss (PSEL) that captures how much the predictor's loss increases when a causal fairness constraint is enforced. We then show that the total excess loss (TEL), defined as the difference between the loss of predictor fair along all causal pathways vs. an unconstrained predictor, can be decomposed into a sum of more local PSELs. At the same time, enforcing a causal constraint often reduces the disparity between demographic groups. Thus, we introduce a quantity that summarizes the fairness-utility trade-off, called the causal fairness/utility ratio, defined as the ratio of the reduction in discrimination vs. the excess loss from constraining a causal pathway. This quantity is suitable for comparing the fairness-utility trade-off across causal pathways. Finally, as our approach requires causally-constrained fair predictors, we introduce a new neural approach for causally-constrained fair learning.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# HyperInterval:連続学習におけるウェイトインターバル領域のトレーニングのためのハイパーネットワークアプローチ

HyperInterval: Hypernetwork approach to training weight interval regions in continual learning ( http://arxiv.org/abs/2405.15444v1 )

ライセンス: Link先を確認
Patryk Krukowski, Anna Bielawska, Kamil Książek, Paweł Wawrzyński, Paweł Batorski, Przemysław Spurek, (参考訳) 最近、ニューラルネットワークのパラメータ空間に間隔制約を強制することに依存するInterContiNet(IntercontiNet)と呼ばれる、破滅的な忘れを制御するために、新しい連続学習(CL)パラダイムが提示された。 残念ながら、InterContiNetトレーニングは重量空間の高次元性のために困難であり、間隔の管理が困難である。 この問題に対処するために,組込み空間内にインターバル演算を導入し,これらのインターバルを対象ネットワークパラメータ空間にマッピングするハイパーネットワーク技術であるHyperIntervalを導入する。 我々は、連続したタスクに対するインターバル埋め込みを訓練し、ハイパーネットワークをトレーニングし、これらの埋め込みをターゲットネットワークの重みに変換する。 与えられたタスクへの埋め込みはハイパーネットワークと共にトレーニングされ、以前のタスクの埋め込みに対するターゲットネットワークの応答を保存する。 インターバル算術は、高次元の重み空間における間隔を直接準備するのではなく、より管理可能な、より低次元の埋め込み空間で動作する。 私たちのモデルはより速く、より効率的なトレーニングを可能にします。 さらに、HyperIntervalは忘れないことを保証する。 トレーニングの終わりに、すべてのタスク専用の1つのネットワークを生成するために、1つの普遍的な埋め込みを選択することができます。 このようなフレームワークでは、ハイパーネットワークはトレーニングにのみ使用され、メタトレーナーとして見ることができる。 HyperIntervalはInterContiNetよりもはるかに優れた結果を取得し、いくつかのベンチマークでSOTA結果を提供する。

Recently, a new Continual Learning (CL) paradigm was presented to control catastrophic forgetting, called Interval Continual Learning (InterContiNet), which relies on enforcing interval constraints on the neural network parameter space. Unfortunately, InterContiNet training is challenging due to the high dimensionality of the weight space, making intervals difficult to manage. To address this issue, we introduce HyperInterval, a technique that employs interval arithmetic within the embedding space and utilizes a hypernetwork to map these intervals to the target network parameter space. We train interval embeddings for consecutive tasks and train a hypernetwork to transform these embeddings into weights of the target network. An embedding for a given task is trained along with the hypernetwork, preserving the response of the target network for the previous task embeddings. Interval arithmetic works with a more manageable, lower-dimensional embedding space rather than directly preparing intervals in a high-dimensional weight space. Our model allows faster and more efficient training. Furthermore, HyperInterval maintains the guarantee of not forgetting. At the end of training, we can choose one universal embedding to produce a single network dedicated to all tasks. In such a framework, hypernetwork is used only for training and can be seen as a meta-trainer. HyperInterval obtains significantly better results than InterContiNet and gives SOTA results on several benchmarks.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# Mind the Gap: 予測と意思決定におけるバイアス増幅の因果的展望

Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making ( http://arxiv.org/abs/2405.15446v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim, (参考訳) 自動システムの公正性と株式を調査することは、調査の重要な分野となっている。 フェア機械学習の文献の多くは、予測の文脈でフェアネス基準を定義し、達成することに焦点を当てている。 例えば、独立性や充足性などの一般的な基準が二項分類に使用される$S$の予測スコアで満たされている場合、単純なしきい値演算を$S$に適用した後に満たされる必要はない(実際には)。 本稿では,多くの統計的・因果的なフェアネスの概念において,この問題に対処するための重要な一歩を踏み出した。 本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。 次に、最適 0/1 予測子 $\widehat Y$ 群、書ける$P(\hat y \mid x_1) - P(\hat y \mid x_0)$ が、$L_2$-最適化予測スコア $S$ に対する$X$ の影響と、マージン補数 $M$ に対する$X$ の影響に因果的に分解できることを示した。 次に、適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。 これにより、予測子$\widehat Y$ の差分を新たに分解し、実際の結果から受け継がれた因果差を、最適化手順自体から得られるものよりも現実に存在する$Y$ に分解することができる。 この観察は、バイアス増幅の可能性により、より規制の監督の必要性を強調し、この問題に対処するために、これらの概念が満たされているかどうかを評価するアルゴリズムとともに、弱くて強いビジネス上の必要性という新たな概念を導入する。

Investigating fairness and equity of automated systems has become a critical field of inquiry. Most of the literature in fair machine learning focuses on defining and achieving fairness criteria in the context of prediction, while not explicitly focusing on how these predictions may be used later on in the pipeline. For instance, if commonly used criteria, such as independence or sufficiency, are satisfied for a prediction score $S$ used for binary classification, they need not be satisfied after an application of a simple thresholding operation on $S$ (as commonly used in practice). In this paper, we take an important step to address this issue in numerous statistical and causal notions of fairness. We introduce the notion of a margin complement, which measures how much a prediction score $S$ changes due to a thresholding operation. We then demonstrate that the marginal difference in the optimal 0/1 predictor $\widehat Y$ between groups, written $P(\hat y \mid x_1) - P(\hat y \mid x_0)$, can be causally decomposed into the influences of $X$ on the $L_2$-optimal prediction score $S$ and the influences of $X$ on the margin complement $M$, along different causal pathways (direct, indirect, spurious). We then show that under suitable causal assumptions, the influences of $X$ on the prediction score $S$ are equal to the influences of $X$ on the true outcome $Y$. This yields a new decomposition of the disparity in the predictor $\widehat Y$ that allows us to disentangle causal differences inherited from the true outcome $Y$ that exists in the real world vs. those coming from the optimization procedure itself. This observation highlights the need for more regulatory oversight due to the potential for bias amplification, and to address this issue we introduce new notions of weak and strong business necessity, together with an algorithm for assessing whether these notions are satisfied.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# スペックリダクションと投影計測による高速かつ優れた量子ソフトウェアテスト

Faster and Better Quantum Software Testing through Specification Reduction and Projective Measurements ( http://arxiv.org/abs/2405.15450v1 )

ライセンス: Link先を確認
Noah H. Oldfield, Christoph Laaber, Tao Yue, Shaukat Ali, (参考訳) 量子コンピューティングは、非構造探索や素数分解など、多くの領域における多項式と指数的高速化を約束する。 しかし、量子プログラムは指数関数的に増大する分布から確率的出力を導き、量子固有の断層に対して脆弱である。 既存の量子ソフトウェアテスト(QST)アプローチは、量子重ね合わせを古典的な分布として扱う。 これは、(1)指数関数的に増加するサンプル空間分布と(2)位相フリップのような量子固有の欠陥を検出できないという2つの大きな制限をもたらす。 これらの制限を克服するために、量子プログラム仕様に還元アルゴリズムを適用するQSTアプローチを導入する。 縮小された仕様は、(1)量子並列性による高速なサンプリングを可能にし、(2)混合アダマール基底での射影測定を行うことによって制限を緩和する。 4つのカテゴリにまたがる143個の量子プログラムの評価は、テスト実行時間と故障検出の大幅な改善を示す。 平均テストランタイムは169.9sから11.8sに改善され、大きな回路深度(383.1sから33.4s)と大規模なプログラム仕様(464.8sから7.7s)のプログラムが大幅に改良された。 さらに,提案手法は変異スコアを54.5%から74.7%に増加させ,非再現仕様が見逃す位相フリップ欠陥を効果的に検出する。 これらの結果は、QST効率と有効性を改善するためのアプローチの重要性を浮き彫りにしている。

Quantum computing promises polynomial and exponential speedups in many domains, such as unstructured search and prime number factoring. However, quantum programs yield probabilistic outputs from exponentially growing distributions and are vulnerable to quantum-specific faults. Existing quantum software testing (QST) approaches treat quantum superpositions as classical distributions. This leads to two major limitations when applied to quantum programs: (1) an exponentially growing sample space distribution and (2) failing to detect quantum-specific faults such as phase flips. To overcome these limitations, we introduce a QST approach, which applies a reduction algorithm to a quantum program specification. The reduced specification alleviates the limitations (1) by enabling faster sampling through quantum parallelism and (2) by performing projective measurements in the mixed Hadamard basis. Our evaluation of 143 quantum programs across four categories demonstrates significant improvements in test runtimes and fault detection with our reduction approach. Average test runtimes improved from 169.9s to 11.8s, with notable enhancements in programs with large circuit depths (383.1s to 33.4s) and large program specifications (464.8s to 7.7s). Furthermore, our approach increases mutation scores from 54.5% to 74.7%, effectively detecting phase flip faults that non-reduced specifications miss. These results underline our approach's importance to improve QST efficiency and effectiveness.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# 言語に基づくファッション検索のための自己蒸留動的核融合ネットワーク

Self-distilled Dynamic Fusion Network for Language-based Fashion Retrieval ( http://arxiv.org/abs/2405.15451v1 )

ライセンス: Link先を確認
Yiming Wu, Hangfei Li, Fangfang Wang, Yilong Zhang, Ronghua Liang, (参考訳) 言語に基づくファッション画像検索の分野では、参照画像と付随するテキスト記述の両方を用いて、所望のファッションアイテムをピンポイントすることは、興味深い課題である。 既存のアプローチは、静的融合技術、画像とテキストの相互運用に大きく依存している。 これらの進歩にもかかわらず、これらのアプローチは柔軟性の欠如によって制限されている。 そこで本研究では,経路の整合性を考慮し,複数粒度の特徴を動的に構成する自己蒸留型動的核融合ネットワークを提案する。 提案手法には,(1)モーダリティ特定ルータを用いた動的フュージョンネットワークという2つの新しいモジュールが含まれている。 動的ネットワークは、それぞれの参照画像のルーティングを柔軟に決定し、それぞれのセマンティクスと分布を考慮に入れながら、テキストを修正できる。 2) 自己経路蒸留損失 クエリに対する安定な経路決定は,特徴抽出とルーティングの最適化の恩恵を受ける。 実験により,提案手法の有効性を実証した。

In the domain of language-based fashion image retrieval, pinpointing the desired fashion item using both a reference image and its accompanying textual description is an intriguing challenge. Existing approaches lean heavily on static fusion techniques, intertwining image and text. Despite their commendable advancements, these approaches are still limited by a deficiency in flexibility. In response, we propose a Self-distilled Dynamic Fusion Network to compose the multi-granularity features dynamically by considering the consistency of routing path and modality-specific information simultaneously. Two new modules are included in our proposed method: (1) Dynamic Fusion Network with Modality Specific Routers. The dynamic network enables a flexible determination of the routing for each reference image and modification text, taking into account their distinct semantics and distributions. (2) Self Path Distillation Loss. A stable path decision for queries benefits the optimization of feature extraction as well as routing, and we approach this by progressively refine the path decision with previous path information. Extensive experiments demonstrate the effectiveness of our proposed model compared to existing methods.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# 知識編集における論理ルールの活用 - 最上位のチェリー

Leveraging Logical Rules in Knowledge Editing: A Cherry on the Top ( http://arxiv.org/abs/2405.15452v1 )

ライセンス: Link先を確認
Keyuan Cheng, Muhammad Asif Ali, Shu Yang, Gang Ling, Yuxuan Zhai, Haoyang Fei, Ke Xu, Lu Yu, Lijie Hu, Di Wang, (参考訳) 知識編集(KE)におけるマルチホップ質問回答(MQA)は,大規模言語モデル(LLM)において重要な課題である。 この領域のベストパフォーマンスソリューションは、計画とパラダイムを用いて、質問をサブクエストに分割し、応答生成するが、この手法は、質問を分解し難いため、サブ最適であり、知識編集の結果、相関した知識更新に明示的に対応していない、と我々は主張する。 これは、更新された知識の全体的な一貫性に有害な影響を与える。 これらの問題に対処するため,本稿では,既存のMQAメソッドをKEで拡張する上で最上位に位置する,RULE-KE(RULE-based Knowledge Editing)という新しいフレームワークを提案する。 具体的には、RULE-KEはルール発見を利用して論理ルールの集合を発見する。 そして、発見されたルールを使って、編集と非常に相関した事実に関する知識を更新する。 既存のキュレートされたデータセット(RKE-EVAL)を用いた実験的評価では、RULE-KEはパラメータベースのソリューションとメモリベースのソリューションの両方のパフォーマンスを、それぞれ92%と112.9%に向上させる。

Multi-hop Question Answering (MQA) under knowledge editing (KE) is a key challenge in Large Language Models (LLMs). While best-performing solutions in this domain use a plan and solve paradigm to split a question into sub-questions followed by response generation, we claim that this approach is sub-optimal as it fails for hard to decompose questions, and it does not explicitly cater to correlated knowledge updates resulting as a consequence of knowledge edits. This has a detrimental impact on the overall consistency of the updated knowledge. To address these issues, in this paper, we propose a novel framework named RULE-KE, i.e., RULE based Knowledge Editing, which is a cherry on the top for augmenting the performance of all existing MQA methods under KE. Specifically, RULE-KE leverages rule discovery to discover a set of logical rules. Then, it uses these discovered rules to update knowledge about facts highly correlated with the edit. Experimental evaluation using existing and newly curated datasets (i.e., RKE-EVAL) shows that RULE-KE helps augment both performances of parameter-based and memory-based solutions up to 92% and 112.9%, respectively.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# Urdu NLPタスクにおける事前学習型大言語モデルのポテンシャルのベンチマーク

Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks ( http://arxiv.org/abs/2405.15453v1 )

ライセンス: Link先を確認
Munief Hassan Tahir, Sana Shams, Layba Fiaz, Farah Adeeba, Sarmad Hussain, (参考訳) 多言語データに事前訓練された大規模言語モデル(LLM)は、言語やタスク固有のモデルパイプラインから、さまざまなタスクに適応した単一モデルに移行することで、自然言語処理の研究に革命をもたらした。 しかし、LLMの既存の多言語NLPベンチマークのほとんどは、言語多様性の少ない少数の言語で評価データを提供している。 さらに、これらのベンチマークは、それぞれのアートモデルに対する品質評価を欠いている。 GPT-3.5-turbo, Llama2-7B-Chat, Bloomz 7B1, Bloomz 3Bの4つのタスクに対して, ゼロショット設定で15のUrduデータセットを用いて, その性能を比較し, 解析した。 実験の結果, ゼロショット学習を施した全てのUrdu NLPタスクにおいて, SOTAモデルはエンコーダ・デコーダの事前学習言語モデルを上回ることがわかった。 さらに,LLMのパラメータは少ないが,ベースモデルにおける言語特化データの方が,より大きな計算モデルよりも優れ,低言語データより優れていることを示す。

Large Language Models (LLMs) pre-trained on multilingual data have revolutionized natural language processing research, by transitioning from languages and task specific model pipelines to a single model adapted on a variety of tasks. However majority of existing multilingual NLP benchmarks for LLMs provide evaluation data in only few languages with little linguistic diversity. In addition these benchmarks lack quality assessment against the respective state-of the art models. This study presents an in-depth examination of prominent LLMs; GPT-3.5-turbo, Llama2-7B-Chat, Bloomz 7B1 and Bloomz 3B, across 14 tasks using 15 Urdu datasets, in a zero-shot setting, and their performance against state-of-the-art (SOTA) models, has been compared and analysed. Our experiments show that SOTA models surpass all the encoder-decoder pre-trained language models in all Urdu NLP tasks with zero-shot learning. Our results further show that LLMs with fewer parameters, but more language specific data in the base model perform better than larger computational models, but low language data.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# 性能保証付き線形制御言語生成

Linearly Controlled Language Generation with Performative Guarantees ( http://arxiv.org/abs/2405.15454v1 )

ライセンス: Link先を確認
Emily Cheng, Marco Baroni, Carmen Amo Alonso, (参考訳) 批判的アプリケーションにおける大規模言語モデル(LM)の普及は、計算効率だけでなく、性能保証も享受する制御された言語生成戦略の必要性を強調している。 これを実現するために、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。 特に、自然言語生成は、この連続的な意味空間における軌跡を辿り、言語モデルの隠れアクティベーションによって実現される。 本研究では,非所望な意味に対応する領域から動的にトラジェクトリを分離する,軽量で勾配のない介入を提案する。 重要なことに、私たちが計算したこの介入は、許可された領域への出力を(確率で)保証することを示しています。 最後に, テキスト品質を維持しつつ, 介入が望ましくないコンテンツから言語を遠ざけることを, 有害性回避の目的として示す。

The increasing prevalence of Large Language Models (LMs) in critical applications highlights the need for controlled language generation strategies that are not only computationally efficient but that also enjoy performance guarantees. To achieve this, we use a common model of concept semantics as linearly represented in an LM's latent space. In particular, we take the view that natural language generation traces a trajectory in this continuous semantic space, realized by the language model's hidden activations. This view permits a control-theoretic treatment of text generation in latent space, in which we propose a lightweight, gradient-free intervention that dynamically steers trajectories away from regions corresponding to undesired meanings. Crucially, we show that this intervention, which we compute in closed form, is guaranteed (in probability) to steer the output into the allowed region. Finally, we demonstrate on a toxicity avoidance objective that the intervention steers language away from undesired content while maintaining text quality.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# リレーショナル量子場理論に向けて

Towards Relational Quantum Field Theory ( http://arxiv.org/abs/2405.15455v1 )

ライセンス: Link先を確認
Jan Głowacki, (参考訳) 本稿では,相対論的量子物理学の相対論的基礎を確立するための研究プログラムを提案する。 フォーマリズムはまだ発展途上であるが、より広い科学コミュニティと共有できるほど成熟したと我々は信じている。 我々のアプローチは、不明確な因果関係を持つ曲面背景とシナリオに量子場理論を統合することを目指している。 操作的アプローチから量子参照フレームまでの概念に基づいて、これらのアイデアを著しく拡張する。 具体的には、正の作用素値測度(量子フレーム)に対する作用素値関数(量子場)に対する一般積分理論の開発を開始する。 これにより、任意の主バンドルの文脈内で量子フレームを定義することができ、群構造を置き換えることができる。 ローレンツ主バンドルを考えることにより、任意に湾曲した時空上での場のリレーショナル処理を可能にする。 不定時空間の A~形式は、フレームバンドルの文脈における量子状態から生じる。 これは、一般相対論的および量子物理学の原理を整合する問題と、量子系によって引き起こされる重力場をモデル化する問題に関する新しい視点を提供する。

This paper presents a research program aimed at establishing relational foundations for relativistic quantum physics. Although the formalism is still under development, we believe it has matured enough to be shared with the broader scientific community. Our approach seeks to integrate Quantum Field Theory on curved backgrounds and scenarios with indefinite causality. Building on concepts from the operational approach to Quantum Reference Frames, we extend these ideas significantly. Specifically, we initiate the development of a general integration theory for operator-valued functions (quantum fields) with respect to positive operator-valued measures (quantum frames). This allows us to define quantum frames within the context of arbitrary principal bundles, replacing group structures. By considering Lorentz principal bundles, we enable a relational treatment of quantum fields on arbitrarily curved spacetimes. A~form of~indefinite spatiotemporality arises from quantum states in the context of frame bundles. This offers novel perspectives on the problem of reconciling principles of generally relativistic and quantum physics and on modelling gravitational fields sourced by quantum systems.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# リドベルク原子におけるリー変換パルス設計によるGHZ状態とKLM状態の決定論的相互変換

Deterministic interconversion of GHZ state and KLM state via Lie-transform-based pulse design in Rydberg atoms ( http://arxiv.org/abs/2405.15456v1 )

ライセンス: Link先を確認
J. P. Wang, Y. Q. Ji, L. P. Yang, C. Q. Wang, L. Dong, X. M. Xiu, (参考訳) 異なるタイプの絡み合った状態間の変換は、量子力学において興味深い問題である。 しかし,グリーンベルガー・ホルン・ザイリンガー状態(GHZ)とKLM状態(Knill-Laflamme-Milburn状態)の原子系への変換は欠落している。 本稿では,GHZ状態とKLM状態のリドバーグ原子との相互変換(ワンステップ)を実現する手法を提案する。 Rydbergによるインタラクションを利用することで、システムを単純化する。 Lie変換に基づくパルス設計を組み合わせることで、GHZ状態とKLM状態の相互変換を実現する進化経路を構築する。 数値シミュレーションの結果,本手法はデコヒーレンスや運用上の不完全性に対して頑健であることを示すとともに,本手法が現在の実験技術で実現可能であることを示す。

Conversion between different types of entangled states is an interesting problem in quantum mechanics. But research on the conversion between Greenberger-Horne-Zeilinger (GHZ) state and Knill-Laflamme-Milburn (KLM) state in atomic system is absent. In this paper, we propose a scheme to realize the interconversion (one-step) between GHZ state and KLM state with Rydberg atoms. By utilizing Rydberg-mediated interactions, we simplify the system. By combining Lie-transform-based pulse design, the evolution path is built up to realize interconversion of GHZ state and KLM state. The numerical simulation result shows that the present scheme is robust against decoherence and operational imperfection, the analysis shows that the scheme is feasible with current experimental technology.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# FedCal: 集約パラメータスケーラによるフェデレーション学習における局所的およびグローバルな校正の実現

FedCal: Achieving Local and Global Calibration in Federated Learning via Aggregated Parameterized Scaler ( http://arxiv.org/abs/2405.15458v1 )

ライセンス: Link先を確認
Hongyi Peng, Han Yu, Xiaoli Tang, Xiaoxiao Li, (参考訳) フェデレートラーニング(FL)は、分散データオーナ間で協調的な機械学習を可能にするが、データの均一性はモデルのキャリブレーションに課題をもたらす。 以前の作業では、非IDデータの精度向上に重点を置いていたが、キャリブレーションは未探索のままである。 本研究は,既存のFLアグリゲーションアプローチが準最適キャリブレーションにつながることを明らかにし,クライアントのラベル分布に制約があるにもかかわらず,大域的キャリブレーション誤差は漸近的に低い境界値であることを示す。 そこで本研究では,局所校正とグローバル校正を両立するフェデレート校正(FedCal)手法を提案する。 クライアント固有のスケーラをローカルキャリブレーションに利用して、予測精度を犠牲にすることなく、出力ミスアライメントを効果的に補正する。 これらのスケーラを平均化して集約してグローバルスケーラを生成し、グローバルキャリブレーション誤差を最小化する。 大規模な実験により、FedCalは最高性能のベースラインを著しく上回り、グローバルキャリブレーションエラーを平均47.66%削減した。

Federated learning (FL) enables collaborative machine learning across distributed data owners, but data heterogeneity poses a challenge for model calibration. While prior work focused on improving accuracy for non-iid data, calibration remains under-explored. This study reveals existing FL aggregation approaches lead to sub-optimal calibration, and theoretical analysis shows despite constraining variance in clients' label distributions, global calibration error is still asymptotically lower bounded. To address this, we propose a novel Federated Calibration (FedCal) approach, emphasizing both local and global calibration. It leverages client-specific scalers for local calibration to effectively correct output misalignment without sacrificing prediction accuracy. These scalers are then aggregated via weight averaging to generate a global scaler, minimizing the global calibration error. Extensive experiments demonstrate FedCal significantly outperforms the best-performing baseline, reducing global calibration error by 47.66% on average.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# Repetita Iuvant: SGDで高次元マルチインデックス関数を学習できるデータ繰り返し

Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions ( http://arxiv.org/abs/2405.15459v1 )

ライセンス: Link先を確認
Luca Arnaboldi, Yatin Dandi, Florent Krzakala, Luca Pesce, Ludovic Stephan, (参考訳) ニューラルネットワークは、高次元ノイズデータの中で低次元の関連構造を識別することができるが、その方法に関する数学的理解は乏しいままである。 本稿では,勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討し,低次元な対象関数であるマルチインデックスモデルにおいて,関連する特徴を学習する方法について考察する。 入力次元が$d$のばらつきがある高次元のシステムでは、理想化された単一パス勾配勾配降下訓練シナリオの簡単な修正が行われ、データの繰り返しや反復が2回可能になったことにより、計算効率が大幅に向上する。 特に、学習対象関数に関連するインフォメーション・アンド・プループ・インフォメーション・インフォメーション・インフォメーション・インフォメーション・アンド・プループ・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・アンド・プループ・インフォメーション・インフォメーション(Information and Leap Exponents)によって規定された制限を超える。 この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが明らかになった。 より正確には、(ほとんど)すべての方向は、少なくとも$O(d \log d)$のステップで学習されることを示す。 例外として、スパースパリティを含むハード関数の集合がある。 しかし、方向のカップリングの存在下では、階段関数の概念を一般化する階層的なメカニズムによってこれらを逐次学習することができる。 この結果は、高次元力学に関する関連する統計の進化に関する厳密な研究によって証明されている。

Neural networks can identify low-dimensional relevant structures within high-dimensional noisy data, yet our mathematical understanding of how they do so remains scarce. Here, we investigate the training dynamics of two-layer shallow neural networks trained with gradient-based algorithms, and discuss how they learn pertinent features in multi-index models, that is target functions with low-dimensional relevant directions. In the high-dimensional regime, where the input dimension $d$ diverges, we show that a simple modification of the idealized single-pass gradient descent training scenario, where data can now be repeated or iterated upon twice, drastically improves its computational efficiency. In particular, it surpasses the limitations previously believed to be dictated by the Information and Leap exponents associated with the target function to be learned. Our results highlight the ability of networks to learn relevant structures from data alone without any pre-processing. More precisely, we show that (almost) all directions are learned with at most $O(d \log d)$ steps. Among the exceptions is a set of hard functions that includes sparse parities. In the presence of coupling between directions, however, these can be learned sequentially through a hierarchical mechanism that generalizes the notion of staircase functions. Our results are proven by a rigorous study of the evolution of the relevant statistics for high-dimensional dynamics.
翻訳日:2024-05-27 14:42:18 公開日:2024-05-24
# PoinTramba: ポイントクラウド分析のためのハイブリッドトランスフォーマー-マンバフレームワーク

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis ( http://arxiv.org/abs/2405.15463v1 )

ライセンス: Link先を確認
Zicheng Wang, Zhenghao Chen, Yiming Wu, Zhen Zhao, Luping Zhou, Dong Xu, (参考訳) ポイントクラウド分析では、ディープラーニングによる大幅な進歩が見られるが、従来のTransformerベースの手法では、このタスクに対する長距離依存のモデリングが優れているが、その計算要求は相当に大きい。 逆に、Mambaはより効率が良いが、Transformerベースの方法に比べてポテンシャルは限られている。 本研究では,PinTrambaについて紹介する。PoinTrambaはTransformerの分析能力とMambaの卓越した計算効率を相乗化して,点群解析を高速化するハイブリッドフレームワークである。 具体的には、まずクラウドをグループに分割し、そこでTransformerは複雑なグループ間の依存関係を正確にキャプチャし、グループ間関係を効率の良いMambaアーキテクチャによって同時に捕捉し、包括的な解析を保証する。 従来のMambaアプローチとは異なり、ランダムな順序付け効果の課題に取り組むために、双方向の重要度対応順序付け(BIO)戦略を導入する。 この革新的な戦略は、計算された重要度スコアに基づいてグループ埋め込みをインテリジェントに並べ替え、マンバのパフォーマンスを著しく向上させ、全体的な分析過程を最適化する。 この手法をシームレスに統合することにより,計算効率と解析性能のバランスを向上し,ポイントクラウド解析における飛躍的な進歩を図っている。 ScanObjectNN、ModelNet40、ShapeNetPartなどのデータセットに対する大規模な実験は、我々のアプローチの有効性を実証し、ポイントクラウド認識に関する新しい最先端分析ベンチマークを確立した。 このパラダイムは、TransformerアーキテクチャとMambaアーキテクチャの両方の長所を初めて活用し、この分野における新しい標準の推進に役立てている。 コードはhttps://github.com/xiaoyao3302/PoinTrambaで入手できる。

Point cloud analysis has seen substantial advancements due to deep learning, although previous Transformer-based methods excel at modeling long-range dependencies on this task, their computational demands are substantial. Conversely, the Mamba offers greater efficiency but shows limited potential compared with Transformer-based methods. In this study, we introduce PoinTramba, a pioneering hybrid framework that synergies the analytical power of Transformer with the remarkable computational efficiency of Mamba for enhanced point cloud analysis. Specifically, our approach first segments point clouds into groups, where the Transformer meticulously captures intricate intra-group dependencies and produces group embeddings, whose inter-group relationships will be simultaneously and adeptly captured by efficient Mamba architecture, ensuring comprehensive analysis. Unlike previous Mamba approaches, we introduce a bi-directional importance-aware ordering (BIO) strategy to tackle the challenges of random ordering effects. This innovative strategy intelligently reorders group embeddings based on their calculated importance scores, significantly enhancing Mamba's performance and optimizing the overall analytical process. Our framework achieves a superior balance between computational efficiency and analytical performance by seamlessly integrating these advanced techniques, marking a substantial leap forward in point cloud analysis. Extensive experiments on datasets such as ScanObjectNN, ModelNet40, and ShapeNetPart demonstrate the effectiveness of our approach, establishing a new state-of-the-art analysis benchmark on point cloud recognition. For the first time, this paradigm leverages the combined strengths of both Transformer and Mamba architectures, facilitating a new standard in the field. The code is available at https://github.com/xiaoyao3302/PoinTramba.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# UAVに基づく物体検出のための逆学習によるスケール不変な特徴分散

Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection ( http://arxiv.org/abs/2405.15465v1 )

ライセンス: Link先を確認
Fan Liu, Liang Yao, Chuanyi Zhang, Ting Wu, Xinlei Zhang, Jun Zhou, Xiruo Jiang, (参考訳) 無人航空機(UAV)からの物体の検出は、しばしば多数の小さな物体によって妨げられ、検出精度が低下する。 この問題に対処するため、主流のアプローチは典型的には多段階推論を利用する。 目覚ましい精度にもかかわらず、リアルタイムの効率は犠牲にされ、実際のアプリケーションを扱うのは実用的ではない。 そこで本研究では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。 具体的には、スケール不変機能分離モジュールは、スケール関連およびスケール不変機能を切り離すように設計されている。 そして、絡み合いを高めるために、敵対的特徴学習方式を用いる。 最後に、スケール不変の機能は、堅牢なUAVベースのオブジェクト検出に活用される。 さらに,アノテーション付きUAV状態パラメータを組み込んだマルチモーダルUAVオブジェクト検出データセットであるState-Airを構築した。 当社のアプローチは、State-Airを含む3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用します。 大規模な実験により,本手法がモデル精度を効果的に向上できることが実証された。 コードとデータセットは補助材料で提供されており、論文が受け入れられたら公開されます。

Detecting objects from Unmanned Aerial Vehicles (UAV) is often hindered by a large number of small objects, resulting in low detection accuracy. To address this issue, mainstream approaches typically utilize multi-stage inferences. Despite their remarkable detecting accuracies, real-time efficiency is sacrificed, making them less practical to handle real applications. To this end, we propose to improve the single-stage inference accuracy through learning scale-invariant features. Specifically, a Scale-Invariant Feature Disentangling module is designed to disentangle scale-related and scale-invariant features. Then an Adversarial Feature Learning scheme is employed to enhance disentanglement. Finally, scale-invariant features are leveraged for robust UAV-based object detection. Furthermore, we construct a multi-modal UAV object detection dataset, State-Air, which incorporates annotated UAV state parameters. We apply our approach to three state-of-the-art lightweight detection frameworks on three benchmark datasets, including State-Air. Extensive experiments demonstrate that our approach can effectively improve model accuracy. Our code and dataset are provided in Supplementary Materials and will be publicly available once the paper is accepted.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 意味的アウェア拡散逆トーンマッピング

Semantic Aware Diffusion Inverse Tone Mapping ( http://arxiv.org/abs/2405.15468v1 )

ライセンス: Link先を確認
Abhishek Goswami, Aru Ranjan Singh, Francesco Banterle, Kurt Debattista, Thomas Bashford-Rogers, (参考訳) 現実世界のシーン輝度の範囲は、多くのデジタルカメラセンサーのキャプチャー能力よりも大きく、キャプチャー画像で詳細が失われる。 逆トーンマッピングは、キャプチャされた標準ダイナミックレンジ(SDR)画像を高ダイナミックレンジ(HDR)に戻すために、SDR画像からよく露出した値を線形化し、クリッピングされたコンテンツを輝度アップするマッピングを作成する。 しかし、ほとんどの場合、切断された領域の細部を復元したり、見積りしたりすることはできない。 本稿では,SDR画像をHDRにマッピングする新しい逆トーンマッピング手法を提案する。 提案手法は2つの主要なコントリビューションを提案する。まず,飽和画像中のマスキング領域におけるSDR拡散のインペインティングに基づく意味グラフを用いて,SDR拡散のガイドを行う。 第2に,従来のHDR画像とブラケット法からインスピレーションを得たSDR塗布領域を,生成的塗布法と互換性のあるHDRに引き上げるための原理的定式化を提案する。 結果から,提案手法は客観的な指標の異なるデータセットに対して優れた性能を示し,主観的な実験により,提案手法が客観的な指標の観点で(ほとんどの場合,)最先端の逆トーンマッピング演算子と一致し,視覚的忠実度において優れることを示した。

The range of real-world scene luminance is larger than the capture capability of many digital camera sensors which leads to details being lost in captured images, most typically in bright regions. Inverse tone mapping attempts to boost these captured Standard Dynamic Range (SDR) images back to High Dynamic Range (HDR) by creating a mapping that linearizes the well exposed values from the SDR image, and provides a luminance boost to the clipped content. However, in most cases, the details in the clipped regions cannot be recovered or estimated. In this paper, we present a novel inverse tone mapping approach for mapping SDR images to HDR that generates lost details in clipped regions through a semantic-aware diffusion based inpainting approach. Our method proposes two major contributions - first, we propose to use a semantic graph to guide SDR diffusion based inpainting in masked regions in a saturated image. Second, drawing inspiration from traditional HDR imaging and bracketing methods, we propose a principled formulation to lift the SDR inpainted regions to HDR that is compatible with generative inpainting methods. Results show that our method demonstrates superior performance across different datasets on objective metrics, and subjective experiments show that the proposed method matches (and in most cases outperforms) state-of-art inverse tone mapping operators in terms of objective metrics and outperforms them for visual fidelity.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 言語変換器における高次元抽象位相の発生

Emergence of a High-Dimensional Abstraction Phase in Language Transformers ( http://arxiv.org/abs/2405.15471v1 )

ライセンス: Link先を確認
Emily Cheng, Diego Doimo, Corentin Kervadec, Iuri Macocco, Jade Yu, Alessandro Laio, Marco Baroni, (参考訳) 言語モデル (LM) は、言語コンテキストから出力トークンへのマッピングである。 しかし、この写像について多くのことは分かっておらず、その幾何学的性質がその函数にどのように関係しているかを含んでいる。 我々は,5つの事前学習されたトランスフォーマーベースLMと3つの入力データセットを対象とし,その解析と観察に高レベルの幾何学的アプローチを採っている。 このフェーズでは、(1) 表現は入力の最初の完全な言語的抽象化に対応し、(2) 下流のタスクに生き生きと移行し、(3) 異なるLM間で互いに予測する。 さらに,初期の段階では,より優れた言語モデリング性能が期待できることがわかった。 この結果から,多くの共通LMアーキテクチャにおいて,中心的な高次元位相が中核言語処理の基盤となることが示唆された。

A language model (LM) is a mapping from a linguistic context to an output token. However, much remains to be known about this mapping, including how its geometric properties relate to its function. We take a high-level geometric approach to its analysis, observing, across five pre-trained transformer-based LMs and three input datasets, a distinct phase characterized by high intrinsic dimensionality. During this phase, representations (1) correspond to the first full linguistic abstraction of the input; (2) are the first to viably transfer to downstream tasks; (3) predict each other across different LMs. Moreover, we find that an earlier onset of the phase strongly predicts better language modelling performance. In short, our results suggest that a central high-dimensionality phase underlies core linguistic processing in many common LM architectures.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 汎用グラフとノード分類のためのエンコーダ埋め込み

Encoder Embedding for General Graph and Node Classification ( http://arxiv.org/abs/2405.15473v1 )

ライセンス: Link先を確認
Cencheng Shen, (参考訳) グラフデータに対する最近のテクニックであるグラフエンコーダの埋め込みは、バイナリグラフから頂点レベルの表現を生成する際の速度とスケーラビリティを提供する。 本稿では,重み付きグラフ,距離行列,カーネル行列を含む一般グラフモデルに適用可能性を拡張する。 エンコーダの埋め込みは、大数の法則と中心極限定理を観測単位として満足していることを証明する。 ある条件下では、クラスごとの漸近正規性を実現し、識別分析による最適な分類を可能にする。 これらの理論的な知見は、重み付きグラフを含む一連の実験と、適切な距離測定値を用いた一般的なグラフ表現に変換されたテキストおよび画像データによって検証される。

Graph encoder embedding, a recent technique for graph data, offers speed and scalability in producing vertex-level representations from binary graphs. In this paper, we extend the applicability of this method to a general graph model, which includes weighted graphs, distance matrices, and kernel matrices. We prove that the encoder embedding satisfies the law of large numbers and the central limit theorem on a per-observation basis. Under certain condition, it achieves asymptotic normality on a per-class basis, enabling optimal classification through discriminant analysis. These theoretical findings are validated through a series of experiments involving weighted graphs, as well as text and image data transformed into general graph representations using appropriate distance metrics.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 学習中の学習: 効果的なフェデレートされた機械学習手法

Unlearning during Learning: An Efficient Federated Machine Unlearning Method ( http://arxiv.org/abs/2405.15474v1 )

ライセンス: Link先を確認
Hanlin Gu, Gongxi Zhu, Jie Zhang, Xinyuan Zhao, Yuxing Han, Lixin Fan, Qiang Yang, (参考訳) 近年、フェデレートラーニング(FL)は分散機械学習パラダイムとして注目されている。 忘れられる権利の実装を容易にするために、フェデレーション・マシン・アンラーニング(FMU)の概念も現れた。 しかし、現在のFMUアプローチは、しばしば追加の時間を要するステップを伴い、包括的なアンラーニング機能を提供しない可能性があるため、実際のFLシナリオでは実用的でない。 本稿では,これらの制約を克服することを目的とした,革新的で効率的なFMUフレームワークであるFedAUを紹介する。 具体的には、FedAUは、学習プロセスに軽量な補助的な未学習モジュールを組み込み、非学習を容易にするために直線的な操作を採用する。 このアプローチは、追加の時間を要するステップを排除し、FLに適しています。 さらに、フェダウは優れた万能性を示す。 複数のクライアントが同時にアンラーニングタスクを実行できるだけでなく、個々のデータサンプルや特定のクラス、さらにはクライアントレベルでも、さまざまなレベルでアンラーニングをサポートする。 We performed extensive experiment on MNIST, CIFAR10, CIFAR100 datasets to evaluate the performance of FedAU。 その結果,FedAUはモデル精度を維持しつつ,求める未学習効果を効果的に達成できることが示唆された。

In recent years, Federated Learning (FL) has garnered significant attention as a distributed machine learning paradigm. To facilitate the implementation of the right to be forgotten, the concept of federated machine unlearning (FMU) has also emerged. However, current FMU approaches often involve additional time-consuming steps and may not offer comprehensive unlearning capabilities, which renders them less practical in real FL scenarios. In this paper, we introduce FedAU, an innovative and efficient FMU framework aimed at overcoming these limitations. Specifically, FedAU incorporates a lightweight auxiliary unlearning module into the learning process and employs a straightforward linear operation to facilitate unlearning. This approach eliminates the requirement for extra time-consuming steps, rendering it well-suited for FL. Furthermore, FedAU exhibits remarkable versatility. It not only enables multiple clients to carry out unlearning tasks concurrently but also supports unlearning at various levels of granularity, including individual data samples, specific classes, and even at the client level. We conducted extensive experiments on MNIST, CIFAR10, and CIFAR100 datasets to evaluate the performance of FedAU. The results demonstrate that FedAU effectively achieves the desired unlearning effect while maintaining model accuracy.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 画像復元の効率化

Efficient Degradation-aware Any Image Restoration ( http://arxiv.org/abs/2405.15475v1 )

ライセンス: Link先を確認
Eduard Zamfir, Zongwei Wu, Nancy Mehta, Danda Dani Paudel, Yulun Zhang, Radu Timofte, (参考訳) 劣化した低品質インプットから欠落した詳細を再構築することは、大きな課題となる。 画像復元の最近の進歩は、様々な劣化に同時に対処できる大規模モデルの学習の有効性を実証している。 それにもかかわらず、これらの手法は計算オーバーヘッドと複雑な学習パラダイムを導入し、実用性を制限している。 そこで本研究では,低階の学習者(DaLe)を用いた効率的なオールインワン画像復元システムである「textit{DaAIR}」を提案し,多種多様な劣化にまたがる相や微妙なニュアンスを共同でマイニングし,劣化認識の埋め込みを生成する。 モデルキャパシティを入力劣化に動的に割り当てることにより、総合的および特定の学習を統一モデルに統合した効率的な復元器を実現する。 さらに、DaAIRは、計算効率を維持しながら劣化認識を高めるコスト効率の高いパラメータ更新機構を導入している。 5つの画像劣化を総合的に比較すると、DaAIRは最先端のオールインワンモデルと分解特異的モデルの両方に優れており、有効性と実用性が確認されている。 ソースは \url{https://eduardzamfir.github.io/daair/} で公開されます。

Reconstructing missing details from degraded low-quality inputs poses a significant challenge. Recent progress in image restoration has demonstrated the efficacy of learning large models capable of addressing various degradations simultaneously. Nonetheless, these approaches introduce considerable computational overhead and complex learning paradigms, limiting their practical utility. In response, we propose \textit{DaAIR}, an efficient All-in-One image restorer employing a Degradation-aware Learner (DaLe) in the low-rank regime to collaboratively mine shared aspects and subtle nuances across diverse degradations, generating a degradation-aware embedding. By dynamically allocating model capacity to input degradations, we realize an efficient restorer integrating holistic and specific learning within a unified model. Furthermore, DaAIR introduces a cost-efficient parameter update mechanism that enhances degradation awareness while maintaining computational efficiency. Extensive comparisons across five image degradations demonstrate that our DaAIR outperforms both state-of-the-art All-in-One models and degradation-specific counterparts, affirming our efficacy and practicality. The source will be publicly made available at \url{https://eduardzamfir.github.io/daair/}
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 編集可能な概念ボトルネックモデル

Editable Concept Bottleneck Models ( http://arxiv.org/abs/2405.15476v1 )

ライセンス: Link先を確認
Lijie Hu, Chenyang Ren, Zhengyu Hu, Cheng-Long Wang, Di Wang, (参考訳) 概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解できない概念層を通じて予測プロセスを解明する能力に対して、多くの注目を集めている。 しかし、これまでのほとんどの研究は、概念を含むデータがクリーンであるケースに焦点を当てていた。 多くのシナリオでは、プライバシの懸念、データの誤り、急激な概念、概念アノテーションのエラーなど、さまざまな理由で、トレーニングデータや新しい概念をトレーニングされたCBMから削除/挿入する必要があります。 したがって、特に大規模アプリケーションにおいて、スクラッチから再トレーニングすることなく、効率的な編集可能なCBMを導出する難しさが持続する。 これらの課題に対処するため、我々は Editable Concept Bottleneck Models (ECBMs) を提案する。 具体的には、ECBMは、概念ラベルレベル、概念レベル、データレベルという3つの異なるレベルのデータ削除をサポートしている。 ECBMは、再訓練の必要性を排除した影響関数から導かれる数学的に厳密な閉形式近似を享受する。 実験の結果,ECBMの効率と有効性を示し,CBMの領域内での適合性を確認した。

Concept Bottleneck Models (CBMs) have garnered much attention for their ability to elucidate the prediction process through a human-understandable concept layer. However, most previous studies focused on cases where the data, including concepts, are clean. In many scenarios, we always need to remove/insert some training data or new concepts from trained CBMs due to different reasons, such as privacy concerns, data mislabelling, spurious concepts, and concept annotation errors. Thus, the challenge of deriving efficient editable CBMs without retraining from scratch persists, particularly in large-scale applications. To address these challenges, we propose Editable Concept Bottleneck Models (ECBMs). Specifically, ECBMs support three different levels of data removal: concept-label-level, concept-level, and data-level. ECBMs enjoy mathematically rigorous closed-form approximations derived from influence functions that obviate the need for re-training. Experimental results demonstrate the efficiency and effectiveness of our ECBMs, affirming their adaptability within the realm of CBMs.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# MagicBathyNet: 浅海域におけるバシメトリー予測と画素による分類のためのマルチモーダルリモートセンシングデータセット

MagicBathyNet: A Multimodal Remote Sensing Dataset for Bathymetry Prediction and Pixel-based Classification in Shallow Waters ( http://arxiv.org/abs/2405.15477v1 )

ライセンス: Link先を確認
Panagiotis Agrafiotis, Łukasz Janowski, Dimitrios Skarlatos, Begüm Demir, (参考訳) 複雑なセマンティックな内容と相まって、正確な、詳細な、そして頻繁な水温測定は、激しい気候と人為的な圧力に直面している海底の浅瀬にとって不可欠である。 リモートセンシング画像を利用して水温測定や海底クラスを導出する現在の手法は、主に非オープンデータを利用する。 このオープンアクセス型ベンチマークアーカイブの欠如は、そのようなアプリケーションでディープラーニングメソッドを広く使用するのを妨げている。 本稿では,Sentinel2,SPOT-6のイメージパッチと空中画像,ラスタ形式の浴槽計測,海底クラスのアノテーションからなるベンチマークデータセットであるMagicBathyNetを提案する。 MagicBathyNetは、学習ベースの浴び測定とピクセルベースの分類において最先端の手法をベンチマークするために利用される。 データセット、事前訓練されたウェイト、コードはwww.magicbathy.eu/magicbathynet.htmlで公開されている。

Accurate, detailed, and high-frequent bathymetry, coupled with complex semantic content, is crucial for the undermapped shallow seabed areas facing intense climatological and anthropogenic pressures. Current methods exploiting remote sensing images to derive bathymetry or seabed classes mainly exploit non-open data. This lack of openly accessible benchmark archives prevents the wider use of deep learning methods in such applications. To address this issue, in this paper we present the MagicBathyNet, which is a benchmark dataset made up of image patches of Sentinel2, SPOT-6 and aerial imagery, bathymetry in raster format and annotations of seabed classes. MagicBathyNet is then exploited to benchmark state-of-the-art methods in learning-based bathymetry and pixel-based classification. Dataset, pre-trained weights, and code are publicly available at www.magicbathy.eu/magicbathynet.html.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 高次元マルチインデックスモデルにおける弱学習可能性の基本的限界

Fundamental limits of weak learnability in high-dimensional multi-index models ( http://arxiv.org/abs/2405.15480v1 )

ライセンス: Link先を確認
Emanuele Troiani, Yatin Dandi, Leonardo Defilippis, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala, (参考訳) マルチインデックスモデル -- サブスペース上のプロジェクションの非線形変換による共変量のみに依存する関数 -- は、ニューラルネットワークによる特徴学習を研究する上で有用なベンチマークである。 本稿では,1次反復アルゴリズムを用いて低次元構造を弱復元するのに必要となる最小限のサンプル複雑性に着目し,この仮説クラスにおける学習可能性の理論的境界について検討する。 私たちの発見は3つの部分に分かれています。 (i)まず、任意の$\alpha\!に対して一階アルゴリズムの単一ステップで \textit{trivial subspace} を学習できる条件を識別する。 >\! 0$。 第二に、自明な部分空間が空である場合には、あるサンプル複雑性$\alpha\! >\! alpha_c$。 臨界しきい値$\alpha_{c}$は、効率的な反復アルゴリズムが$\alpha\! <\! alpha_c$。 限定的だが興味深い厳密な方向のセット -- パリティ問題と同様 -- において、$\alpha_c$ は発散する。 最後に 3) 異なる方向の相互作用が複雑な階層的学習現象をもたらすことを実証し, より容易な方向と組み合わせることで, いくつかの方向を逐次学習できることを示した。 我々の分析的アプローチは、一階反復法における近似メッセージパッシングアルゴリズムの最適性に基づいており、勾配降下法で訓練されたニューラルネットワークを含む幅広いアルゴリズムの基本的な学習可能性限界を記述している。

Multi-index models -- functions which only depend on the covariates through a non-linear transformation of their projection on a subspace -- are a useful benchmark for investigating feature learning with neural networks. This paper examines the theoretical boundaries of learnability in this hypothesis class, focusing particularly on the minimum sample complexity required for weakly recovering their low-dimensional structure with first-order iterative algorithms, in the high-dimensional regime where the number of samples is $n=\alpha d$ is proportional to the covariate dimension $d$. Our findings unfold in three parts: (i) first, we identify under which conditions a \textit{trivial subspace} can be learned with a single step of a first-order algorithm for any $\alpha\!>\!0$; (ii) second, in the case where the trivial subspace is empty, we provide necessary and sufficient conditions for the existence of an {\it easy subspace} consisting of directions that can be learned only above a certain sample complexity $\alpha\!>\!\alpha_c$. The critical threshold $\alpha_{c}$ marks the presence of a computational phase transition, in the sense that no efficient iterative algorithm can succeed for $\alpha\!<\!\alpha_c$. In a limited but interesting set of really hard directions -- akin to the parity problem -- $\alpha_c$ is found to diverge. Finally, (iii) we demonstrate that interactions between different directions can result in an intricate hierarchical learning phenomenon, where some directions can be learned sequentially when coupled to easier ones. Our analytical approach is built on the optimality of approximate message-passing algorithms among first-order iterative methods, delineating the fundamental learnability limit across a broad spectrum of algorithms, including neural networks trained with gradient descent.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# ユークリッドおよび双曲型ニューラルネットワークのスパーススペクトルトレーニングと推定

Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks ( http://arxiv.org/abs/2405.15481v1 )

ライセンス: Link先を確認
Jialin Zhao, Yingtao Zhang, Xinghang Li, Huaping Liu, Carlo Vittorio Cannistraci, (参考訳) ニューラルネットワークのパラメータの数の増加による計算要求の増加は、低メモリ消費トレーニングアプローチを必要とする。 LoRA(Lo-Rank Adaptation)やReLoRA(ReLoRA)といった従来のメモリ削減技術は、特に事前トレーニングのような集中的なタスクにおいて、低いランクとサドルポイントの問題の制限に悩まされている。 本稿では,全ての特異値を更新し,ネットワーク重みの特異ベクトルを選択的に更新する高度学習手法であるスパーススペクトルトレーニング(SST)を提案する。 SSTは、特異値の重み付けによる多項サンプリング法によって決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練し、高い性能とメモリ削減の両立を保証する。 自然言語生成、機械翻訳、ノード分類、リンク予測など、さまざまなタスクにわたるユークリッドニューラルネットワークと双曲ニューラルネットワークの包括的なテストを通じて、SSTは、既存のメモリ削減トレーニング手法を上回る能力を示し、場合によってはフルランクトレーニングと同等である。 OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。 このアプローチは従来のトレーニング手法の強力な代替手段を提供し、より効率的でスケーラブルなニューラルネットワークトレーニングソリューションへの道を開く。

The growing computational demands posed by increasingly number of neural network's parameters necessitate low-memory-consumption training approaches. Previous memory reduction techniques, such as Low-Rank Adaptation (LoRA) and ReLoRA, suffer from the limitation of low rank and saddle point issues, particularly during intensive tasks like pre-training. In this paper, we propose Sparse Spectral Training (SST), an advanced training methodology that updates all singular values and selectively updates singular vectors of network weights, thereby optimizing resource usage while closely approximating full-rank training. SST refines the training process by employing a targeted updating strategy for singular vectors, which is determined by a multinomial sampling method weighted by the significance of the singular values, ensuring both high performance and memory reduction. Through comprehensive testing on both Euclidean and hyperbolic neural networks across various tasks, including natural language generation, machine translation, node classification and link prediction, SST demonstrates its capability to outperform existing memory reduction training methods and is comparable with full-rank training in some cases. On OPT-125M, with rank equating to 8.3% of embedding dimension, SST reduces the perplexity gap to full-rank training by 67.6%, demonstrating a significant reduction of the performance loss with prevalent low-rank methods. This approach offers a strong alternative to traditional training techniques, paving the way for more efficient and scalable neural network training solutions.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# パターンマッチングを超えた学習 : LLMにおける数学的理解の検証

Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs ( http://arxiv.org/abs/2405.15485v1 )

ライセンス: Link先を確認
Siyuan Guo, Aniket Didolkar, Nan Rosemary Ke, Anirudh Goyal, Ferenc Huszár, Bernhard Schölkopf, (参考訳) 言語モデルによる科学的発見の進展を目の当たりにしています。 本稿では, LLMを一般科学アシスタントとして活用することで, 問題解決に必要な数学的スキルの理解を通じて, LLMのドメイン知識を評価する。 特に、事前学習されたモデルが既に知っていることだけでなく、数学の複雑な知識構造を利用して、文脈内学習や教示学習で情報から学習する方法を考察する。 ニューラル・タンジェント・カーネル (NTK) をモチベーションとして, 異なる種類の数学データを用いて学習することにより, LLMの確率分布の変化を評価するために, textit{NTKEval} を提案する。 系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。 対照的に、特定の命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルにわたるドメイン理解の欠如を示唆している。

We are beginning to see progress in language model assisted scientific discovery. Motivated by the use of LLMs as a general scientific assistant, this paper assesses the domain knowledge of LLMs through its understanding of different mathematical skills required to solve problems. In particular, we look at not just what the pre-trained model already knows, but how it learned to learn from information during in-context learning or instruction-tuning through exploiting the complex knowledge structure within mathematics. Motivated by the Neural Tangent Kernel (NTK), we propose \textit{NTKEval} to assess changes in LLM's probability distribution via training on different kinds of math data. Our systematic analysis finds evidence of domain understanding during in-context learning. By contrast, certain instruction-tuning leads to similar performance changes irrespective of training on different data, suggesting a lack of domain understanding across different skills.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# Genie 2 を用いた構造宇宙のスケールでタンパク質を設計・共有する

Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2 ( http://arxiv.org/abs/2405.15489v1 )

ライセンス: Link先を確認
Yeqing Lin, Minji Lee, Zhao Zhang, Mohammed AlQuraishi, (参考訳) タンパク質拡散モデルがタンパク質設計の有望なアプローチとして登場した。 そのような先駆的モデルの一つが、前者および表現的SE(3)-同変の注意に対して単純なガウス記法を用いて、前者および後者過程においてタンパク質構造を非対称に表現するGenieである。 本研究では、アーキテクチャの革新と膨大なデータ拡張を通じて、Genieを拡張して、より大きく、より多様なタンパク質構造空間をキャプチャする。 Genie 2は、モチーフ間の位置と向きが特定されていないモチーフを共起するモチーフを設計する、新しいマルチモチーフフレームワークを通じてモチーフスキャフォールディング機能を追加する。 これにより複雑なタンパク質の設計が可能となり、複数の相互作用パートナーが関与し、複数の機能を実行する。 非条件生成と条件生成の両方において、Genie 2は最先端のパフォーマンスを達成し、設計可能性、多様性、新規性を含む主要な設計指標において、すべての既知のメソッドを上回ります。 Genie 2は、他のメソッドよりもモチーフの足場問題を解決し、よりユニークで多様なソリューションで解決する。 これらの進歩により、構造に基づくタンパク質設計の新しい標準が確立された。 Genie 2の推論およびトレーニングコードとモデルウェイトは、https://github.com/aqlaboratory/genie2.comで無償公開されている。

Protein diffusion models have emerged as a promising approach for protein design. One such pioneering model is Genie, a method that asymmetrically represents protein structures during the forward and backward processes, using simple Gaussian noising for the former and expressive SE(3)-equivariant attention for the latter. In this work we introduce Genie 2, extending Genie to capture a larger and more diverse protein structure space through architectural innovations and massive data augmentation. Genie 2 adds motif scaffolding capabilities via a novel multi-motif framework that designs co-occurring motifs with unspecified inter-motif positions and orientations. This makes possible complex protein designs that engage multiple interaction partners and perform multiple functions. On both unconditional and conditional generation, Genie 2 achieves state-of-the-art performance, outperforming all known methods on key design metrics including designability, diversity, and novelty. Genie 2 also solves more motif scaffolding problems than other methods and does so with more unique and varied solutions. Taken together, these advances set a new standard for structure-based protein design. Genie 2 inference and training code, as well as model weights, are freely available at: https://github.com/aqlaboratory/genie2.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# GSDeformer:3次元ガウススプレイティングのための直接ケージベース変形

GSDeformer: Direct Cage-based Deformation for 3D Gaussian Splatting ( http://arxiv.org/abs/2405.15491v1 )

ライセンス: Link先を確認
Jiajun Huang, Hongchuan Yu, (参考訳) 本稿では,3次元ガウススティング(3DGS)における自由変形を実現する手法であるGSDeformerについて述べる。 本手法は,従来のメッシュ変形法であるケージベースの変形を3DGSに拡張する。 これは、3DGSを新しいプロキシポイントクラウド表現に変換することで実現され、3DGSを構成する3Dガウスに変換を適用するためにその変形を推測することができる。 また,手作業の最小化を目的とした3DGSの自動ケージ構築アルゴリズムを提案する。 提案手法は3DGSの基盤となるアーキテクチャを変更するものではない。 したがって,既存のバニラ3DGSは容易に編集できる。 提案手法の変形性能を他の既存手法と比較し,3DGS上での他の並列開発と統合し易く,より直接的でありながら,使用の容易さと同等の品質を実証した。

We present GSDeformer, a method that achieves free-form deformation on 3D Gaussian Splatting(3DGS) without requiring any architectural changes. Our method extends cage-based deformation, a traditional mesh deformation method, to 3DGS. This is done by converting 3DGS into a novel proxy point cloud representation, where its deformation can be used to infer the transformations to apply on the 3D gaussians making up 3DGS. We also propose an automatic cage construction algorithm for 3DGS to minimize manual work. Our method does not modify the underlying architecture of 3DGS. Therefore, any existing trained vanilla 3DGS can be easily edited by our method. We compare the deformation capability of our method against other existing methods, demonstrating the ease of use and comparable quality of our method, despite being more direct and thus easier to integrate with other concurrent developments on 3DGS.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# シリコン中の核スピンキュディットのシュレーディンガー猫状態の生成と操作

Creation and manipulation of Schrödinger cat states of a nuclear spin qudit in silicon ( http://arxiv.org/abs/2405.15494v1 )

ライセンス: Link先を確認
Xi Yu, Benjamin Wilhelm, Danielle Holmes, Arjen Vaartjes, Daniel Schwienbacher, Martin Nurizzo, Anders Kringhøj, Mark R. van Blankenstein, Alexander M. Jakob, Pragati Gupta, Fay E. Hudson, Kohei M. Itoh, Riley J. Murray, Robin Blume-Kohout, Thaddeus D. Ladd, Andrew S. Dzurak, Barry C. Sanders, David N. Jamieson, Andrea Morello, (参考訳) 高次元量子システムは、量子情報処理の貴重な資源である。 例えばマイクロ波キャビティや閉じ込められたイオンの運動モードのような振動子の連続可変状態において、誤り訂正可能な論理量子ビットを符号化することができる。 強力なエンコーディングには 'Schr\"odinger cat' 状態、広範に置換されたコヒーレントな状態の重ね合わせがあり、大規模な量子効果の挑戦を具現化している。 あるいは、最近の提案では、有限次元システム上で連続可変符号のハードウェア効率の良いバージョンをホストできる高スピン原子核における論理量子ビットの符号化を提案する。 ここでは、単一アンチモン(^{123}$Sb)原子のスピン7/2原子を用いて、シリコンナノエレクトロニクスデバイスに埋め込まれ、操作されるシュリンガー猫状態の生成と操作を実証する。 我々は、コヒーレントな多周波制御スキームを用いて、キューディットのSU(2)対称性を保ったスピン回転を生成し、シュリンガー猫状態に符号化された論理量子ビットに対する論理的パウリ演算を構成する。 猫状態のウィグナー関数は、0.982(5)までのコントラストと0.913(2)までの状態忠実度でパリティ振動を示す。 これらの結果は、量子情報処理と量子誤り訂正の応用をスケーラブルで製造可能な半導体プラットフォームに開放し、非古典的資源状態の高忠実化と1つの原子スケールオブジェクトにおける論理制御を実証する。

High-dimensional quantum systems are a valuable resource for quantum information processing. They can be used to encode error-correctable logical qubits, for instance in continuous-variable states of oscillators such as microwave cavities or the motional modes of trapped ions. Powerful encodings include 'Schr\"odinger cat' states, superpositions of widely displaced coherent states, which also embody the challenge of quantum effects at the large scale. Alternatively, recent proposals suggest encoding logical qubits in high-spin atomic nuclei, which can host hardware-efficient versions of continuous-variable codes on a finite-dimensional system. Here we demonstrate the creation and manipulation of Schr\"odinger cat states using the spin-7/2 nucleus of a single antimony ($^{123}$Sb) atom, embedded and operated within a silicon nanoelectronic device. We use a coherent multi-frequency control scheme to produce spin rotations that preserve the SU(2) symmetry of the qudit, and constitute logical Pauli operations for logical qubits encoded in the Schr\"odinger cat states. The Wigner function of the cat states exhibits parity oscillations with a contrast up to 0.982(5), and state fidelities up to 0.913(2). These results demonstrate high-fidelity preparation of nonclassical resource states and logical control in a single atomic-scale object, opening up applications in quantum information processing and quantum error correction within a scalable, manufacturable semiconductor platform.
翻訳日:2024-05-27 14:32:33 公開日:2024-05-24
# 自然機械の学習に向けて

Towards Natural Machine Unlearning ( http://arxiv.org/abs/2405.15495v1 )

ライセンス: Link先を確認
Zhengbao He, Tao Li, Xinwen Cheng, Zhehao Huang, Xiaolin Huang, (参考訳) マシン・アンラーニング(MU)は、特定のトレーニングデータ、すなわちデータを忘れることから学んだ情報を、事前訓練されたモデルから排除することを目的としている。 現在、既存のMUメソッドの主流は、誤ったラベルで忘れたデータを修正し、その後、モデルを微調整することである。 このような誤った情報を学習することは、知識を確実に取り除くことができるが、このプロセスは、学習されていないプロセスが望ましくない情報を補強し、過剰な隠蔽につながるため、非常に不自然なものである。 ラベルを変更する際に、残りのデータから正確な情報を忘れるサンプルに注入する。 これらの調整されたサンプルをラベルと組み合わせることで、モデルではインジェクションされた正しい情報を使用し、忘れるべき情報を自然に抑制する傾向にある。 素直に言っても、このような自然な機械学習への第一歩は、現在の最先端のアプローチを大きく上回っている。 特に,提案手法は過剰な鍛造を著しく減らし,ハイパーパラメータに強い堅牢性をもたらすため,実用的な機械学習の候補として期待できる。

Machine unlearning (MU) aims to eliminate information that has been learned from specific training data, namely forgetting data, from a pre-trained model. Currently, the mainstream of existing MU methods involves modifying the forgetting data with incorrect labels and subsequently fine-tuning the model. While learning such incorrect information can indeed remove knowledge, the process is quite unnatural as the unlearning process undesirably reinforces the incorrect information and leads to over-forgetting. Towards more \textit{natural} machine unlearning, we inject correct information from the remaining data to the forgetting samples when changing their labels. Through pairing these adjusted samples with their labels, the model will tend to use the injected correct information and naturally suppress the information meant to be forgotten. Albeit straightforward, such a first step towards natural machine unlearning can significantly outperform current state-of-the-art approaches. In particular, our method substantially reduces the over-forgetting and leads to strong robustness to hyperparameters, making it a promising candidate for practical machine unlearning.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# マルチラベルリブ分割のための階層的損失と幾何学的マスク微細化

Hierarchical Loss And Geometric Mask Refinement For Multilabel Ribs Segmentation ( http://arxiv.org/abs/2405.15500v1 )

ライセンス: Link先を確認
Aleksei Leonov, Aleksei Zakharov, Sergey Koshelev, Maxim Pisov, Anvar Kurmukov, Mikhail Belyaev, (参考訳) 自動リブセグメンテーションと数値化は、計算トモグラフィー評価の速度を高め、放射線技師のミスを減らすことができる。 階層的損失関数を持つマルチラベルリブセグメンテーションのモデルを導入し、マルチラベルセグメンテーションの品質を向上させる。 また,ラベル付け品質をさらに向上させるポストプロセッシング手法を提案する。 我々のモデルは、パブリックなRibSeg v2データセットで98.2%のラベルの精度を新たに達成し、以前の結果を6.7%上回った。

Automatic ribs segmentation and numeration can increase computed tomography assessment speed and reduce radiologists mistakes. We introduce a model for multilabel ribs segmentation with hierarchical loss function, which enable to improve multilabel segmentation quality. Also we propose postprocessing technique to further increase labeling quality. Our model achieved new state-of-the-art 98.2% label accuracy on public RibSeg v2 dataset, surpassing previous result by 6.7%.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# Gromov-Wasserstein Information Bottleneck のレンズによる非現実的回帰の再検討

Revisiting Counterfactual Regression through the Lens of Gromov-Wasserstein Information Bottleneck ( http://arxiv.org/abs/2405.15505v1 )

ライセンス: Link先を確認
Hao Yang, Zexu Sun, Hongteng Xu, Xu Chen, (参考訳) 有望な個別化処理効果 (ITE) 推定法として, 対実回帰 (CFR) は個人の共変量を潜在空間にマッピングし, 対実結果を予測する。 しかしながら、制御群と処理群の選択バイアスは、しばしば2つのグループの潜伏分布を不均衡にし、この手法の性能に悪影響を及ぼす。 本研究では,情報ボトルネックのレンズを通して反事実回帰を再考し,Gromov-Wasserstein Information bottleneck (GWIB)と呼ばれる新たな学習パラダイムを提案する。 本パラダイムでは,共変量表現と共変量表現の相互情報の最大化と,共変量表現と共変量表現の相互情報の並列化によりCFRを学習する。 ペナルティ項の上限は、(i) 異なる群の潜在表現間の融合グロモフ=ワッセルシュタイン距離と(ii) モデルによって生成される輸送コストと、従属表現と共変数間のクロスグループグロモフ=ワッセルシュタイン距離とのギャップとからなる新しい正則化器として実装できることを実証する。 GWIBは最適化の交互化を通じてCFRモデルを効果的に学習し、自明な潜伏分布を避けながら選択バイアスを抑制する。 ITE推定タスクの実験では、GWIBは最先端のCFR法よりも一貫して優れていた。 研究コミュニティを促進するため、私たちはhttps://github.com/peteryang1031/Causal-GWIB.comでプロジェクトをリリースします。

As a promising individualized treatment effect (ITE) estimation method, counterfactual regression (CFR) maps individuals' covariates to a latent space and predicts their counterfactual outcomes. However, the selection bias between control and treatment groups often imbalances the two groups' latent distributions and negatively impacts this method's performance. In this study, we revisit counterfactual regression through the lens of information bottleneck and propose a novel learning paradigm called Gromov-Wasserstein information bottleneck (GWIB). In this paradigm, we learn CFR by maximizing the mutual information between covariates' latent representations and outcomes while penalizing the kernelized mutual information between the latent representations and the covariates. We demonstrate that the upper bound of the penalty term can be implemented as a new regularizer consisting of $i)$ the fused Gromov-Wasserstein distance between the latent representations of different groups and $ii)$ the gap between the transport cost generated by the model and the cross-group Gromov-Wasserstein distance between the latent representations and the covariates. GWIB effectively learns the CFR model through alternating optimization, suppressing selection bias while avoiding trivial latent distributions. Experiments on ITE estimation tasks show that GWIB consistently outperforms state-of-the-art CFR methods. To promote the research community, we release our project at https://github.com/peteryang1031/Causal-GWIB.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 拡散モードを識別する学習

Learning to Discretize Denoising Diffusion ODEs ( http://arxiv.org/abs/2405.15506v1 )

ライセンス: Link先を確認
Vinh Tong, Anji Liu, Trung-Dung Hoang, Guy Van den Broeck, Mathias Niepert, (参考訳) 拡散確率モデル(DPM)は、画像合成や3Dポイントクラウド生成など、様々な領域で競合する性能を示す強力な生成モデルである。 しかしながら、事前訓練されたDPMからのサンプリングには、ガウスノイズサンプルを画像に変換する複数の神経機能評価(NFE)が含まれるため、GANやVAEのような単一ステップ生成モデルよりも高い計算コストが生じる。 したがって、生成品質を維持しながらNFEを減少させることが重要な問題である。 そこで本研究では,DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するための軽量フレームワーク LD3 を提案する。 LD3は様々な拡散ODEソルバと組み合わせることができる。 LD3は, 蒸留法よりもサンプリング効率を向上し, 膨大な計算オーバーヘッドを伴わないことを解析的, 実証的に実証した。 提案手法を5つのデータセットに対して広範な実験により評価し,画素空間DPMと潜在空間DPMの両方で条件付きおよび条件付きサンプリングを行う。 例えば、1つのGPUで約5分間のトレーニングでは、CIFAR10(7 NFE)ではFIDスコアが6.63から2.68に減少し、20分後には、クラス条件のImageNet-256(5 NFE)では8.51から5.03に低下する。 LD3は蒸留法を補完し、事前訓練された拡散モデルからのサンプリングをより効率的に行う。

Diffusion Probabilistic Models (DPMs) are powerful generative models showing competitive performance in various domains, including image synthesis and 3D point cloud generation. However, sampling from pre-trained DPMs involves multiple neural function evaluations (NFE) to transform Gaussian noise samples into images, resulting in higher computational costs compared to single-step generative models such as GANs or VAEs. Therefore, a crucial problem is to reduce NFE while preserving generation quality. To this end, we propose LD3, a lightweight framework for learning time discretization while sampling from the diffusion ODE encapsulated by DPMs. LD3 can be combined with various diffusion ODE solvers and consistently improves performance without retraining resource-intensive neural networks. We demonstrate analytically and empirically that LD3 enhances sampling efficiency compared to distillation-based methods, without the extensive computational overhead. We evaluate our method with extensive experiments on 5 datasets, covering unconditional and conditional sampling in both pixel-space and latent-space DPMs. For example, in about 5 minutes of training on a single GPU, our method reduces the FID score from 6.63 to 2.68 on CIFAR10 (7 NFE), and in around 20 minutes, decreases the FID from 8.51 to 5.03 on class-conditional ImageNet-256 (5 NFE). LD3 complements distillation methods, offering a more efficient approach to sampling from pre-trained diffusion models.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 粒子物理実験におけるデータ品質モニタリングのためのループ内強化学習

Human-in-the-loop Reinforcement Learning for Data Quality Monitoring in Particle Physics Experiments ( http://arxiv.org/abs/2405.15508v1 )

ライセンス: Link先を確認
Olivia Jullian Parra, Julián García Pardiñas, Lorenzo Del Pianta Pérez, Maximilian Janisch, Suzanne Klaver, Thomas Lehéricy, Nicola Serra, (参考訳) データ品質モニタリング(DQM)は大規模な粒子物理学実験において重要な課題である。 現在、DQMは人間のシフト器によって実行されており、コストがかかり精度が制限されている。 本研究では、時間とともに変化する動作条件に適応しつつ、DQMプロセスの自動化にRL(Human-in-the-loop Reinforcement Learning)を適用するための概念実証を行う。 本稿では、PPOアルゴリズムに基づくプロトタイプを実装し、簡易な合成データセット上で検証する。 我々は、データ収集中にマルチエージェントシステムが継続的自動監視のためにどのようにトレーニングできるかを実証し、人間による介入を積極的に要求する。 人間の分類におけるランダムな非バイアスノイズが低減され,ベースラインの精度が向上することを示す。 さらに,不足データに対処し,学習プロセスの高速化を図るため,データ拡張手法を提案する。 最後に、アルゴリズムの出力を周期的に制御するためのプロトコルを含む、現実世界でのアプローチの実装に必要なさらなるステップについて論じる。

Data Quality Monitoring (DQM) is a crucial task in large particle physics experiments, since detector malfunctioning can compromise the data. DQM is currently performed by human shifters, which is costly and results in limited accuracy. In this work, we provide a proof-of-concept for applying human-in-the-loop Reinforcement Learning (RL) to automate the DQM process while adapting to operating conditions that change over time. We implement a prototype based on the Proximal Policy Optimization (PPO) algorithm and validate it on a simplified synthetic dataset. We demonstrate how a multi-agent system can be trained for continuous automated monitoring during data collection, with human intervention actively requested only when relevant. We show that random, unbiased noise in human classification can be reduced, leading to an improved accuracy over the baseline. Additionally, we propose data augmentation techniques to deal with scarce data and to accelerate the learning process. Finally, we discuss further steps needed to implement the approach in the real world, including protocols for periodic control of the algorithm's outputs.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 連続空間における逆強化学習のためのランダム化アルゴリズムとPAC境界

Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces ( http://arxiv.org/abs/2405.15509v1 )

ライセンス: Link先を確認
Angeliki Kamoutsi, Peter Schmitt-Förster, Tobias Sutter, Volkan Cevher, John Lygeros, (参考訳) 本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究し、観測された最適挙動からコスト関数を推定する逆問題に対処する。 まず, 職業対策, 線形双対性, 相補的スラックネス条件を用いて, 専門家の政策全体にアクセスでき, 逆問題に対する解の集合を特徴づける。 自明な解や不確かさを避けるため、自然な線形正規化制約を導入する。 この結果、無限次元線型実現可能性問題が発生し、その性質を徹底的に解析する。 次に、線形関数近似器を用いて、シナリオアプローチと関連する確率的実現可能性保証をランダム化して、逆問題に対するエプシロン最適解を導出する。 さらに、所望の近似精度のサンプル複雑性について論じる。 最後に、限られた専門家によるデモンストレーションと生成モデルにしかアクセスできない、より現実的なケースに対処し、サンプルを扱う際のエラーのバウンダリを提供する。

This work studies discrete-time discounted Markov decision processes with continuous state and action spaces and addresses the inverse problem of inferring a cost function from observed optimal behavior. We first consider the case in which we have access to the entire expert policy and characterize the set of solutions to the inverse problem by using occupation measures, linear duality, and complementary slackness conditions. To avoid trivial solutions and ill-posedness, we introduce a natural linear normalization constraint. This results in an infinite-dimensional linear feasibility problem, prompting a thorough analysis of its properties. Next, we use linear function approximators and adopt a randomized approach, namely the scenario approach and related probabilistic feasibility guarantees, to derive epsilon-optimal solutions for the inverse problem. We further discuss the sample complexity for a desired approximation accuracy. Finally, we deal with the more realistic case where we only have access to a finite set of expert demonstrations and a generative model and provide bounds on the error made when working with samples.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# ChatGPTコード検出:コードのソースを明らかにする技術

ChatGPT Code Detection: Techniques for Uncovering the Source of Code ( http://arxiv.org/abs/2405.15512v1 )

ライセンス: Link先を確認
Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen, (参考訳) 近年,大規模言語モデル (LLM) は,人間の生成するコードと人工知能(AI)が生成するコードとの間の線を曖昧にしながら,コンピュータコード生成において大きな進歩を遂げている。 これらの技術が急速に進化するにつれて、特に高等教育などの分野での誤用のリスクを考えると、コード生成にどのように影響するかを検討することが不可欠である。 本稿では,人間によって書かれたコードと,LLMの一種であるChatGPTによって生成されたコードとを区別するために,高度な分類手法を用いてこの問題を考察する。 私たちは、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズム(Deep Neural Networks、Random Forests、Extreme Gradient Boostingなど)を組み合わせた新しいアプローチを採用して、この区別を98%の精度で達成しています。 また, モデルキャリブレーションの結果, モデルキャリブレーションが極めて良好であることが確認された。 さらに、ホワイトボックス機能と解釈可能なベイズ分類器を導入し、コードソース間の重要な違いを解明し、我々のアプローチの説明可能性と透明性を高める。 どちらのアプローチもうまく機能するが、少なくとも85-88%の精度を提供する。 また、トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。 この研究は、コード生成におけるAIの使用に伴う潜在的なリスク、特に高等教育、ソフトウェア開発、競争プログラミングの文脈における理解と軽減に不可欠である。

In recent times, large language models (LLMs) have made significant strides in generating computer code, blurring the lines between code created by humans and code produced by artificial intelligence (AI). As these technologies evolve rapidly, it is crucial to explore how they influence code generation, especially given the risk of misuse in areas like higher education. This paper explores this issue by using advanced classification techniques to differentiate between code written by humans and that generated by ChatGPT, a type of LLM. We employ a new approach that combines powerful embedding features (black-box) with supervised learning algorithms - including Deep Neural Networks, Random Forests, and Extreme Gradient Boosting - to achieve this differentiation with an impressive accuracy of 98%. For the successful combinations, we also examine their model calibration, showing that some of the models are extremely well calibrated. Additionally, we present white-box features and an interpretable Bayes classifier to elucidate critical differences between the code sources, enhancing the explainability and transparency of our approach. Both approaches work well but provide at most 85-88% accuracy. We also show that untrained humans solve the same task not better than random guessing. This study is crucial in understanding and mitigating the potential risks associated with using AI in code generation, particularly in the context of higher education, software development, and competitive programming.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 自由エネルギー近似の凸性と信頼性について

On the Convexity and Reliability of the Bethe Free Energy Approximation ( http://arxiv.org/abs/2405.15514v1 )

ライセンス: Link先を確認
Harald Leisenberger, Christian Knoll, Franz Pernkopf, (参考訳) ベーテ自由エネルギー近似は、確率的推論のNPハード問題を緩和する効果的な方法を提供する。 しかし、その精度はモデルパラメータに依存し、モデル内の相転移が発生した場合、特に劣化する。 本研究では,Bethe近似の信頼性と検証方法について検討する。 実験によって、それがその領域の部分多様体の凸である 'Bethe box' であるなら、それはほとんど正確である、と論じ、示す。 その凸性を検証するために、ベーテ・ヘッセン行列の定性性に基づく2つの十分条件を導出する: 第一は対角行列の優位性の概念を使い、第二はベーテ・ヘッセン行列をスパース行列の和に分解し、その和の個々の行列の定性特性を特徴づける。 これらの理論的結果は、モデルの臨界相転移温度を推定する簡単な方法を提供する。 実用的なコントリビューションとして、Bethe自由エネルギーの最小値を求める準ニュートン法である$\texttt{BETHE-MIN}$を提案する。

The Bethe free energy approximation provides an effective way for relaxing NP-hard problems of probabilistic inference. However, its accuracy depends on the model parameters and particularly degrades if a phase transition in the model occurs. In this work, we analyze when the Bethe approximation is reliable and how this can be verified. We argue and show by experiment that it is mostly accurate if it is convex on a submanifold of its domain, the 'Bethe box'. For verifying its convexity, we derive two sufficient conditions that are based on the definiteness properties of the Bethe Hessian matrix: the first uses the concept of diagonal dominance, and the second decomposes the Bethe Hessian matrix into a sum of sparse matrices and characterizes the definiteness properties of the individual matrices in that sum. These theoretical results provide a simple way to estimate the critical phase transition temperature of a model. As a practical contribution we propose $\texttt{BETHE-MIN}$, a projected quasi-Newton method to efficiently find a minimum of the Bethe free energy.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 再現可能なデプロイメントの救済をアーカイブするソースコード

Source Code Archiving to the Rescue of Reproducible Deployment ( http://arxiv.org/abs/2405.15516v1 )

ライセンス: Link先を確認
Ludovic Courtès, Timothy Sample, Simon Tournier, Stefano Zacchiroli, (参考訳) 研究結果を検証し、方法論を実験する能力は、科学の中核的な要素である。 研究結果がますます計算プロセスの結果になっているため、ソフトウェアは中心的な役割を果たす。 GNU Guixは再現可能なソフトウェアデプロイメントをサポートするソフトウェアデプロイメントツールで、計算研究ワークフローの基礎となっている。 再現性を達成するためには、まずはソフトウェアパッケージのソースコードが利用可能であることを保証しなければなりません。我々は、GuixとユニバーサルソースコードアーカイブであるSoftware Heritageを接続する作業について述べます。 次に,5年以上にわたって収集されたデータによるパッケージソースコードのアーカイブカバレッジについて報告し,残る課題について論じる。

The ability to verify research results and to experiment with methodologies are core tenets of science. As research results are increasingly the outcome of computational processes, software plays a central role. GNU Guix is a software deployment tool that supports reproducible software deployment, making it a foundation for computational research workflows. To achieve reproducibility, we must first ensure the source code of software packages Guix deploys remains available.We describe our work connecting Guix with Software Heritage, the universal source code archive, making Guix the first free software distribution and tool backed by a stable archive. Our contribution is twofold: we explain the rationale and present the design and implementation we came up with; second, we report on the archival coverage for package source code with data collected over five years and discuss remaining challenges.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# MRI再建におけるデータ効率のよい機械学習

Erase to Enhance: Data-Efficient Machine Unlearning in MRI Reconstruction ( http://arxiv.org/abs/2405.15517v1 )

ライセンス: Link先を確認
Yuyang Xue, Jingshuai Liu, Steven McDonagh, Sotirios A. Tsaftaris, (参考訳) 機械学習は、トレーニングされたモデルから不要なデータサンプルを取り除き、プライバシー規制の遵守を確保し、有害なバイアスを制限するための有望なパラダイムである。 アンラーニングは行われていないが、例えば分類・推薦システム、特に画像再構成における医用画像・画像翻訳の可能性は十分に研究されていない。 本稿では,MRIタスクにおいて機械学習が可能であり,バイアス除去に有用であることを示す。 異なる臓器のデータセット間でどの程度の共有知識が存在するかを研究するためのプロトコルをセットアップし、アンラーニングの効果を効果的に定量化できるようにしました。 本研究は, トレーニングデータを組み合わせることで, 幻覚や画像品質の低下につながることを明らかにした。 非学習を用いて幻覚を除去し、望ましくないデータの除去を代行する。 実際、完全に再学習することなく、機械学習が可能であることを示す。 さらに,観測結果から,保持データのサブセットのみを用いても高い性能を維持することが可能であることが示唆された。 コードを公開しました。

Machine unlearning is a promising paradigm for removing unwanted data samples from a trained model, towards ensuring compliance with privacy regulations and limiting harmful biases. Although unlearning has been shown in, e.g., classification and recommendation systems, its potential in medical image-to-image translation, specifically in image recon-struction, has not been thoroughly investigated. This paper shows that machine unlearning is possible in MRI tasks and has the potential to benefit for bias removal. We set up a protocol to study how much shared knowledge exists between datasets of different organs, allowing us to effectively quantify the effect of unlearning. Our study reveals that combining training data can lead to hallucinations and reduced image quality in the reconstructed data. We use unlearning to remove hallucinations as a proxy exemplar of undesired data removal. Indeed, we show that machine unlearning is possible without full retraining. Furthermore, our observations indicate that maintaining high performance is feasible even when using only a subset of retain data. We have made our code publicly accessible.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 低オーバーラップによる新しい視点合成のための特徴分割

Feature Splatting for Better Novel View Synthesis with Low Overlap ( http://arxiv.org/abs/2405.15518v1 )

ライセンス: Link先を確認
T. Berriel Martins, Javier Civera, (参考訳) 3D Gaussian Splattingは、非常に有望なシーン表現として登場し、新しいビュー合成における最先端の品質を競合するものよりもはるかに高速に達成している。 しかし、シーンカラーを表現するために球面調和を用いることで、3Dガウス表現の表現性が制限され、結果として、トレーニング視点から離れていくにつれて、表現が一般化する能力が制限される。 本稿では,3次元ガウス色情報をガウス特徴ベクトルに符号化し,FeatSplat(FeatSplat)と呼ぶ。 新たなビューを合成するために、ガウスはまず画像平面に「刻印」され、それに対応する特徴ベクトルはアルファブレンドされ、最後にブレンドベクターは小さなMLPによってデコードされ、RGBピクセル値が描画される。 モデルをさらに情報化するため、ブレンドされた特徴ベクトルに埋め込まれたカメラを連結し、視点情報にもデコーディングを条件付ける。 実験の結果, 放射率を符号化する新しいモデルは, トレーニングビューから離れた低重畳ビューに対して, 新規なビュー合成を著しく向上させることがわかった。 最後に、特徴ベクトル表現のキャパシティと利便性を示し、新しいビューのRGB値を生成するだけでなく、ピクセルごとのセマンティックラベルを生成する能力を示す。 私たちは受け入れに応じてコードを公開します。 キーワード:ガウス・スプティング、新しいビュー・シンセサイザー、フィーチャー・スプティング

3D Gaussian Splatting has emerged as a very promising scene representation, achieving state-of-the-art quality in novel view synthesis significantly faster than competing alternatives. However, its use of spherical harmonics to represent scene colors limits the expressivity of 3D Gaussians and, as a consequence, the capability of the representation to generalize as we move away from the training views. In this paper, we propose to encode the color information of 3D Gaussians into per-Gaussian feature vectors, which we denote as Feature Splatting (FeatSplat). To synthesize a novel view, Gaussians are first "splatted" into the image plane, then the corresponding feature vectors are alpha-blended, and finally the blended vector is decoded by a small MLP to render the RGB pixel values. To further inform the model, we concatenate a camera embedding to the blended feature vector, to condition the decoding also on the viewpoint information. Our experiments show that these novel model for encoding the radiance considerably improves novel view synthesis for low overlap views that are distant from the training views. Finally, we also show the capacity and convenience of our feature vector representation, demonstrating its capability not only to generate RGB values for novel views, but also their per-pixel semantic labels. We will release the code upon acceptance. Keywords: Gaussian Splatting, Novel View Synthesis, Feature Splatting
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 電子商取引検索における相互情報に基づく嗜好指向の多様性モデル

A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search ( http://arxiv.org/abs/2405.15521v1 )

ライセンス: Link先を確認
Huimu Wang, Mingming Li, Dadong Miao, Songlin Wang, Guoyu Tang, Lin Liu, Sulong Xu, Jinghe Hu, (参考訳) 再ランク付けとは、アイテム間の相互関係を考慮し、ユーザの要求をより効果的に満たすようにランキングリストを整理するプロセスである。 既存の手法は主に検索結果の精度を向上し、しばしば多様性を犠牲にして、ユーザのさまざまなニーズを満たすことができない結果をもたらす。 逆に、多様性を促進するために設計された手法は、結果の精度を損なう可能性があり、正確性に対するユーザの要求を満たすことができない。 そこで本稿では,相互情報に基づく優先度指向の多様性モデル(PODM-MI)を提案する。 特に,PODM-MIは変動推論に基づく多次元ガウス分布を採用し,不確実性を伴うユーザの多様性選好を捉える。 そして,最大変分推論下限を用いて,ユーザの多様性選好と候補項目の相互情報を最大化し,相関性を高める。 その後、相関関係に基づいてユーティリティ行列を導出し、ユーザの好みに応じてアイテムの適応的なランク付けを可能にし、上記の目的のバランスを確立する。 実世界のオンライン電子商取引システムにおける実験結果から,PODM-MIの大幅な改善が示され,我々は,PODM-MIをeコマース検索プラットフォームに導入することに成功している。

Re-ranking is a process of rearranging ranking list to more effectively meet user demands by accounting for the interrelationships between items. Existing methods predominantly enhance the precision of search results, often at the expense of diversity, leading to outcomes that may not fulfill the varied needs of users. Conversely, methods designed to promote diversity might compromise the precision of the results, failing to satisfy the users' requirements for accuracy. To alleviate the above problems, this paper proposes a Preference-oriented Diversity Model Based on Mutual-information (PODM-MI), which consider both accuracy and diversity in the re-ranking process. Specifically, PODM-MI adopts Multidimensional Gaussian distributions based on variational inference to capture users' diversity preferences with uncertainty. Then we maximize the mutual information between the diversity preferences of the users and the candidate items using the maximum variational inference lower bound to enhance their correlations. Subsequently, we derive a utility matrix based on the correlations, enabling the adaptive ranking of items in line with user preferences and establishing a balance between the aforementioned objectives. Experimental results on real-world online e-commerce systems demonstrate the significant improvements of PODM-MI, and we have successfully deployed PODM-MI on an e-commerce search platform.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# モザイク記憶:大きな言語モデルのための著作権トラップにおけるファジィ重複

Mosaic Memory: Fuzzy Duplication in Copyright Traps for Large Language Models ( http://arxiv.org/abs/2405.15523v1 )

ライセンス: Link先を確認
Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, (参考訳) LLM(Large Language Models)の開発に使用される膨大なデータセットは、しばしば著作権保護されたコンテンツを含んでいる。 著作権トラップはオリジナルコンテンツに注入されることが提案されており、新たにリリースされたLCMのコンテンツ検出性が改善されている。 しかし、トラップはユニークなテキストシーケンスの正確な重複に依存しており、一般的にデプロイされるデータ重複のテクニックに弱いままである。 ここでは,複製間のわずかな変更を特徴とするファジィ著作権トラップの生成を提案する。 1.3B LLMの微調整データに注入すると、ファジィトラップシーケンスは正確に複製されるのと同様に記憶される。 具体的には、メンバーシップ推論攻撃(MIA)ROC AUCはファジィ複製で4つのトークンが交換されるときのみ0.90から0.87に低下する。 また, ファジィ重複の正確な重複を最小限に抑えるために置換位置を選択すると, ファジィ重複をデデューズ処理で除去する可能性が極めて低いのに対し, ファジィ重複の完全重複を最小化する。 最後に, LLM がファジィにまたがって記憶されるという事実は, 自然発生重複に依存する LLM 記憶の研究に挑戦する。 実際、一般的に使用されているトレーニングデータセットであるThe Pileには、かなりの量のファジィ複製が含まれていることが分かりました。 このことは、LLM記憶のポストホックな研究において、未解明のコンファウンディング因子を導入し、プライバシ保護技術としての(実際に)データ重複の有効性を疑問視する。

The immense datasets used to develop Large Language Models (LLMs) often include copyright-protected content, typically without the content creator's consent. Copyright traps have been proposed to be injected into the original content, improving content detectability in newly released LLMs. Traps, however, rely on the exact duplication of a unique text sequence, leaving them vulnerable to commonly deployed data deduplication techniques. We here propose the generation of fuzzy copyright traps, featuring slight modifications across duplication. When injected in the fine-tuning data of a 1.3B LLM, we show fuzzy trap sequences to be memorized nearly as well as exact duplicates. Specifically, the Membership Inference Attack (MIA) ROC AUC only drops from 0.90 to 0.87 when 4 tokens are replaced across the fuzzy duplicates. We also find that selecting replacement positions to minimize the exact overlap between fuzzy duplicates leads to similar memorization, while making fuzzy duplicates highly unlikely to be removed by any deduplication process. Lastly, we argue that the fact that LLMs memorize across fuzzy duplicates challenges the study of LLM memorization relying on naturally occurring duplicates. Indeed, we find that the commonly used training dataset, The Pile, contains significant amounts of fuzzy duplicates. This introduces a previously unexplored confounding factor in post-hoc studies of LLM memorization, and questions the effectiveness of (exact) data deduplication as a privacy protection technique.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# プレトレーニングバックボーンのポリプセグメンテーション一般性

Polyp Segmentation Generalisability of Pretrained Backbones ( http://arxiv.org/abs/2405.15524v1 )

ライセンス: Link先を確認
Edward Sanderson, Bogdan J. Matuszewski, (参考訳) 近年、自己教師型のバックボーンの事前トレーニングは、一般的に細調整されたポリプセグメンテーション性能が向上し、ViT-Bバックボーンを持つモデルは、ResNet50バックボーンを持つモデルよりもパフォーマンスがよいことが示されている。 本稿では,本研究を一般化可能性の観点から拡張する。 すなわち、ネットワークアーキテクチャや事前学習パイプライン(アルゴリズムとデータセット)の変化を微調整、考慮し、異なるデータセット上でのモデルの性能を評価する。 このことは、事前訓練されたバックボーンを持つモデルが、トレーニングデータと多少異なる分布のデータにどのように一般化するかを明らかにしている。 本研究は,ポリプセグメンテーションのためのプレトレーニングパイプラインに関する以前の知見が,一般性を考慮した場合,真であることを示す。 しかし,この結果から,ResNet50のバックボーンを持つモデルは,細調整に使用する同じデータセットから得られたテストセットの評価において,ViT-Bのバックボーンを持つモデルよりも優れていたにもかかわらず,一般的にはより一般化されていることが示唆された。

It has recently been demonstrated that pretraining backbones in a self-supervised manner generally provides better fine-tuned polyp segmentation performance, and that models with ViT-B backbones typically perform better than models with ResNet50 backbones. In this paper, we extend this recent work to consider generalisability. I.e., we assess the performance of models on a different dataset to that used for fine-tuning, accounting for variation in network architecture and pretraining pipeline (algorithm and dataset). This reveals how well models with different pretrained backbones generalise to data of a somewhat different distribution to the training data, which will likely arise in deployment due to different cameras and demographics of patients, amongst other factors. We observe that the previous findings, regarding pretraining pipelines for polyp segmentation, hold true when considering generalisability. However, our results imply that models with ResNet50 backbones typically generalise better, despite being outperformed by models with ViT-B backbones in evaluation on the test set from the same dataset used for fine-tuning.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 大言語モデルファインチューニングにおけるスパース行列

Sparse Matrix in Large Language Model Fine-tuning ( http://arxiv.org/abs/2405.15525v1 )

ライセンス: Link先を確認
Haoze He, Juncheng Billy Li, Xuan Jiang, Heather Miller, (参考訳) LoRAとその変種は、過剰な計算コストを回避できるため、PEFT(パラメータ効率のよい微調整)法として人気を博している。 しかし、PEFT法とフル微調整(FT)法の間には精度のギャップがしばしば存在し、このギャップは体系的に研究されていない。 本研究では,PEFTとフル微調整(FT)の性能ギャップを最小限に抑えるとともに,微調整計算コストとメモリコストの両面を削減すべく,スパースサブ行列を選択する手法を提案する。 我々のスパースマトリックスチューニング(SMT)法は、勾配更新において最も重要なサブ行列を特定し、微調整プロセス中にのみこれらのブロックを更新することから始まる。 実験では,SMTは,LLaMAのような細調整された多言語モデルにおいて,PEFTベースライン(例えば LoRA や DoRA)を一貫して上回り,GPUメモリのフットプリントをFTと比較して67%削減することを示した。 また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向にあるかについても検討する。

LoRA and its variants have become popular parameter-efficient fine-tuning (PEFT) methods due to their ability to avoid excessive computational costs. However, an accuracy gap often exists between PEFT methods and full fine-tuning (FT), and this gap has yet to be systematically studied. In this work, we introduce a method for selecting sparse sub-matrices that aim to minimize the performance gap between PEFT vs. full fine-tuning (FT) while also reducing both fine-tuning computational cost and memory cost. Our Sparse Matrix Tuning (SMT) method begins by identifying the most significant sub-matrices in the gradient update, updating only these blocks during the fine-tuning process. In our experiments, we demonstrate that SMT consistently surpasses other PEFT baseline (e.g. LoRA and DoRA) in fine-tuning popular large language models such as LLaMA across a broad spectrum of tasks, while reducing the GPU memory footprint by 67% compared to FT. We also examine how the performance of LoRA and DoRA tends to plateau and decline as the number of trainable parameters increases, in contrast, our SMT method does not suffer from such issue.
翻訳日:2024-05-27 14:22:48 公開日:2024-05-24
# 電力管理を信頼しない:未来の信頼された実行環境の確保に向けた課題とヒント

Do Not Trust Power Management: Challenges and Hints for Securing Future Trusted Execution Environments ( http://arxiv.org/abs/2405.15537v1 )

ライセンス: Link先を確認
Owen Le Gonidec, Maria Méndez Real, Guillaume Bouffard, Jean-Christophe Prévotet, (参考訳) ここ数年、いくつかの研究グループが、カーネルを含む潜在的に侵害された特権的ソフトウェアに対してアプリケーションをセキュアにすることを目的として、Trusted Execution Environments (TEEs) のための革新的なハードウェア設計を導入してきた。 2017年以降、Tangらは、エネルギー管理機構を活用するソフトウェア対応ハードウェア攻撃の新しいクラスを導入した。 これらの攻撃は、TEEのセキュリティ保証をバイパスし、暗号鍵のような機密情報を暴露することを目的としている。 ここ数年で増加傾向にある。 それにもかかわらず、現在のRISC-V TEEアーキテクチャは脅威モデルにそれらを組み込んでいない。 Arm TrustZoneやIntel SGXといったプロプライエタリな実装には対策が組み込まれている。 しかし、これらの対策は長期的には有効ではなく、エネルギー管理機構の能力を妨げる。 本稿では,これらの攻撃の包括的知識調査と文献対策の評価について述べる。 我々の分析は、想定される脅威モデルと実際の脅威との間にかなりのセキュリティギャップを浮き彫りにして、TEEが提供したセキュリティ保証を損なう可能性のある、現代のシステム・オン・チップに相当な脅威を提示している。 我々は、脅威モデルにおけるこれらの攻撃に対処するため、次世代RISC-V TEEの強化を提唱する。

Over the past few years, several research groups have introduced innovative hardware designs for Trusted Execution Environments (TEEs), aiming to secure applications against potentially compromised privileged software, including the kernel. Since 2017, Tang et al. introduced a new class of software-enabled hardware attacks, which leverages energy management mechanisms. These attacks aim at bypassing TEE security guarantees and exposing sensitive information like cryptographic keys. They have increased in prevalence over the past few years. Despite that, current RISC-V TEE architectures have yet to incorporate them into their threat models. Proprietary implementations, such as Arm TrustZone and Intel SGX, embed countermeasures. However, these countermeasures are not viable in the long term and hinder the capabilities of energy management mechanisms. This article presents the first comprehensive knowledge survey of these attacks, along with an evaluation of literature countermeasures. Our analysis highlights a substantial security gap between assumed threat models and the actual ones, presenting considerable threats in modern systems-on-chip that can undermine even the security guarantees provided by TEEs. We advocate for the enhancement of the next generation of RISC-V TEEs to address these attacks within their threat models, and we believe this study will spur further community efforts in this direction.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 代用勾配学習のための一般化されたニューラルネットワークカーネル

A generalized neural tangent kernel for surrogate gradient learning ( http://arxiv.org/abs/2405.15539v1 )

ライセンス: Link先を確認
Luke Eilers, Raoul-Martin Memmesheimer, Sven Goedeke, (参考訳) 最先端のニューラルネットワークトレーニング手法は、ネットワーク機能の勾配に依存する。 したがって、活性化関数が二分性や離散時間スパイクニューラルネットワークのような有用な微分を持たないネットワークには適用できない。 この問題を解決するために、活性化関数の導関数は一般に代理微分に置換され、代理勾配学習(SGL)を引き起こす。 この方法は実際はうまく機能するが、理論的な基礎が欠如している。 神経タンジェント核(NTK)は勾配降下の解析に成功している。 ここでは、シュロゲート勾配 NTK と呼ばれる NTK の一般化を提供し、SGL の解析を可能にする。 まず、ジャンプを伴う活性化関数に対するNTKの素性拡張について検討し、そのような活性化関数の勾配降下も無限幅極限に悪影響を及ぼすことを示した。 この問題に対処するために、NTK をシュロゲート微分、すなわち SGL で勾配降下に一般化する。 我々は、この一般化を慎重に定義し、NTK上の既存の鍵定理を数学的厳密さで拡張する。 さらに,本研究の成果を数値実験で示す。 最後に、符号活性化関数と有限幅のネットワークにおけるSGLと、サロゲート勾配NTKとを数値的に比較し、サロゲート勾配NTKがSGLの優れた特性を提供することを確認した。

State-of-the-art neural network training methods depend on the gradient of the network function. Therefore, they cannot be applied to networks whose activation functions do not have useful derivatives, such as binary and discrete-time spiking neural networks. To overcome this problem, the activation function's derivative is commonly substituted with a surrogate derivative, giving rise to surrogate gradient learning (SGL). This method works well in practice but lacks theoretical foundation. The neural tangent kernel (NTK) has proven successful in the analysis of gradient descent. Here, we provide a generalization of the NTK, which we call the surrogate gradient NTK, that enables the analysis of SGL. First, we study a naive extension of the NTK to activation functions with jumps, demonstrating that gradient descent for such activation functions is also ill-posed in the infinite-width limit. To address this problem, we generalize the NTK to gradient descent with surrogate derivatives, i.e., SGL. We carefully define this generalization and expand the existing key theorems on the NTK with mathematical rigor. Further, we illustrate our findings with numerical experiments. Finally, we numerically compare SGL in networks with sign activation function and finite width to kernel regression with the surrogate gradient NTK; the results confirm that the surrogate gradient NTK provides a good characterization of SGL.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# グラフ上のメッセージ拡散のためのバンドルニューラルネットワーク

Bundle Neural Networks for message diffusion on graphs ( http://arxiv.org/abs/2405.15540v1 )

ライセンス: Link先を確認
Jacob Bamberger, Federico Barbero, Xiaowen Dong, Michael Bronstein, (参考訳) グラフ構造化データについて学ぶための主要なパラダイムは、メッセージパッシングである。 強い帰納バイアスにもかかわらず、局所的なメッセージパッシング機構は、過剰な平滑化、過剰なスキャッシング、限られたノードレベルの表現性などの病理学的問題に悩まされる。 これらの制限に対処するため、我々は、フラットなベクトル束上のメッセージ拡散を介して動作する新しいタイプのGNNである Bundle Neural Networks (BuNN)を提案する。 BuNN層は拡散型偏微分方程式に従って特徴を進化させる。 離散化されると、BuNNは、オーバースムーシングを緩和できる最近提案されたMPNNであるSheaf Neural Networks(SNN)の特殊なケースである。 メッセージ拡散の連続的な性質により、BuNNはグラフのより大きなスケールで操作でき、したがってオーバー・スカッシングを軽減できる。 最後に、BuNNが任意の(潜在的に無限な)グラフの族上の任意の特徴変換を近似できることを示す。 提案手法は, 実世界のタスクに対するBuNNの強い経験的性能を実証し, トランスダクティブおよびインダクティブな設定において, いくつかの標準ベンチマークで最新の結果が得られることを示す。

The dominant paradigm for learning on graph-structured data is message passing. Despite being a strong inductive bias, the local message passing mechanism suffers from pathological issues such as over-smoothing, over-squashing, and limited node-level expressivity. To address these limitations we propose Bundle Neural Networks (BuNN), a new type of GNN that operates via message diffusion over flat vector bundles - structures analogous to connections on Riemannian manifolds that augment the graph by assigning to each node a vector space and an orthogonal map. A BuNN layer evolves the features according to a diffusion-type partial differential equation. When discretized, BuNNs are a special case of Sheaf Neural Networks (SNNs), a recently proposed MPNN capable of mitigating over-smoothing. The continuous nature of message diffusion enables BuNNs to operate on larger scales of the graph and, therefore, to mitigate over-squashing. Finally, we prove that BuNN can approximate any feature transformation over nodes on any (potentially infinite) family of graphs given injective positional encodings, resulting in universal node-level expressivity. We support our theory via synthetic experiments and showcase the strong empirical performance of BuNNs over a range of real-world tasks, achieving state-of-the-art results on several standard benchmarks in transductive and inductive settings.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 強化学習による一般化可能な人力発電機の学習

Learning Generalizable Human Motion Generator with Reinforcement Learning ( http://arxiv.org/abs/2405.15541v1 )

ライセンス: Link先を確認
Yunyao Mao, Xiaoyang Liu, Wengang Zhou, Zhenbo Lu, Houqiang Li, (参考訳) 近年,コンピュータ支援コンテンツ作成における重要な課題の一つとして,テキスト駆動型ヒューマンモーション生成が注目されている。 先駆的な研究は、与えられたデータセット上での数値的なパフォーマンス指標の改善に重点を置いているが、実践的な応用は共通の課題を明らかにしている。既存の手法はトレーニングデータに特定の動作表現を過度に適合させ、目に見えない動きの組み合わせのような新しい記述に一般化する能力を妨げている。 この制限は適用範囲を制限します。 テキスト駆動モーション生成の多対多の性質を考えると、上記の問題はまず、利用可能なモーションテキストペアが不足していることから生じると論じる。 この問題に対処するため、マルコフ決定過程としてテキスト・トゥ・モーション生成を定式化し、一般化可能な人間の動作生成のための強化学習にパス・アンド・エラー・パラダイムを組み込んだ『textbf{InstructMotion}』を提示する。 コントラスト付き事前学習されたテキストとモーションエンコーダを活用することで、InstructMotionがペアデータの両方で効果的に動作できるように報酬設計を最適化し、グローバルな意味レベルテキストモーションアライメントと合成テキストオンリーなデータを拡張し、接地トルース動作監視を必要とせずに新規プロンプトへのより良い一般化を容易にする。 提案したInstructMotionは,有意な評価を定量的かつ定性的に達成することを示す。

Text-driven human motion generation, as one of the vital tasks in computer-aided content creation, has recently attracted increasing attention. While pioneering research has largely focused on improving numerical performance metrics on given datasets, practical applications reveal a common challenge: existing methods often overfit specific motion expressions in the training data, hindering their ability to generalize to novel descriptions like unseen combinations of motions. This limitation restricts their broader applicability. We argue that the aforementioned problem primarily arises from the scarcity of available motion-text pairs, given the many-to-many nature of text-driven motion generation. To tackle this problem, we formulate text-to-motion generation as a Markov decision process and present \textbf{InstructMotion}, which incorporate the trail and error paradigm in reinforcement learning for generalizable human motion generation. Leveraging contrastive pre-trained text and motion encoders, we delve into optimizing reward design to enable InstructMotion to operate effectively on both paired data, enhancing global semantic level text-motion alignment, and synthetic text-only data, facilitating better generalization to novel prompts without the need for ground-truth motion supervision. Extensive experiments on prevalent benchmarks and also our synthesized unpaired dataset demonstrate that the proposed InstructMotion achieves outstanding performance both quantitatively and qualitatively.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# SATSense: スペクトルセンシングのためのマルチサテライト協調フレームワーク

SATSense: Multi-Satellite Collaborative Framework for Spectrum Sensing ( http://arxiv.org/abs/2405.15542v1 )

ライセンス: Link先を確認
Haoxuan Yuan, Zhe Chen, Zheng Lin, Jinbo Peng, Zihan Fang, Yuhang Zhong, Zihang Song, Yue Gao, (参考訳) ローアース・オービター・インターネット(英語版)は最近展開され、地球外のネットワークで世界中にサービスを提供している。 地上ネットワークと地上ネットワークの両方を大規模に展開することで、限られたスペクトル資源を割り当てることはできない。 したがって、ダイナミックスペクトルの共有は、正確なスペクトルセンシングが不可欠である同じスペクトルの共存に不可欠である。 しかし、宇宙空間でのスペクトルセンシングは、可変チャネル条件により地上ネットワークよりも困難であり、単一衛星センシングは不安定である。 そこで,我々はまず,複数の衛星からの多様なデータを利用した協調センシング手法を設計する。 しかし、異種チャネルの品質、かなりのサンプルデータ、パケットロスなどにより、このコラボレーションを実現するのは簡単ではない。 上記の課題に対処するために、我々はまず、そのセンシングデータをグラフとしてモデル化し、効率的なスペクトルセンシングを実現するためにグラフニューラルネットワークベースのアルゴリズムを考案し、衛星間の接続を確立する。 一方、送信されたセンシングデータの量を削減するために、サブNyquistサンプリングとオートエンコーダデータ圧縮フレームワークを共同で構築する。 最後に,パケットの欠落を補償するコントラスト学習機構を提案する。 広汎な実験により,提案手法は高効率なスペクトルセンシング性能を実現し,スペクトルセンシング精度で従来のディープラーニングアルゴリズムより優れていることが示された。

Low Earth Orbit satellite Internet has recently been deployed, providing worldwide service with non-terrestrial networks. With the large-scale deployment of both non-terrestrial and terrestrial networks, limited spectrum resources will not be allocated enough. Consequently, dynamic spectrum sharing is crucial for their coexistence in the same spectrum, where accurate spectrum sensing is essential. However, spectrum sensing in space is more challenging than in terrestrial networks due to variable channel conditions, making single-satellite sensing unstable. Therefore, we first attempt to design a collaborative sensing scheme utilizing diverse data from multiple satellites. However, it is non-trivial to achieve this collaboration due to heterogeneous channel quality, considerable raw sampling data, and packet loss. To address the above challenges, we first establish connections between the satellites by modeling their sensing data as a graph and devising a graph neural network-based algorithm to achieve effective spectrum sensing. Meanwhile, we establish a joint sub-Nyquist sampling and autoencoder data compression framework to reduce the amount of transmitted sensing data. Finally, we propose a contrastive learning-based mechanism compensates for missing packets. Extensive experiments demonstrate that our proposed strategy can achieve efficient spectrum sensing performance and outperform the conventional deep learning algorithm in spectrum sensing accuracy.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 分子特性予測のための知識強調関係グラフとタスクサンプリング

Knowledge-enhanced Relation Graph and Task Sampling for Few-shot Molecular Property Prediction ( http://arxiv.org/abs/2405.15544v1 )

ライセンス: Link先を確認
Zeyu Wang, Tianyi Jiang, Yao Lu, Xiaoze Bao, Shanqing Yu, Bin Wei, Qi Xuan, (参考訳) 近年,数発の分子特性予測 (FSMPP) が注目されている。 既存の手法によって達成された印象的なブレークスルーにもかかわらず、しばしば分子と性質の間の固有の多対多の関係を見落とし、性能を制限している。 例えば、同様の分子のサブ構造は、新しい化合物の探索を刺激することができる。 さらに、プロパティ間の関係を定量化することができ、高関連性は、低関連性よりもターゲットプロパティを探索する際により多くの情報を提供する。 本稿では,知識強化リレーショナルグラフモジュールとタスクサンプリングモジュールを組み合わせた新しいメタ学習FSMPPフレームワーク(KRGTS)を提案する。 知識に富んだ関係グラフモジュールは、分子と性質の間の多対多の関係を捉えるために、分子固有多関係グラフ(MPMRG)を構成する。 タスクサンプリングモジュールは、メタトレーニングタスクサンプリング装置と、メタトレーニングプロセスのスケジューリングと高関連タスクのサンプリングをそれぞれ担当する補助タスクサンプリング装置とを備え、効率的なメタ知識学習とノイズ導入の低減を実現する。 経験的に、5つのデータセットに対する広範な実験は、さまざまな最先端手法よりもKRGTSの方が優れていることを示した。 コードはhttps://github.com/Vencent-Won/KRGTS-publicで公開されている。

Recently, few-shot molecular property prediction (FSMPP) has garnered increasing attention. Despite impressive breakthroughs achieved by existing methods, they often overlook the inherent many-to-many relationships between molecules and properties, which limits their performance. For instance, similar substructures of molecules can inspire the exploration of new compounds. Additionally, the relationships between properties can be quantified, with high-related properties providing more information in exploring the target property than those low-related. To this end, this paper proposes a novel meta-learning FSMPP framework (KRGTS), which comprises the Knowledge-enhanced Relation Graph module and the Task Sampling module. The knowledge-enhanced relation graph module constructs the molecule-property multi-relation graph (MPMRG) to capture the many-to-many relationships between molecules and properties. The task sampling module includes a meta-training task sampler and an auxiliary task sampler, responsible for scheduling the meta-training process and sampling high-related auxiliary tasks, respectively, thereby achieving efficient meta-knowledge learning and reducing noise introduction. Empirically, extensive experiments on five datasets demonstrate the superiority of KRGTS over a variety of state-of-the-art methods. The code is available in https://github.com/Vencent-Won/KRGTS-public.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# Freya PAGE:不均一非同期計算を用いた大規模非凸有限和最適化のための最初の最適時間複雑性

Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations ( http://arxiv.org/abs/2405.15545v1 )

ライセンス: Link先を確認
Alexander Tyurin, Kaja Gruntkowska, Peter Richtárik, (参考訳) 実用分散システムでは、ワーカは概して均一ではなく、ハードウェア構成やネットワーク条件が異なるため、処理時間が非常に異なる場合がある。 本稿では、このセットアップにおけるスムーズな非凸有限サム問題(経験的リスク最小化)を考察し、任意に不均一かつ非同期な計算を扱うために設計された新しい並列手法Freya PAGEを導入する。 ストラグラー」に頑健であり、遅い計算を適応的に無視することで、Freya PAGEは、Asynchronous SGD、Rennala SGD、SPIDER、PAGEを含む従来のすべてのメソッドと比較して、大幅に改善された時間複雑性を保証する。 このアルゴリズムは、理論上の保証を持つ新しい一般確率勾配収集戦略に依存しており、これはそれ自体が興味を持ち、将来の最適化手法の設計に使用される可能性がある。 さらに、非同期セットアップにおける滑らかな非凸有限サム問題に対する下界を確立し、時間的複雑性の基本的な制限を提供する。 この下限は厳密で、大規模システムにおけるFreya PAGEの最適性を示す。例えば$\sqrt{m} \geq n$, where $n$ is # of workers, and $m$ is # of data sampleである。

In practical distributed systems, workers are typically not homogeneous, and due to differences in hardware configurations and network conditions, can have highly varying processing times. We consider smooth nonconvex finite-sum (empirical risk minimization) problems in this setup and introduce a new parallel method, Freya PAGE, designed to handle arbitrarily heterogeneous and asynchronous computations. By being robust to "stragglers" and adaptively ignoring slow computations, Freya PAGE offers significantly improved time complexity guarantees compared to all previous methods, including Asynchronous SGD, Rennala SGD, SPIDER, and PAGE, while requiring weaker assumptions. The algorithm relies on novel generic stochastic gradient collection strategies with theoretical guarantees that can be of interest on their own, and may be used in the design of future optimization methods. Furthermore, we establish a lower bound for smooth nonconvex finite-sum problems in the asynchronous setup, providing a fundamental time complexity limit. This lower bound is tight and demonstrates the optimality of Freya PAGE in the large-scale regime, i.e., when $\sqrt{m} \geq n$, where $n$ is # of workers, and $m$ is # of data samples.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 量子重力による古典的極限を保存する非局所量子力学

Quantum gravity inspired nonlocal quantum dynamics preserving the classical limit ( http://arxiv.org/abs/2405.15546v1 )

ライセンス: Link先を確認
Marzena Ciszak, Alessio Belenchia, Antonello Ortolan, Francesco Marino, (参考訳) 量子重力に対するいくつかのアプローチは、場の力学の非局所的な修正につながる。 これは逆に、非相対論的エネルギーにおける量子力学の非局所的な修正を引き起こす。 ここでは、量子調和振動子の非局所的Schr\"{o}dinger進化を分析し、摂動理論を使わずに問題に対処できる。 標準的な量子予測からの偏差は、高い精度の実験によって検出または制約される可能性のある低い占有数で発生するが、量子確率密度と自由エネルギーの古典的な限界は、非局所性スケールに匹敵するエネルギーの影響を受けないままである。 これらの結果は、古典的な予測と相容れない非局所量子力学の例を示し、量子重力の現象学的側面をテストするための有望な道として巨大な量子オブジェクトを示唆している。

Several approaches to quantum gravity lead to nonlocal modifications of fields' dynamics. This, in turn, can give rise to nonlocal modifications of quantum mechanics at non-relativistic energies. Here, we analyze the nonlocal Schr\"{o}dinger evolution of a quantum harmonic oscillator in one such scenario, where the problem can be addressed without the use of perturbation theory. We demonstrate that although deviations from standard quantum predictions occur at low occupation numbers, where they could potentially be detected or constrained by high-precision experiments, the classical limits of quantum probability densities and free energy remain unaffected up to energies comparable with the nonlocality scale. These results provide an example of nonlocal quantum dynamics compatible with classical predictions, suggesting massive quantum objects as a promising avenue for testing some phenomenological aspects of quantum gravity.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# SEP: ビジュアル言語モデルのための自己強化型プロンプトチューニング

SEP: Self-Enhanced Prompt Tuning for Visual-Language Model ( http://arxiv.org/abs/2405.15549v1 )

ライセンス: Link先を確認
Hantao Yao, Rui Zhang, Lu Yu, Changsheng Xu, (参考訳) コンテキスト最適化(CoOp)に基づくプロンプトチューニングは、学習可能なプロンプトトークンを推論することで、下流タスクに視覚言語モデル(VLM)を効果的に適応させる。 しかし、これらのトークンは事前訓練されたトークンとは独立しており、クラス対応のテキストやインスタンス対応の視覚的知識のような入力固有の知識を捕捉できないため、識別性は低い。 事前訓練されたトークンに固有の識別・一般化機能を活用することで、自己拡張型プロンプトチューニング(SEP)という新しいアプローチを導入する。 SEPの中核となる原理は、各エンコーダ層における学習可能なプロンプトトークンを対応する自己予測トークンから適応させることであり、それによってテキストレベルと視覚レベルの両方の埋め込みを強化するために、差別的な事前知識を明示的に取り入れることである。 さらに、SEPの自己強化トークンは、差別を促進するだけでなく、目に見えない領域におけるドメインシフトを緩和し、一般化を促進する。 実際には、SEPはテキスト/視覚エンコーダの各層における各入力データに対して、事前訓練されたトークンからいくつかの代表トークンを選択する。 その後、Token Fusion Module(TFM)を導入し、これらの代表トークンと学習可能なトークンをクロスアテンション機構を用いてマージすることで、自己拡張トークンを生成する。 この自己拡張トークンは、後続のエンコーダ層の入力として機能し、関連する埋め込みを生成する。 様々なベンチマークやタスクに対する総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。 コード: \href{Code}{https://github.com/htyao89/SEP}。

Prompt tuning based on Context Optimization (CoOp) effectively adapts visual-language models (VLMs) to downstream tasks by inferring additional learnable prompt tokens. However, these tokens are less discriminative as they are independent of the pre-trained tokens and fail to capture input-specific knowledge, such as class-aware textual or instance-aware visual knowledge. Leveraging the discriminative and generalization capabilities inherent in pre-trained tokens, we introduce a novel approach named Self-Enhanced Prompt Tuning (SEP). The core principle of SEP involves adapting the learnable prompt tokens at each encoder layer from the corresponding self-pretrained tokens, thereby explicitly incorporating discriminative prior knowledge to enhance both textual-level and visual-level embeddings. Furthermore, SEP's self-enhanced tokens not only boost discrimination but also mitigate domain shifts in unseen domains, enhancing generalization. In practice, SEP selects several representative tokens from all pre-trained tokens for each input data at every layer of the text/visual encoders. Subsequently, a Token Fusion Module (TFM) is introduced to generate a self-enhanced token by merging these representative tokens with the learnable tokens using a cross-attention mechanism. This self-enhanced token is then concatenated with all pre-trained tokens, serving as input for subsequent encoder layers to produce the relevant embeddings. Comprehensive evaluations across various benchmarks and tasks confirm SEP's efficacy in prompt tuning. Code: \href{Code}{https://github.com/htyao89/SEP}.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# CowScreeningDB:乳牛の乳酸検出のための公開ベンチマークデータセット

CowScreeningDB: A public benchmark dataset for lameness detection in dairy cows ( http://arxiv.org/abs/2405.15550v1 )

ライセンス: Link先を確認
Shahid Ismail, Moises Diaz, Cristina Carmona-Duarte, Jose Manuel Vilar, Miguel A. Ferrer, (参考訳) 乳腺症は乳動物に最も影響を及ぼす病気の1つである。 通常は、歩行対称性や歩行パラメータなどの特徴をリアルタイムでステップカウントとして観察する訓練された獣医によって評価される。 人工知能の発達に伴い、様々なモジュラーシステムは、透視評価における主観性を最小化するために提案されている。 しかし、彼らの開発における大きな制限は、現在商用またはプライベートに保持されているパブリックデータセットが利用できないことである。 この制限に対処するため、感覚データを用いて作成されたCowScreeningDBを導入しました。 このデータセットは、スペインのグラン・カナリアにある乳園で43頭の牛から得られた。 乳牛の日常のルーチン中にApple Watch 6を使って収集されたデータに基づいて構築されたマルチセンサーデータセットで構成されている。 収集環境、サンプリング技術、センサーに関する情報、データ変換とストレージに使用されるアプリケーションのおかげで、データセットは透過的なものになる。 したがって、このデータの透明性は、客観的に比較可能な乳牛の乳酸検出技術のさらなる発展に利用することができる。 データセットの公開共有とは別に、私たちは、生の感覚データを用いて、正常でラメのソーを分類する機械学習手法も共有しています。 したがって、センサデータとラムネスの関係を確立することが主な目的である。

Lameness is one of the costliest pathological problems affecting dairy animals. It is usually assessed by trained veterinary clinicians who observe features such as gait symmetry or gait parameters as step counts in real-time. With the development of artificial intelligence, various modular systems have been proposed to minimize subjectivity in lameness assessment. However, the major limitation in their development is the unavailability of a public dataset which is currently either commercial or privately held. To tackle this limitation, we have introduced CowScreeningDB which was created using sensory data. This dataset was sourced from 43 cows at a dairy located in Gran Canaria, Spain. It consists of a multi-sensor dataset built on data collected using an Apple Watch 6 during the normal daily routine of a dairy cow. Thanks to the collection environment, sampling technique, information regarding the sensors, the applications used for data conversion and storage make the dataset a transparent one. This transparency of data can thus be used for further development of techniques for lameness detection for dairy cows which can be objectively compared. Aside from the public sharing of the dataset, we have also shared a machine-learning technique which classifies the caws in healthy and lame by using the raw sensory data. Hence validating the major objective which is to establish the relationship between sensor data and lameness.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 考える: メモリ効率の良い言語モデルのフェデレーションファインタニング

Thinking Forward: Memory-Efficient Federated Finetuning of Language Models ( http://arxiv.org/abs/2405.15551v1 )

ライセンス: Link先を確認
Kunjal Panchal, Nisarg Parikh, Sunav Choudhary, Lijun Zhang, Yuriy Brun, Hui Guan, (参考訳) 大規模言語モデル(LLM)をフェデレート学習(FL)設定で微調整することは、リソース制約のあるデバイスがプライベートデータを使ってモデルを微調整できるため、重要になっている。 しかし、バックプロパゲーションを用いた微調整 LLM はリソース制約されたデバイスに対して過剰なメモリ(特に中間活性化から)を必要とする。 Forward-mode Auto-Differentiation (AD) は、メモリフットプリントをアクティベーションから減少させることができるが、LSMファインタニングに直接適用することで、収束が遅く、精度が低くなる。 この研究は、FLアルゴリズムであるSpryを導入し、LLMのトレーニング可能な重みを各クライアントが真勾配のより近い推定値であるフォワードモードADを用いて勾配を計算する。 Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。 理論的には、Spryのグローバル勾配はクライアント間の同質なデータ分布に対する真のグローバル勾配のバイアスのない推定であり、一方、不均一性は推定のバイアスを増大させる。 また、スプリーの収束率を導出し、勾配がFLラウンドの数に比例して減少し、不均一性の限界まで収束することを示す。 実証的に、Spryはトレーニング中のメモリフットプリントを1.4-7.1$\times$で削減し、バックプロパゲーションとは対照的に、幅広い言語タスク、モデル、FL設定で同等の精度に達する。 Spryは収束時間を1.2-20.3$\times$に減らし、最先端のゼロオーダー法に対して5.2-13.5\%高い精度を達成する。 Llama2-7BをLoRAで微調整すると、33.9GBのバックプロパゲーションのピークメモリを使用するのに対し、Spryは6.2GBのピークメモリしか消費しない。 OPT13Bでは76.5GBから10.8GBに削減された。 Spryは、コモディティモバイルデバイスやエッジデバイス上で、これまで不可能だったFLデプロイメントを実現する。 ソースコードはhttps://github.com/Astuary/Spry.comで入手できる。

Finetuning large language models (LLMs) in federated learning (FL) settings has become important as it allows resource-constrained devices to finetune a model using private data. However, finetuning LLMs using backpropagation requires excessive memory (especially from intermediate activations) for resource-constrained devices. While Forward-mode Auto-Differentiation (AD) can reduce memory footprint from activations, we observe that directly applying it to LLM finetuning results in slow convergence and poor accuracy. This work introduces Spry, an FL algorithm that splits trainable weights of an LLM among participating clients, such that each client computes gradients using Forward-mode AD that are closer estimates of the true gradients. Spry achieves a low memory footprint, high accuracy, and fast convergence. We theoretically show that the global gradients in Spry are unbiased estimates of true global gradients for homogeneous data distributions across clients, while heterogeneity increases bias of the estimates. We also derive Spry's convergence rate, showing that the gradients decrease inversely proportional to the number of FL rounds, indicating the convergence up to the limits of heterogeneity. Empirically, Spry reduces the memory footprint during training by 1.4-7.1$\times$ in contrast to backpropagation, while reaching comparable accuracy, across a wide range of language tasks, models, and FL settings. Spry reduces the convergence time by 1.2-20.3$\times$ and achieves 5.2-13.5\% higher accuracy against state-of-the-art zero-order methods. When finetuning Llama2-7B with LoRA, compared to the peak memory usage of 33.9GB of backpropagation, Spry only consumes 6.2GB of peak memory. For OPT13B, the reduction is from 76.5GB to 10.8GB. Spry makes feasible previously impossible FL deployments on commodity mobile and edge devices. Source code is available at https://github.com/Astuary/Spry.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 検索破壊に対するRAGの有用性

Certifiably Robust RAG against Retrieval Corruption ( http://arxiv.org/abs/2405.15556v1 )

ライセンス: Link先を確認
Chong Xiang, Tong Wu, Zexuan Zhong, David Wagner, Danqi Chen, Prateek Mittal, (参考訳) Retrieval-augmented Generation (RAG) は、悪意のあるパスを検索結果に注入し、不正確な応答を誘導する。 本稿では,ロバストRAGを検索汚職攻撃に対する最初の防御フレームワークとして提案する。 RobustRAGの重要な洞察は、分離された集合戦略である。各通路からLLM応答を分離し、これらの分離された応答を安全に集約する。 RobustRAGのインスタンス化のために,非構造化テキスト応答を安全に集約するキーワードベースおよびデコードベースのアルゴリズムを設計する。 RobustRAGは、特定のクエリに対して、攻撃者が防御について十分な知識を持っていて、少数の悪意のあるパスを任意に注入しても、常に正確な応答を返すことができることを正式に証明し、証明することができます。 オープンドメインQAおよび長文テキスト生成データセット上でRobostRAGを評価し、その有効性と各種タスクおよびデータセット間の一般化性を示す。

Retrieval-augmented generation (RAG) has been shown vulnerable to retrieval corruption attacks: an attacker can inject malicious passages into retrieval results to induce inaccurate responses. In this paper, we propose RobustRAG as the first defense framework against retrieval corruption attacks. The key insight of RobustRAG is an isolate-then-aggregate strategy: we get LLM responses from each passage in isolation and then securely aggregate these isolated responses. To instantiate RobustRAG, we design keyword-based and decoding-based algorithms for securely aggregating unstructured text responses. Notably, RobustRAG can achieve certifiable robustness: we can formally prove and certify that, for certain queries, RobustRAG can always return accurate responses, even when the attacker has full knowledge of our defense and can arbitrarily inject a small number of malicious passages. We evaluate RobustRAG on open-domain QA and long-form text generation datasets and demonstrate its effectiveness and generalizability across various tasks and datasets.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 線形代数からの学習:共役勾配解に対するプレコンディショナ設計のためのグラフニューラルネットワークアプローチ

Learning from Linear Algebra: A Graph Neural Network Approach to Preconditioner Design for Conjugate Gradient Solvers ( http://arxiv.org/abs/2405.15557v1 )

ライセンス: Link先を確認
Vladislav Trifonov, Alexander Rudikov, Oleg Iliev, Ivan Oseledets, Ekaterina Muravleva, (参考訳) 大規模線形系は現代の計算科学においてユビキタスである。 それらを解決するための主なレシピは、よく設計された事前条件付き反復解法である。 深層学習モデルは、共役勾配 (CG) 法のような線形解法を反復する際の残差を予条件として用いることができる。 ニューラルネットワークモデルは、この設定でうまく近似するために、膨大な数のパラメータを必要とする。 もう一つのアプローチは、定義済みの空間パターンのプレコンディショナを構築するために、小さなグラフニューラルネットワーク(GNN)を活用することである。 本研究では,線形代数学から確立したプレコンディショナーを思い出し,GNNの学習の出発点として利用する。 数値実験により,本手法は古典的手法とニューラルネットワークに基づくプレコンディショニングの両方より優れていることが示された。 また、使用した損失関数のヒューリスティックな正当性も提供し、複雑なデータセットに対するアプローチを検証する。

Large linear systems are ubiquitous in modern computational science. The main recipe for solving them is iterative solvers with well-designed preconditioners. Deep learning models may be used to precondition residuals during iteration of such linear solvers as the conjugate gradient (CG) method. Neural network models require an enormous number of parameters to approximate well in this setup. Another approach is to take advantage of small graph neural networks (GNNs) to construct preconditioners of the predefined sparsity pattern. In our work, we recall well-established preconditioners from linear algebra and use them as a starting point for training the GNN. Numerical experiments demonstrate that our approach outperforms both classical methods and neural network-based preconditioning. We also provide a heuristic justification for the loss function used and validate our approach on complex datasets.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 2次元フェルミオン線における超拡散輸送

Super-diffusive transport in two-dimensional Fermionic wires ( http://arxiv.org/abs/2405.15560v1 )

ライセンス: Link先を確認
Junaid Majeed Bhat, (参考訳) 我々はフェルミオンワイヤの2次元モデルと、その2つの反対側の縁に沿った貯水池との接触について考察する。 貯水池はフェルミ準位($E$)の周囲に偏り、長さでワイヤのコンダクタンスをスケーリングし、その幅を$W\rightarrow\infty$として$L$とする。 ワイヤは輸送方向に沿って乱れ、導電性はワイヤの長さとともに指数関数的に減衰すると予想される。 しかし,本モデルでは, コンダクタンスの超拡散スケーリング(1/L^{1/2}$)が, |E|<E_c$内に存在することを示す。 この挙動は、局所化の長さが変化する固有状態が$W\rightarrow\infty$として存在することに起因している。 |E|=E_c$ では、コンダクタンス挙動は障害に敏感であり、1/L^{3/2}$ と 1/L^{5/2}$ と半拡散的にスケールする。 さらに、このフェルミレベルでは、ワイヤのパラメータ空間の特定の点において、コンダクタンスの挙動も障害の期待値の符号に敏感である。 これらの点において、障害のゼロ期待値に対して1/L^{7/4}$と、障害の期待値の異なる記号に対して1/L$, $1/L^{3}$を求める。

We consider a two-dimensional model of a Fermionic wire in contact with reservoirs along its two opposite edges. With the reservoirs biased around a Fermi level, $E$, we study the scaling of the conductance of the wire with its length, $L$ as the width of the wire $W\rightarrow\infty$. The wire is disordered along the direction of the transport so the conductance is expected to exponentially decay with the length of the wire. However, we show that our model shows a super-diffusive scaling ($1/L^{1/2}$) of the conductance within $|E|<E_c$. This behavior is attributed to the presence of eigenstates of diverging localization length as $W\rightarrow\infty$. At $|E|=E_c$, the conductance behavior is sensitive to the disorder and scales sub-diffusively as $1/L^{3/2}$, and $1/L^{5/2}$ for zero and nonzero expectation value of the disorder. Furthermore, at this Fermi level and at certain points in the parameter space of the wire, the behavior of the conductance is also sensitive to the sign of the expectation value of the disorder. At these points we find $1/L^{7/4}$ for zero expectation value of the disorder and $1/L$, $1/L^{3}$ for different signs of the expectation value of the disorder.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# ジェネレーティブAIが職場学習と出会う: ジェネレーティブPCAでリアルでモチベーションのある学習体験を作る

When Generative AI Meets Workplace Learning: Creating A Realistic & Motivating Learning Experience With A Generative PCA ( http://arxiv.org/abs/2405.15561v1 )

ライセンス: Link先を確認
Andreas Bucher, Birgit Schenk, Mateusz Dolata, Gerhard Schwabe, (参考訳) 職場学習は、例えば、eラーニングや1:1のトレーニングを通じて、従業員を体系的に訓練するために使用される。 しかし、これはしばしば非効率で費用がかかると見なされる。 純粋なeラーニングは、会話の練習や個人的な接触の可能性を欠いているが、人間のインストラクターとの1:1のトレーニングには、高いレベルの人員と組織的コストが伴う。 したがって、生成的AIに基づく教育的会話エージェント(PCAs)は、両方の形態の欠点を補うように思われる。 本稿では,Action Design Researchに続いて,ジェネレーティブPCA(GenPCA)を用いた組織コミュニケーショントレーニングについて述べる。 評価は有望な結果を示している: エージェントは、従業員の間で肯定的に認識され、自己決定学習の改善に寄与した。 しかし、そのようなエージェントの統合には制限がない。 我々は、GenPCAが支援する実践的手法と、そのような職場学習エージェントの改善の可能性について提案する。

Workplace learning is used to train employees systematically, e.g., via e-learning or in 1:1 training. However, this is often deemed ineffective and costly. Whereas pure e-learning lacks the possibility of conversational exercise and personal contact, 1:1 training with human instructors involves a high level of personnel and organizational costs. Hence, pedagogical conversational agents (PCAs), based on generative AI, seem to compensate for the disadvantages of both forms. Following Action Design Research, this paper describes an organizational communication training with a Generative PCA (GenPCA). The evaluation shows promising results: the agent was perceived positively among employees and contributed to an improvement in self-determined learning. However, the integration of such agent comes not without limitations. We conclude with suggestions concerning the didactical methods, which are supported by a GenPCA, and possible improvements of such an agent for workplace learning.
翻訳日:2024-05-27 13:59:53 公開日:2024-05-24
# 透過電子顕微鏡画像に基づく機能的深層学習モデルを用いた不均一ウイルス分類(プレプリント)

Heterogeneous virus classification using a functional deep learning model based on transmission electron microscopy images (Preprint) ( http://arxiv.org/abs/2405.15563v1 )

ライセンス: Link先を確認
Niloy Sikder, Md. Al-Masrur Khan, Anupam Kumar Bairagi, Mehedi Masud, Jun Jiat Tiang, Abdullah-Al Nahid, (参考訳) ウイルスは、あらゆる種類の生命体に感染し、宿主の生きた細胞を使って自己複製する顕微鏡下剤である。 全ての生物の中で最も単純な遺伝子構造を持っているにもかかわらず、ウイルスは高度に適応可能であり、弾力性があり、適切な条件を与えられた場合、宿主の体に予期せぬ合併症を引き起こす可能性がある。 複数の伝達経路、高い感染率、致死性のため、ウイルスは動物や植物が直面している最大の生物学的脅威である。 宿主の身体にウイルスが存在することを迅速に検出し、手動検査技術を用いてその型を正確に判定することはしばしば困難であるが、コンピュータによる自動診断法を用いて行うことができる。 特に、透過電子顕微鏡(TEM)画像の解析は、インスタントウイルスの同定に非常に成功したことが証明されている。 本稿では,最近公開されたデータセットから収集したTEM画像を用いて,これらの画像中のウイルスの種類を正確に識別する深層学習に基づく分類モデルを提案する。 本研究の手法は、2つのコヒーレント画像処理技術を含み、生の顕微鏡画像に存在するノイズを低減する。 実験の結果、データセットに存在する14種類のウイルスを97.44%の分類精度とF1スコアで区別でき、提案手法の有効性と信頼性を主張できることがわかった。 このスキームの実装は、徹底的な診断手順に、迅速かつ信頼性の高いウイルス識別子会社を付与する。

Viruses are submicroscopic agents that can infect all kinds of lifeforms and use their hosts' living cells to replicate themselves. Despite having some of the simplest genetic structures among all living beings, viruses are highly adaptable, resilient, and given the right conditions, are capable of causing unforeseen complications in their hosts' bodies. Due to their multiple transmission pathways, high contagion rate, and lethality, viruses are the biggest biological threat faced by animal and plant species. It is often challenging to promptly detect the presence of a virus in a possible host's body and accurately determine its type using manual examination techniques; however, it can be done using computer-based automatic diagnosis methods. Most notably, the analysis of Transmission Electron Microscopy (TEM) images has been proven to be quite successful in instant virus identification. Using TEM images collected from a recently published dataset, this article proposes a deep learning-based classification model to identify the type of virus within those images correctly. The methodology of this study includes two coherent image processing techniques to reduce the noise present in the raw microscopy images. Experimental results show that it can differentiate among the 14 types of viruses present in the dataset with a maximum of 97.44% classification accuracy and F1-score, which asserts the effectiveness and reliability of the proposed method. Implementing this scheme will impart a fast and dependable way of virus identification subsidiary to the thorough diagnostic procedures.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# グラフ構造データに対する独立したクロスエントロピー損失の再考

Rethinking Independent Cross-Entropy Loss For Graph-Structured Data ( http://arxiv.org/abs/2405.15564v1 )

ライセンス: Link先を確認
Rui Miao, Kaixiong Zhou, Yili Wang, Ninghao Liu, Ying Wang, Xin Wang, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの学習において顕著なパフォーマンスを示した。 ノードラベル間のi.dの仮定に基づいてノード分類タスクを考えると、従来の教師付き学習は独立トレーニングノードのクロスエントロピー損失を単純に和らげ、GNNの重みを最適化するために平均損失を適用する。 しかし、他のデータフォーマットとは異なり、ノードは自然に接続される。 ノードラベルの独立分布モデリングは,グラフ全体を一般化し,敵攻撃を防御するGNNの能力を制限している。 本研究では,各ノードと対応するクラスタの結合分布をモデル化する,共同クラスタ型学習という新しいフレームワークを提案する。 我々は,ノードとクラスタのラベルを表現した共同分布を学習し,得られた共同損失でGNNを訓練する。 このようにして、ローカルクラスタから抽出されたデータラベル参照信号は、ターゲットノード上の識別能力を明示的に強化する。 本研究では,GNNのノード分類精度を効果的に向上させることができることを示す。 さらに,不利な干渉を伴わない参照信号の恩恵を受けながら,我々の学習パラダイムは,ノード分類が敵攻撃の影響を著しく防ぐ。

Graph neural networks (GNNs) have exhibited prominent performance in learning graph-structured data. Considering node classification task, based on the i.i.d assumption among node labels, the traditional supervised learning simply sums up cross-entropy losses of the independent training nodes and applies the average loss to optimize GNNs' weights. But different from other data formats, the nodes are naturally connected. It is found that the independent distribution modeling of node labels restricts GNNs' capability to generalize over the entire graph and defend adversarial attacks. In this work, we propose a new framework, termed joint-cluster supervised learning, to model the joint distribution of each node with its corresponding cluster. We learn the joint distribution of node and cluster labels conditioned on their representations, and train GNNs with the obtained joint loss. In this way, the data-label reference signals extracted from the local cluster explicitly strengthen the discrimination ability on the target node. The extensive experiments demonstrate that our joint-cluster supervised learning can effectively bolster GNNs' node classification accuracy. Furthermore, being benefited from the reference signals which may be free from spiteful interference, our learning paradigm significantly protects the node classification from being affected by the adversarial attack.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# 確率量子ゲート合成における誤差加工

Error Crafting in Probabilistic Quantum Gate Synthesis ( http://arxiv.org/abs/2405.15565v1 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Seiseki Akibue, Hayata Morisaki, Kento Tsubouchi, Yasunari Suzuki, (参考訳) フォールトトレラント量子コンピューティングの初期段階において、一般ユニタリゲートの普遍ゲート集合へのゲート合成は、ゲート自体に固有のノイズに匹敵する大きさの誤差をもたらすと想定されている。 確率論的合成の使用は、既にそのようなコヒーレントな誤りを2次的に抑制していることは知られているが、その残差についての明確な理解は得られず、エラーの抑制と緩和を効果的に組み合わせた全体的エラー対策の設計を妨げている。 本研究では, 合成誤差が完全かつ効率的に特徴付けられるという事実を利用して, 誤差プロファイルが望ましい特性を満たすように確率的合成の残差を発生させることができることを提案する。 単量子ユニタリ合成の場合、パウリによって記述される残差誤差を発生させ、誤差を非分極化できるような確率的合成を行う方法が保証されているが、従来のツイリングは原則として適用できない。 さらに, クリフォード+T形式に基づくパウリ回転合成の数値的証拠として, 論理的測定とフィードバック操作を組み合わせることにより, 残差誤差を3次オーダーまで除去できることを示す。 結果として、パウリの回転ゲートは平均で$\log_2(1/\varepsilon)$で実装でき、古典的トラクタビリティを超える早期のフォールトトレラント量子計算にも適用できる。 我々の研究は、エラー対策を編成する量子回路設計とアーキテクチャの新たな道を開く。

At the early stage of fault-tolerant quantum computing, it is envisioned that the gate synthesis of a general unitary gate into universal gate sets yields error whose magnitude is comparable with the noise inherent in the gates themselves. While it is known that the use of probabilistic synthesis already suppresses such coherent errors quadratically, there is no clear understanding on its remnant error, which hinders us from designing a holistic error countermeasure that is effectively combined with error suppression and mitigation. In this work, we propose that, by exploiting the fact that synthesis error can be characterized completely and efficiently, we can craft the remnant error of probabilistic synthesis such that the error profile satisfies desirable properties. We prove for the case of single-qubit unitary synthesis that, there is a guaranteed way to perform probabilistic synthesis such that we can craft the remnant error to be described by Pauli and depolarizing errors, while the conventional twirling cannot be applied in principle. Furthermore, we show a numerical evidence for the synthesis of Pauli rotations based on Clifford+T formalism that, we can craft the remnant error so that it can be eliminated up to {\it cubic} order by combining logical measurement and feedback operations. As a result, Pauli rotation gates can be implemented with T counts of $\log_2(1/\varepsilon)$ on average up to accuracy of $\varepsilon=10^{-9}$, which can be applied to early fault-tolerant quantum computation beyond classical tractability. Our work opens a novel avenue in quantum circuit design and architecture that orchestrates error countermeasures.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# PyCellMech: 医療・生物学的研究に用いる形状に基づく特徴抽出パイプライン

PyCellMech: A shape-based feature extraction pipeline for use in medical and biological studies ( http://arxiv.org/abs/2405.15567v1 )

ライセンス: Link先を確認
Janan Arslan, Henri Chhoa, Ines Khemir, Romain Valabregue, Kurt K. Benke, (参考訳) 要旨:医学研究者は身体計測と画像データを用いて障害・疾患の予防・治療に関する知識を得る。 この取り組みを支援するために、画像構造からデータを集めるように設計された特徴抽出パッケージが利用可能である。 本研究では,現在の形状に基づく特徴の混合を付加することにより,現在の作業量を増やすことを目的としている。 形状に基づく特徴の意義は数十年にわたって広く研究されてきたが,研究者が容易に形状に関連した特徴を抽出できる単一のパッケージは存在しない。 PyCellMechはこのギャップに対処するために作られた。 PyCellMechパッケージは、一次元、幾何学的、多角形に分類される3種類の形状特徴を抽出する。 今後のイテレーションは、スケールスペースなどの他の機能クラスを含むように拡張される予定である。 可用性と実装: PyCellMechはhttps://github.com/icm-dac/pycellmech.comで無料で利用できる。

Summary: Medical researchers obtain knowledge about the prevention and treatment of disability and disease using physical measurements and image data. To assist in this endeavor, feature extraction packages are available that are designed to collect data from the image structure. In this study, we aim to augment current works by adding to the current mix of shape-based features. The significance of shape-based features has been explored extensively in research for several decades, but there is no single package available in which all shape-related features can be extracted easily by the researcher. PyCellMech has been crafted to address this gap. The PyCellMech package extracts three classes of shape features, which are classified as one-dimensional, geometric, and polygonal. Future iterations will be expanded to include other feature classes, such as scale-space. Availability and implementation: PyCellMech is freely available at https://github.com/icm-dac/pycellmech.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# OMNI-EPIC:コードでプログラムされた環境に対する人間の関心の表記モデルによるオープンディペンデンス

OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code ( http://arxiv.org/abs/2405.15568v1 )

ライセンス: Link先を確認
Maxence Faldor, Jenny Zhang, Antoine Cully, Jeff Clune, (参考訳) オープンエンドおよびAI生成アルゴリズムは、ますます複雑なタスクを無期限に生成し、解決することを目的としており、より汎用的なインテリジェンスへの有望な道を提供する。 この壮大なビジョンを達成するためには、学習は潜在的なタスクの膨大な範囲内で行われなければならない。 環境を自動的に生成するための既存のアプローチは、手動で事前定義された、しばしば狭い環境分布内で制約され、学習環境を作成する能力を制限する。 この制限に対処するため、我々は、OMNI-EPICという新しいフレームワークを導入し、EPIC(Environments Programmed in Code)を用いた人間興味の表記モデル(OMNI)を通して、オープンエンディネスにおける過去の作業を拡大する。 OMNI-EPICは、基礎モデルを利用して、次の学習可能なコード(エージェントの現在のスキルセットでは簡単でも難しいものでもない)と興味深いタスク(例えば、価値のあるもの、新しいもの)を自律的に生成する。 OMNI-EPICは、環境(例えば障害物コース)と報酬関数(例えば、赤い物体に触れることなく障害物コースを素早く進行させる)の両方を生成し、原則として、シミュラブルな学習タスクを作成することができる。 我々は,OMNI-EPICの爆発的創造性を紹介する。 また、OMNI-EPICが強化学習エージェントの学習進捗にどのように適応し、適切な困難を伴うタスクを生成するかを強調した。 全体として、OMNI-EPICは無限に学習可能で興味深い環境を作成でき、自己改善型AIシステムとAI生成アルゴリズムの開発をさらに促進します。 ビデオ付きプロジェクトWebサイト: https://dub.sh/omniepic

Open-ended and AI-generating algorithms aim to continuously generate and solve increasingly complex tasks indefinitely, offering a promising path toward more general intelligence. To accomplish this grand vision, learning must occur within a vast array of potential tasks. Existing approaches to automatically generating environments are constrained within manually predefined, often narrow distributions of environment, limiting their ability to create any learning environment. To address this limitation, we introduce a novel framework, OMNI-EPIC, that augments previous work in Open-endedness via Models of human Notions of Interestingness (OMNI) with Environments Programmed in Code (EPIC). OMNI-EPIC leverages foundation models to autonomously generate code specifying the next learnable (i.e., not too easy or difficult for the agent's current skill set) and interesting (e.g., worthwhile and novel) tasks. OMNI-EPIC generates both environments (e.g., an obstacle course) and reward functions (e.g., progress through the obstacle course quickly without touching red objects), enabling it, in principle, to create any simulatable learning task. We showcase the explosive creativity of OMNI-EPIC, which continuously innovates to suggest new, interesting learning challenges. We also highlight how OMNI-EPIC can adapt to reinforcement learning agents' learning progress, generating tasks that are of suitable difficulty. Overall, OMNI-EPIC can endlessly create learnable and interesting environments, further propelling the development of self-improving AI systems and AI-Generating Algorithms. Project website with videos: https://dub.sh/omniepic
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# 大規模多次元クナップサック問題に対するランダムなヒューリスティック修復法

Randomized heuristic repair for large-scale multidimensional knapsack problem ( http://arxiv.org/abs/2405.15569v1 )

ライセンス: Link先を確認
Jean P. Martins, (参考訳) 多次元クナップサック問題(MKP)は、容量制約に違反しない最大利益項目のサブセットを決定するNPハード組合せ最適化問題である。 大規模なMKPインスタンスは、その硬さのため、通常はメタヒューリスティックス(メタヒューリスティックス)の標的となる。 1998年、チューとビーズリーは、最近のメタヒューリスティックにはまだ関係のある効果的なヒューリスティックな修復を提案した。 しかし、その決定論的性質のため、そのようなヒューリスティックなソリューションの多様性は長期にわたって不十分である。 結果として、新しい解の探索はしばらくして終了する。 本稿では,修復液の分散性を向上し,品質を劣化させることなく,全体的な結果を改善する,ヒューリスティック修復のための効率に基づくランダム化戦略を提案する。

The multidimensional knapsack problem (MKP) is an NP-hard combinatorial optimization problem whose solution is determining a subset of maximum total profit items that do not violate capacity constraints. Due to its hardness, large-scale MKP instances are usually a target for metaheuristics, a context in which effective feasibility maintenance strategies are crucial. In 1998, Chu and Beasley proposed an effective heuristic repair that is still relevant for recent metaheuristics. However, due to its deterministic nature, the diversity of solutions such heuristic provides is insufficient for long runs. As a result, the search for new solutions ceases after a while. This paper proposes an efficiency-based randomization strategy for the heuristic repair that increases the variability of the repaired solutions without deteriorating quality and improves the overall results.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# Meteor:Mambaをベースとした大規模言語と視覚モデルのためのRationaleのトラバース

Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models ( http://arxiv.org/abs/2405.15574v1 )

ライセンス: Link先を確認
Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro, (参考訳) 大規模言語と視覚モデル(LLVM)の急速な開発は、視覚的インストラクションチューニングの進歩によって進められている。 近年、オープンソースのLLVMは、高品質なビジュアルインストラクションチューニングデータセットをキュレートし、強力なクローズドソースLLVMのパフォーマンスギャップを狭めるために、追加のビジョンエンコーダや複数のコンピュータビジョンモデルを利用している。 これらの進歩は、基本的なイメージ理解、常識や非対象概念(例えば、チャート、図、記号、記号、記号、数学問題)に関する現実世界の知識、複雑な問題を解くためのステップバイステップの手順など、多様な機能に必要な多面的な情報に起因している。 本稿では,多面的情報から,多面的理性を利用して理解と回答能力を向上させる,新しい効率的なLLVM,Mamba-based traversal of rationales(Meteor)を提案する。 豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。 我々は, 合理的の効率的な埋め込みを容易にする, 合理的のトラバースという新しい概念を導入する。 その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。 これらのステップを通じて、Meteorは、モデルサイズをスケールアップしたり、追加のビジョンエンコーダやコンピュータビジョンモデルを採用することなく、さまざまな機能を必要とする複数の評価ベンチマークで、視覚言語のパフォーマンスを大幅に改善した。

The rapid development of large language and vision models (LLVMs) has been driven by advances in visual instruction tuning. Recently, open-source LLVMs have curated high-quality visual instruction tuning datasets and utilized additional vision encoders or multiple computer vision models in order to narrow the performance gap with powerful closed-source LLVMs. These advancements are attributed to multifaceted information required for diverse capabilities, including fundamental image understanding, real-world knowledge about common-sense and non-object concepts (e.g., charts, diagrams, symbols, signs, and math problems), and step-by-step procedures for solving complex questions. Drawing from the multifaceted information, we present a new efficient LLVM, Mamba-based traversal of rationales (Meteor), which leverages multifaceted rationale to enhance understanding and answering capabilities. To embed lengthy rationales containing abundant information, we employ the Mamba architecture, capable of processing sequential data with linear time complexity. We introduce a new concept of traversal of rationale that facilitates efficient embedding of rationale. Subsequently, the backbone multimodal language model (MLM) is trained to generate answers with the aid of rationale. Through these steps, Meteor achieves significant improvements in vision language performances across multiple evaluation benchmarks requiring diverse capabilities, without scaling up the model size or employing additional vision encoders and computer vision models.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# 深層学習による米国のGDP成長のための密度見通しの生成--バックプロップとモンテカルロの落差によるベイズ

Generating density nowcasts for U.S. GDP growth with deep learning: Bayes by Backprop and Monte Carlo dropout ( http://arxiv.org/abs/2405.15579v1 )

ライセンス: Link先を確認
Kristóf Németh, Dániel Hadházi, (参考訳) この論文の最近の結果は、GDPの現在の精度で、人工知能ニューラルネットワーク(ANN)が動的因子モデル(DFM)より優れていることを示している。 DFMと比較して、これらの非常に柔軟な非線形推定器の性能上の利点は、特に不況や構造的破壊の期間において顕著である。 しかし、政策立案者の観点から見れば、現在放送は不確実性を伴って放送されるときに最も有用である。 DFMや他の古典的時系列のアプローチはGDP成長の予測的(条件的)分布を解析的に導出するが、ANNはデフォルトのトレーニング手順(バックプロパゲーション)に基づいてポイント・ガムキャストしか生成できない。 このギャップを埋めるために、まず文献において、ANNが米国のGDP成長のための密度の現在のキャストを生成することができる2つの異なるディープラーニングアルゴリズム、すなわちBackpropとMonte Carloのドロップアウトを適用します。 経験的予測分布の平均値として定義される点今流の精度を,GDPの単純な定数成長モデルとベンチマークDFM仕様と比較して評価する。 1D CNNを基盤アーキテクチャとして、両方のアルゴリズムは評価期間(2012:Q1 -- 2022:Q4)でこれらのベンチマークを上回った。 さらに、両方のアルゴリズムは、経験的予測分布の位置(平均)、スケール(分散)、形状(スキュー)を動的に調整することができる。 その結果、Backprop による Bayes と Monte Carlo によるドロップアウトは、ANN のスコープと機能を効果的に拡張し、古典的な時系列アプローチに対する完全な互換性と競争力のある代替手段となることが示唆された。

Recent results in the literature indicate that artificial neural networks (ANNs) can outperform the dynamic factor model (DFM) in terms of the accuracy of GDP nowcasts. Compared to the DFM, the performance advantage of these highly flexible, nonlinear estimators is particularly evident in periods of recessions and structural breaks. From the perspective of policy-makers, however, nowcasts are the most useful when they are conveyed with uncertainty attached to them. While the DFM and other classical time series approaches analytically derive the predictive (conditional) distribution for GDP growth, ANNs can only produce point nowcasts based on their default training procedure (backpropagation). To fill this gap, first in the literature, we adapt two different deep learning algorithms that enable ANNs to generate density nowcasts for U.S. GDP growth: Bayes by Backprop and Monte Carlo dropout. The accuracy of point nowcasts, defined as the mean of the empirical predictive distribution, is evaluated relative to a naive constant growth model for GDP and a benchmark DFM specification. Using a 1D CNN as the underlying ANN architecture, both algorithms outperform those benchmarks during the evaluation period (2012:Q1 -- 2022:Q4). Furthermore, both algorithms are able to dynamically adjust the location (mean), scale (variance), and shape (skew) of the empirical predictive distribution. The results indicate that both Bayes by Backprop and Monte Carlo dropout can effectively augment the scope and functionality of ANNs, rendering them a fully compatible and competitive alternative for classical time series approaches.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# オープンVocabulary SAM3D:3Dシーンの理解

Open-Vocabulary SAM3D: Understand Any 3D Scene ( http://arxiv.org/abs/2405.15580v1 )

ライセンス: Link先を確認
Hanchen Tai, Qingdong He, Jiangning Zhang, Yijie Qian, Zhenyu Zhang, Xiaobin Hu, Yabiao Wang, Yong Liu, (参考訳) オープン語彙の3Dシーン理解はこの分野において重要な課題である。 最近の進歩は、視覚言語モデルに埋め込まれた知識を2Dドメインから3Dドメインに転送することを目指している。 しかしながら、これらのアプローチでは、特定の3Dシーンデータセットから事前知識を学習する必要がある場合が多いため、オープンワールドシナリオにおける適用性が制限される。 SAM(Segment Anything Model)は,ゼロショットセグメンテーション能力に優れており,トレーニングを必要とせずに3Dシーンを解釈する可能性について検討する。 本稿では,オープンな3Dシーン理解のための汎用フレームワークであるOV-SAM3Dを紹介する。 このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 まず,初期3Dプロンプトとしてスーパーポイントを生成し,SAMから派生したセグメントマスクを用いてこれらのプロンプトを洗練することにより,プロセスを開始する。 さらに,RAM (Recognize Anything Model) のオープンタグと特別に設計されたオーバーラップスコアテーブルを統合し,オープンワールドラベルによる最終的な3Dインスタンスを生成する。 ScanNet200 と nuScenes のデータセットで行った実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を超越していることを示している。

Open-vocabulary 3D scene understanding presents a significant challenge in the field. Recent advancements have sought to transfer knowledge embedded in vision language models from the 2D domain to 3D domain. However, these approaches often require learning prior knowledge from specific 3D scene datasets, which limits their applicability in open-world scenarios. The Segment Anything Model (SAM) has demonstrated remarkable zero-shot segmentation capabilities, prompting us to investigate its potential for comprehending 3D scenes without the need for training. In this paper, we introduce OV-SAM3D, a universal framework for open-vocabulary 3D scene understanding. This framework is designed to perform understanding tasks for any 3D scene without requiring prior knowledge of the scene. Specifically, our method is composed of two key sub-modules: First, we initiate the process by generating superpoints as the initial 3D prompts and refine these prompts using segment masks derived from SAM. Moreover, we then integrate a specially designed overlapping score table with open tags from the Recognize Anything Model (RAM) to produce final 3D instances with open-world label. Empirical evaluations conducted on the ScanNet200 and nuScenes datasets demonstrate that our approach surpasses existing open-vocabulary methods in unknown open-world environments.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# Informative Priorsを用いたトランスファーラーニング:以前報告したよりもシンプルなベースライン

Transfer Learning with Informative Priors: Simple Baselines Better than Previously Reported ( http://arxiv.org/abs/2405.15583v1 )

ライセンス: Link先を確認
Ethan Harvey, Mikhail Petrov, Michael C. Hughes, (参考訳) 我々は,目標タスクにおける分類器の精度を向上させるために,移動学習を追求する。 最近の研究は、ソースタスクを使用して、単に初期化ではなく、ニューラルネット重みに関する事前分布を学習することで、ターゲットタスクのパフォーマンスが向上することを示唆している。 本研究では,5つのデータセットにまたがる伝達学習と,ソースタスクの事前情報とを慎重に比較する。 その結果,初期化によって得られる標準伝達学習は,従来の比較結果よりもはるかに優れていることがわかった。 標準的な伝達学習よりも情報的先行性を用いた手法の相対的な利得はデータセットによって大きく異なる。 クラス毎の5-300例のシナリオでは、2つのデータセットに対して負または無視的なゲイン、他の2つのデータセットでは控えめなゲイン(1.5-3ポイントの精度)、1つのデータセットでは実質的なゲイン(>8ポイント)が見られます。 情報的先行法では、学習された低ランク共分散行列と等方的共分散が競合するが、理解とチューニングは極めて簡単である。 さらなる分析では、経験的景観の多様性が高いため、情報伝達前の機械的正当化 -- 列車とテスト損失のランドスケープの整合性の向上を仮定した - が一貫してサポートされていないことが示唆されている。 すべての実験を独立して再現するためのコードをリリースします。

We pursue transfer learning to improve classifier accuracy on a target task with few labeled examples available for training. Recent work suggests that using a source task to learn a prior distribution over neural net weights, not just an initialization, can boost target task performance. In this study, we carefully compare transfer learning with and without source task informed priors across 5 datasets. We find that standard transfer learning informed by an initialization only performs far better than reported in previous comparisons. The relative gains of methods using informative priors over standard transfer learning vary in magnitude across datasets. For the scenario of 5-300 examples per class, we find negative or negligible gains on 2 datasets, modest gains (between 1.5-3 points of accuracy) on 2 other datasets, and substantial gains (>8 points) on one dataset. Among methods using informative priors, we find that an isotropic covariance appears competitive with learned low-rank covariance matrix while being substantially simpler to understand and tune. Further analysis suggests that the mechanistic justification for informed priors -- hypothesized improved alignment between train and test loss landscapes -- is not consistently supported due to high variability in empirical landscapes. We release code to allow independent reproduction of all experiments.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# エンド・ツー・エンドタスク指向対話システムのためのHintを用いたコンテキスト内学習のシンセサイザー化

Synergizing In-context Learning with Hints for End-to-end Task-oriented Dialog Systems ( http://arxiv.org/abs/2405.15585v1 )

ライセンス: Link先を確認
Vishal Vivek Saley, Rocktim Jyoti Das, Dinesh Raghu, Mausam, (参考訳) 大規模言語モデル (LLM) に基づくエンドツーエンドタスク指向ダイアログ (TOD) システムは、列車データに制限がある場合にのみ、教師付きモデルよりも優れた性能を発揮する。 これは、LLMがいくつかのデモでどんなタスクでも学習する能力に起因している。 列車ダイアログの数が増加するにつれて、教師付きSoTAモデルは、LLMが模倣に苦慮しているトレーニングデータにおけるシステム応答のスタイルと整合性を改善するために、文脈内学習のLLMを超越する。 そこで, SyncTODを提案する。これは, LLMを協調的に処理し, タスクのアライメントを改善するのに有用なヒントを与える。 高レベルでは、SyncTODは補助モデルを訓練し、これらのヒントを提供し、コンテキスト内プロンプトの例を選択できる。 ChatGPTでは、SyncTODはLLMベースのベースラインやSoTAモデルに比べて低データ設定で優れたパフォーマンスを実現し、フルデータ設定では競争性能を維持している。

Large language models (LLM) based end-to-end task-oriented dialog (TOD) systems built using few-shot (in-context) learning perform better than supervised models only when the train data is limited. This is due to the inherent ability of LLMs to learn any task with just a few demonstrations. As the number of train dialogs increases, supervised SoTA models surpass in-context learning LLMs as they learn to better align with the style of the system responses in the training data, which LLMs struggle to mimic. In response, we propose SyncTOD, which synergizes LLMs with useful hints about the task for improved alignment. At a high level, SyncTOD trains auxiliary models to provide these hints and select exemplars for the in-context prompts. With ChatGPT, SyncTOD achieves superior performance compared to LLM-based baselines and SoTA models in low-data settings, while retaining competitive performance in full-data settings
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# DAGER: 大規模言語モデルのための厳密なグラディエント・インバージョン

DAGER: Exact Gradient Inversion for Large Language Models ( http://arxiv.org/abs/2405.15586v1 )

ライセンス: Link先を確認
Ivo Petrov, Dimitar I. Dimitrov, Maximilian Baader, Mark Niklas Müller, Martin Vechev, (参考訳) フェデレーション学習は、複数のクライアントからローカルに計算された勾配を集約することで、プライベートクライアントデータを共有せずに協調的なトレーニングを可能にする。 しかし、以前の研究によると、このデータは、いわゆるグラディエント・インバージョン・アタックを使って、サーバによって実際に回収できる。 これらの攻撃は画像に適用すると良好に動作するが、テキスト領域では制限されており、小さなバッチと短い入力シーケンスの近似的な再構築しか許されていない。 本研究では,入力テキストのバッチ全体を正確に復元する最初のアルゴリズムであるDAGERを提案する。 DAGERは、自己アテンション層勾配の低ランク構造とトークン埋め込みの離散性を利用して、所定のトークンシーケンスがクライアントデータの一部であるかどうかを効率的にチェックする。 このチェックは、徹底的なヒューリスティック検索とグリージーアプローチを用いて、エンコーダとデコーダベースのアーキテクチャの両方のデータに先行せずに、誠実だが正確な設定で完全なバッチを正確に復元する。 我々は,DAGERのGPU実装を効率化し,大規模言語モデル(LLM)で最大128のバッチを回復し,前回の攻撃(同じバッチサイズで20倍),スケーラビリティ(10倍),再構築品質(ROUGE-1/2 > 0.99)を達成できることを実験的に示す。

Federated learning works by aggregating locally computed gradients from multiple clients, thus enabling collaborative training without sharing private client data. However, prior work has shown that the data can actually be recovered by the server using so-called gradient inversion attacks. While these attacks perform well when applied on images, they are limited in the text domain and only permit approximate reconstruction of small batches and short input sequences. In this work, we propose DAGER, the first algorithm to recover whole batches of input text exactly. DAGER leverages the low-rank structure of self-attention layer gradients and the discrete nature of token embeddings to efficiently check if a given token sequence is part of the client data. We use this check to exactly recover full batches in the honest-but-curious setting without any prior on the data for both encoder- and decoder-based architectures using exhaustive heuristic search and a greedy approach, respectively. We provide an efficient GPU implementation of DAGER and show experimentally that it recovers full batches of size up to 128 on large language models (LLMs), beating prior attacks in speed (20x at same batch size), scalability (10x larger batches), and reconstruction quality (ROUGE-1/2 > 0.99).
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# リモートセンシングのための合成画像検索

Composed Image Retrieval for Remote Sensing ( http://arxiv.org/abs/2405.15587v1 )

ライセンス: Link先を確認
Bill Psomas, Ioannis Kakogeorgiou, Nikos Efthymiadis, Giorgos Tolias, Ondrej Chum, Yannis Avrithis, Konstantinos Karantzalos, (参考訳) この研究は、合成画像検索をリモートセンシングに導入する。 テキスト記述によって交互に画像例によって大きなイメージアーカイブをクエリすることが可能で、視覚的またはテキスト的なクエリよりも説明力を高めることができる。 様々な属性は、形状、色、文脈など、テキスト部分によって変更することができる。 イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。 視覚言語モデルは十分な記述力を有しており、学習ステップやトレーニングデータを必要としないことを実証する。 色, 文脈, 密度, 存在, 量, 形状変化に着目した新しい評価ベンチマークを提案する。 我々の研究は、このタスクの最先端を設定できるだけでなく、リモートセンシング画像検索の分野におけるギャップに対処するための基礎的なステップとしても機能する。 Code at: https://github.com/billpsomas/rscir

This work introduces composed image retrieval to remote sensing. It allows to query a large image archive by image examples alternated by a textual description, enriching the descriptive power over unimodal queries, either visual or textual. Various attributes can be modified by the textual part, such as shape, color, or context. A novel method fusing image-to-image and text-to-image similarity is introduced. We demonstrate that a vision-language model possesses sufficient descriptive power and no further learning step or training data are necessary. We present a new evaluation benchmark focused on color, context, density, existence, quantity, and shape modifications. Our work not only sets the state-of-the-art for this task, but also serves as a foundational step in addressing a gap in the field of remote sensing image retrieval. Code at: https://github.com/billpsomas/rscir
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# 連続的攻撃を伴うLDMの効率よい対人訓練

Efficient Adversarial Training in LLMs with Continuous Attacks ( http://arxiv.org/abs/2405.15589v1 )

ライセンス: Link先を確認
Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn, (参考訳) 大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。 多くのドメインにおいて、このような攻撃に対する堅牢性を確実に改善する最も有望な方法の1つとして、敵の訓練が証明されている。 しかし、LLMの文脈では、各訓練イテレーションで個別の対向攻撃を行うのに必要な計算コストが高いため、現在の対向訓練方法が妨げられている。 本研究では, LLM の連続埋め込み空間における敵攻撃を計算してこの問題に対処する。 本稿では,2つの損失から成る高速対人訓練アルゴリズム(C-AdvUL)を提案する。第1に,対人行動データセット上で計算された連続的な埋め込み攻撃に対してモデルを頑健にし,第2に,実用データによる微調整による最終モデルの有用性を保証する。 C-AdvIPO(C-AdvIPO)は、対向的ロバストなアライメントのためのユーティリティデータを必要としない、対向型のIPOである。 我々は,異なる家族(Gemma,Phi3,Mistral,Zephyr)と異なるスケール(2B,3.8B,7B)の4つのモデルに対する実験的な評価を行い,両アルゴリズムが実用性を維持しつつ,離散攻撃(GCG,AutoDAN,PAIR)に対してLLMロバスト性を大幅に向上させることを示した。 この結果から, 連続摂動に対する頑健性は, 離散的な脅威モデルに当てはまることを示した。 そこで我々は,LLMを堅牢に整列させるスケーラブルな対角訓練アルゴリズムを提案する。

Large language models (LLMs) are vulnerable to adversarial attacks that can bypass their safety guardrails. In many domains, adversarial training has proven to be one of the most promising methods to reliably improve robustness against such attacks. Yet, in the context of LLMs, current methods for adversarial training are hindered by the high computational costs required to perform discrete adversarial attacks at each training iteration. We address this problem by instead calculating adversarial attacks in the continuous embedding space of the LLM, which is orders of magnitudes more efficient. We propose a fast adversarial training algorithm (C-AdvUL) composed of two losses: the first makes the model robust on continuous embedding attacks computed on an adversarial behaviour dataset; the second ensures the usefulness of the final model by fine-tuning on utility data. Moreover, we introduce C-AdvIPO, an adversarial variant of IPO that does not require utility data for adversarially robust alignment. Our empirical evaluation on four models from different families (Gemma, Phi3, Mistral, Zephyr) and at different scales (2B, 3.8B, 7B) shows that both algorithms substantially enhance LLM robustness against discrete attacks (GCG, AutoDAN, PAIR), while maintaining utility. Our results demonstrate that robustness to continuous perturbations can extrapolate to discrete threat models. Thereby, we present a path toward scalable adversarial training algorithms for robustly aligning LLMs.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# 隣接ST-ADにおけるチェックポインティングスケジュールのプロファイリング

Profiling checkpointing schedules in adjoint ST-AD ( http://arxiv.org/abs/2405.15590v1 )

ライセンス: Link先を確認
Laurent Hascoët, Jean-Luc Bouchot, Shreyas Sunil Gaikwad, Sri Hari Krishna Narayanan, Jan Hückelheim, (参考訳) チェックポインティングは、隣接アルゴリズムの微分におけるデータフロー逆転の基盤である。 Checkpointingは、異なるレベルで適用可能なストレージ/再計算トレードオフであり、そのうちの1つはコールツリーである。 特定のアプリケーションのコールツリーにチェックポイントを配置して,実行時間とアジョイントのメモリフットプリントを削減する方法を模索しています。 この問題の最適解法は、すべての位置の組合せ探索以外には知られていない。 随伴コードの実行時プロファイリングに基づくヒューリスティックスを提案する。 本稿では,このプロファイリングツールの実装について述べる。 本稿は,MITgcm大洋および大気循環モデルから得られた試験事例に対する本手法の関心を示す。 我々は,我々のアプローチの限界について議論し,それらを持ち上げる方向を提案する。

Checkpointing is a cornerstone of data-flow reversal in adjoint algorithmic differentiation. Checkpointing is a storage/recomputation trade-off that can be applied at different levels, one of which being the call tree. We are looking for good placements of checkpoints onto the call tree of a given application, to reduce run time and memory footprint of its adjoint. There is no known optimal solution to this problem other than a combinatorial search on all placements. We propose a heuristics based on run-time profiling of the adjoint code. We describe implementation of this profiling tool in an existing source-transformation AD tool. We demonstrate the interest of this approach on test cases taken from the MITgcm ocean and atmospheric global circulation model. We discuss the limitations of our approach and propose directions to lift them.
翻訳日:2024-05-27 13:50:09 公開日:2024-05-24
# MicroAdam: 低スペースオーバーヘッドと予測収束による正確な適応最適化

MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence ( http://arxiv.org/abs/2405.15593v1 )

ライセンス: Link先を確認
Ionut-Vlad Modoranu, Mher Safaryan, Grigory Malinovsky, Eldar Kurtic, Thomas Robert, Peter Richtarik, Dan Alistarh, (参考訳) 我々は,Adam Optimizationr (Kingma and Ba, 2014) の新たな変種である MICROADAM を提案する。 これにより、最適化状態に投入する前に勾配情報を圧縮し、メモリフットプリントを大幅に削減する。 分散最適化(Seide et al , 2014 Alistarh et al , 2018, Karimireddy et al , 2019)から古典的エラーフィードバック機構の新たなインスタンスを用いて,結果の圧縮エラーを制御する。 提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。 具体的には,100万スケール(BERT)モデルと10億スケール(LLaMA)モデルの両方において,MICROADAMをGPU上で効率的に実装可能であることを示す。 私たちのコードはhttps://github.com/IST-DASLab/MicroAdam.comから入手可能です。

We propose a new variant of the Adam optimizer [Kingma and Ba, 2014] called MICROADAM that specifically minimizes memory overheads, while maintaining theoretical convergence guarantees. We achieve this by compressing the gradient information before it is fed into the optimizer state, thereby reducing its memory footprint significantly. We control the resulting compression error via a novel instance of the classical error feedback mechanism from distributed optimization [Seide et al., 2014, Alistarh et al., 2018, Karimireddy et al., 2019] in which the error correction information is itself compressed to allow for practical memory gains. We prove that the resulting approach maintains theoretical convergence guarantees competitive to those of AMSGrad, while providing good practical performance. Specifically, we show that MICROADAM can be implemented efficiently on GPUs: on both million-scale (BERT) and billion-scale (LLaMA) models, MicroAdam provides practical convergence competitive to that of the uncompressed Adam baseline, with lower memory usage and similar running time. Our code is available at https://github.com/IST-DASLab/MicroAdam.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# 経路に沿ってジャンプする多列状態の高速断熱処理

Fast adiabatic preparation of multi-squeezed states by jumping along the path ( http://arxiv.org/abs/2405.15595v1 )

ライセンス: Link先を確認
Chuan Chen, Jian-Yu Lu, Xu-Yang Chen, Zhen-Yu Wang, (参考訳) 一般化されたスクイーズ状態としても知られるマルチスケーズ状態は、大きな位相空間 Wigner Negativities のような古典的でない性質を特徴付けることができるため、ガウス的でない貴重な量子資源である。 そこで本研究では,マルチシーズ状態の高速な調製法として,アディバチティティ法(STA)の新たなショートカットを提案する。 従来のSTA法とは対照的に,不必要な非断熱効果を抑えるために反断熱制御を用いることで,その処理を単純化し,量子進化経路に沿って適切なサンプリングを選択することにより,状態生成を高速化する。 ボソニックモードとキュービット間のハイブリッド絡み合い状態と同様に,多列状態の高忠実かつ高速な調製を実演する。

Multi-squeezed states, also known as generalized squeezed states, are valuable quantum non-Gaussian resources, because they can feature non-classical properties such as large phase-space Wigner negativities. In this work, we introduce a novel shortcuts to adiabaticity (STA) method for the fast preparation of multi-squeezed states. In contrast to previous STA methods, which rely on the use of counterdiabatic control to suppress unwanted non-adiabatic effects, our method simplifies the process and accelerates state preparation by selecting an appropriate sampling along a quantum evolution path. We demonstrate the high-fidelity and fast preparation of multi-squeezed states, as well as hybrid entangled states between a bosonic mode and a qubit.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# 確率的事前情報統合によるマルチモーダル物体検出

Multimodal Object Detection via Probabilistic a priori Information Integration ( http://arxiv.org/abs/2405.15596v1 )

ライセンス: Link先を確認
Hafsa El Hafyani, Bastien Pasdeloup, Camille Yver, Pierre Romenteau, (参考訳) マルチモーダル物体検出はリモートセンシングにおいて有望であることを示す。 しかし、マルチモーダルデータはしばしば低品質の問題に遭遇し、モダリティは厳密な細胞間アライメントを欠き、異なるモダリティ間のミスマッチを引き起こす。 本稿では,対象対象物を含むモダリティが1つだけであり,他が重要な文脈情報を提供するマルチモーダルオブジェクト検出について検討する。 本稿では,文脈のバイナリ情報を確率マップに変換することでアライメント問題を解決することを提案する。 次に、DOTAデータセット上で広範囲な実験を行い、検証する早期融合アーキテクチャを提案する。

Multimodal object detection has shown promise in remote sensing. However, multimodal data frequently encounter the problem of low-quality, wherein the modalities lack strict cell-to-cell alignment, leading to mismatch between different modalities. In this paper, we investigate multimodal object detection where only one modality contains the target object and the others provide crucial contextual information. We propose to resolve the alignment problem by converting the contextual binary information into probability maps. We then propose an early fusion architecture that we validate with extensive experiments on the DOTA dataset.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# MCDFN:CNN,LSTM,GRUを統合した説明可能なマルチチャネルデータフュージョンネットワークモデルによるサプライチェーン需要予測

MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model Integrating CNN, LSTM, and GRU ( http://arxiv.org/abs/2405.15598v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Asef Shahriar, Md Al Amin, (参考訳) サプライチェーン管理の最適化には,正確な需要予測が不可欠だ。 伝統的な手法は季節変動や特別な出来事から複雑なパターンを捉えるのに失敗することが多い。 ディープラーニングの進歩にもかかわらず、解釈可能な予測モデルは依然として課題である。 これを解決するために,畳み込みニューラルネットワーク(CNN),長短期記憶ネットワーク(LSTM),GRU(Gated Recurrent Units)を統合するハイブリッドアーキテクチャであるMCDFNを導入し,時系列データから空間的・時間的特徴を抽出して予測性能を向上させる。 MSE(23.5738%)、RMSE(4.8553%)、MAE(3.9991%)、MAPE(20.1575%)である。 さらに、MCDFNの予測は実際の値と統計的に区別できず、5%のp値と10倍の統計ペアt-testで確認された。 解釈可能性を高めるために、ShapTimeやPermutation Feature Importanceのような説明可能なAI技術を適用します。 本研究は,需要予測手法を推進し,MCDFNをサプライチェーンシステムに統合するための実践的ガイドラインを提供する。

Accurate demand forecasting is crucial for optimizing supply chain management. Traditional methods often fail to capture complex patterns from seasonal variability and special events. Despite advancements in deep learning, interpretable forecasting models remain a challenge. To address this, we introduce the Multi-Channel Data Fusion Network (MCDFN), a hybrid architecture that integrates Convolutional Neural Networks (CNN), Long Short-Term Memory networks (LSTM), and Gated Recurrent Units (GRU) to enhance predictive performance by extracting spatial and temporal features from time series data. Our rigorous benchmarking demonstrates that MCDFN outperforms seven other deep-learning models, achieving superior metrics: MSE (23.5738%), RMSE (4.8553%), MAE (3.9991%), and MAPE (20.1575%). Additionally, MCDFN's predictions were statistically indistinguishable from actual values, confirmed by a paired t-test with a 5% p-value and a 10-fold cross-validated statistical paired t-test. We apply explainable AI techniques like ShapTime and Permutation Feature Importance to enhance interpretability. This research advances demand forecasting methodologies and offers practical guidelines for integrating MCDFN into supply chain systems, highlighting future research directions for scalability and user-friendly deployment.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# Replicable Learningの計算ランドスケープについて

On the Computational Landscape of Replicable Learning ( http://arxiv.org/abs/2405.15599v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Grigoris Velegkas, Felix Zhou, (参考訳) 我々は,Impagliazzo, Lei, Pitassi, Sorrell [2022] によって導入された安定性の概念であるアルゴリズムの複製性の計算的側面を研究する。 複製可能性とオンライン学習,私的学習,SQ学習などの学習可能性の概念との間に強い統計的関係を築き上げた最近の一連の研究によって,我々は,複製可能性とこれらの学習パラダイムとの計算的関係をよりよく理解することを目指している。 最初の結果は、PACを効率的に複製可能な概念クラスが存在することを示しているが、標準的な暗号的仮定の下では、このクラスには効率的なオンライン学習者が存在しないことを示している。 次に,Phigliazzoらによる質問に対して,限界分布が一様ではない場合に,PAC学習パリティのための効率的なレプリカブル学習器を設計する。 この結果を得るために,Branc,Lange,Malik,Tan[2023]にインスパイアされたレプリカブルリフトフレームワークを設計した。これは,Branc,Lange,Malik,Tan[2023]をベースとした,ブラックボックス方式の効率的なレプリカブルPAC学習者に対して,Booleanハイパーキューブ上の一様辺縁分布の下でのレプリカブルPAC学習者に対して,その分布の複雑性の一定の尺度に依存するサンプルと時間複雑性を用いて変換する。 最後に、任意の純粋DP学習者は、精度、信頼性パラメータ、指数関数を基礎となる仮説クラスの表現次元において複製可能な多項式に変換することができることを示す。

We study computational aspects of algorithmic replicability, a notion of stability introduced by Impagliazzo, Lei, Pitassi, and Sorrell [2022]. Motivated by a recent line of work that established strong statistical connections between replicability and other notions of learnability such as online learning, private learning, and SQ learning, we aim to understand better the computational connections between replicability and these learning paradigms. Our first result shows that there is a concept class that is efficiently replicably PAC learnable, but, under standard cryptographic assumptions, no efficient online learner exists for this class. Subsequently, we design an efficient replicable learner for PAC learning parities when the marginal distribution is far from uniform, making progress on a question posed by Impagliazzo et al. [2022]. To obtain this result, we design a replicable lifting framework inspired by Blanc, Lange, Malik, and Tan [2023] that transforms in a black-box manner efficient replicable PAC learners under the uniform marginal distribution over the Boolean hypercube to replicable PAC learners under any marginal distribution, with sample and time complexity that depends on a certain measure of the complexity of the distribution. Finally, we show that any pure DP learner can be transformed to a replicable one in time polynomial in the accuracy, confidence parameters and exponential in the representation dimension of the underlying hypothesis class.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# Kronecker-Factored Approximate Curvature for Physics-informed Neural Networks

Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.15603v1 )

ライセンス: Link先を確認
Felix Dangel, Johannes Müller, Marius Zeinhofer, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、訓練が難しいことで悪名高い。 近年,自然勾配法とガウス・ニュートン法に基づく2次法が有望な性能を示し,数桁の精度向上を実現している。 提案手法は有望だが,計算コストが高く,曲率行列の評価,保存,反転を行うため,数千のパラメータを持つネットワークにしか拡張できない。 PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。 我々のアプローチは、従来のディープラーニング問題に対して確立されたKFACを超えて、最適化に不可欠なPDEの微分演算子からのコントリビューションをキャプチャする。 このような損失に対してKFACを確立するために、テイラーモード自動微分を用いて微分演算子の計算グラフを共有重み付きフォワードネットワークとして記述する。 これにより、最近開発された重み付きネットワークの一般的な定式化により、KFACを適用することができる。 経験的に、我々のKFACベースのオプティマイザは、小さな問題に対して高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。

Physics-informed neural networks (PINNs) are infamous for being hard to train. Recently, second-order methods based on natural gradient and Gauss-Newton methods have shown promising performance, improving the accuracy achieved by first-order methods by several orders of magnitude. While promising, the proposed methods only scale to networks with a few thousand parameters due to the high computational cost to evaluate, store, and invert the curvature matrix. We propose Kronecker-factored approximate curvature (KFAC) for PINN losses that greatly reduces the computational cost and allows scaling to much larger networks. Our approach goes beyond the established KFAC for traditional deep learning problems as it captures contributions from a PDE's differential operator that are crucial for optimization. To establish KFAC for such losses, we use Taylor-mode automatic differentiation to describe the differential operator's computation graph as a forward network with shared weights. This allows us to apply KFAC thanks to a recently-developed general formulation for networks with weight sharing. Empirically, we find that our KFAC-based optimizers are competitive with expensive second-order methods on small problems, scale more favorably to higher-dimensional neural networks and PDEs, and consistently outperform first-order methods and LBFGS.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# テキスト生成:課題・評価・課題の体系的文献レビュー

Text Generation: A Systematic Literature Review of Tasks, Evaluation, and Challenges ( http://arxiv.org/abs/2405.15604v1 )

ライセンス: Link先を確認
Jonas Becker, Jan Philip Wahle, Bela Gipp, Terry Ruas, (参考訳) テキスト生成はこれまでになくアクセスしやすくなり、特に大きな言語モデルを用いたシステムへの関心が高まり、関連出版物が増えている。 本稿は,2017年から2024年にかけて244件の論文からなる体系的な文献レビューを行う。 このレビューでは、テキスト生成における作業は、オープンエンドテキスト生成、要約、翻訳、パラフレーズ化、質問応答の5つの主要なタスクに分類する。 各タスクについて、関連する特徴、サブタスク、および特定の課題(例えば、多文書要約のためのデータセットの欠如、ストーリー生成におけるコヒーレンス、質問応答のための複雑な推論)についてレビューする。 さらに、テキスト生成システムの評価と、現在のメトリクスの問題点の確認のための現在のアプローチを評価する。 私たちの調査によると、最近のテキスト生成出版物では、バイアス、推論、幻覚、誤用、プライバシー、解釈可能性、透明性、データセット、コンピューティングという、タスクやサブタスクに共通する9つの顕著な課題が示されています。 われわれはこれらの課題とその潜在的な解決策を詳細に分析し、そのギャップはコミュニティのさらなる関与を必要としている。 この体系的な文献レビューは、自然言語処理の初期の研究者が分野の概要を探究し、研究の方向性を期待する、経験豊富な研究者がタスク、評価方法論、オープンチャレンジ、最近の緩和戦略の詳細なビューを求める、という2つの主要なオーディエンスをターゲットにしている。

Text generation has become more accessible than ever, and the increasing interest in these systems, especially those using large language models, has spurred an increasing number of related publications. We provide a systematic literature review comprising 244 selected papers between 2017 and 2024. This review categorizes works in text generation into five main tasks: open-ended text generation, summarization, translation, paraphrasing, and question answering. For each task, we review their relevant characteristics, sub-tasks, and specific challenges (e.g., missing datasets for multi-document summarization, coherence in story generation, and complex reasoning for question answering). Additionally, we assess current approaches for evaluating text generation systems and ascertain problems with current metrics. Our investigation shows nine prominent challenges common to all tasks and sub-tasks in recent text generation publications: bias, reasoning, hallucinations, misuse, privacy, interpretability, transparency, datasets, and computing. We provide a detailed analysis of these challenges, their potential solutions, and which gaps still require further engagement from the community. This systematic literature review targets two main audiences: early career researchers in natural language processing looking for an overview of the field and promising research directions, as well as experienced researchers seeking a detailed view of tasks, evaluation methodologies, open challenges, and recent mitigation strategies.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# Fast-PGM:高速確率的グラフィカルモデル学習と推論

Fast-PGM: Fast Probabilistic Graphical Model Learning and Inference ( http://arxiv.org/abs/2405.15605v1 )

ライセンス: Link先を確認
Jiantong Jiang, Zeyi Wen, Peiyu Yang, Atif Mansoor, Ajmal Mian, (参考訳) 確率的グラフィカルモデル(PGM)は、不確実性のある複雑なシステムをモデル化し、データから貴重な洞察を抽出するための強力なフレームワークとして機能する。 しかし、ユーザーは効率とユーザビリティの観点から、PGMを問題に適用する際の課題に直面している。 本稿では,PGM学習と推論のための効率的かつオープンソースのライブラリであるFast-PGMについて述べる。 Fast-PGMは、構造とパラメータ学習を含むPGMの包括的なタスクをサポートし、正確で近似的な推論をサポートし、計算とメモリの最適化と並列化技術を通じてタスクの効率を向上させる。 同時に、Fast-PGMはフレキシブルなビルディングブロックを開発者に提供し、学習者に詳細なドキュメンテーションを提供し、エキスパートでないユーザフレンドリーなインターフェースを提供する。 Fast-PGMのソースコードはhttps://github.com/jjiantong/FastPGMで公開されている。

Probabilistic graphical models (PGMs) serve as a powerful framework for modeling complex systems with uncertainty and extracting valuable insights from data. However, users face challenges when applying PGMs to their problems in terms of efficiency and usability. This paper presents Fast-PGM, an efficient and open-source library for PGM learning and inference. Fast-PGM supports comprehensive tasks on PGMs, including structure and parameter learning, as well as exact and approximate inference, and enhances efficiency of the tasks through computational and memory optimizations and parallelization techniques. Concurrently, Fast-PGM furnishes developers with flexible building blocks, furnishes learners with detailed documentation, and affords non-experts user-friendly interfaces, thereby ameliorating the usability of PGMs to users across a spectrum of expertise levels. The source code of Fast-PGM is available at https://github.com/jjiantong/FastPGM.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# 最適量子制御における指数的スケーリングの回避法

A way around the exponential scaling in optimal quantum control ( http://arxiv.org/abs/2405.15609v1 )

ライセンス: Link先を確認
Modesto Orozco-Ruiz, Nguyen H. Le, Florian Mintert, (参考訳) 量子不変量と最適制御の分野からのアイデアを組み合わせることで、量子状態に明示的に言及することなく量子系の量子制御を設計できることを示す。 結果のアプローチの数値的な取り組みのスケーリングは、系の作用素の可換関係によって与えられるものであり、ヒルベルト空間の一般的な量子力学的指数スケーリングにも拘わらず、サブシステムの数で多項式となることができる。 明示的な応用として、最大50個の成分からなるスピン鎖との3体および多体相互作用を含むハミルトニアンの状態準備と量子シミュレーション、および位相的に保護された量子情報処理への利用の観点について論じる。

We show that combining ideas from the fields of quantum invariants and of optimal control can be used to design quantum control of quantum systems without explicit reference to quantum states. The scaling in numerical effort of the resultant approach is given by commutation relations of system operators, and it can be polynomial in the number of subsystems despite the general quantum mechanical exponential scaling of the Hilbert space. As explicit applications, we discuss state preparation and quantum simulation with Hamiltonians including three-body and many-body interactions with spin chains of up to 50 constituents, and the perspective of use for topologically protected quantum information processing.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# 二重対向2次PT対称性

Dual opposing quadrature-PT symmetry ( http://arxiv.org/abs/2405.15612v1 )

ライセンス: Link先を確認
Wencong Wang, Jacob Kokinda, Jiazhen Li, Qing Gu, Dongmei Liu, Jianming Wen, (参考訳) I型二次パリティ時間(PT)対称性に関する最近の研究は、位相感度増幅(PSA)とランゲヴィンノイズの存在による真の量子フォトニックPT対称性の観測を可能にするだけでなく、二次および相対強度ノイズ変動における古典的量子-量子遷移(C2Q)も明らかにしている。 以前の設定とは対照的に、損失がないと仮定した代替システムの探索には、タイプIIのPSAのみのスキームが伴う。 このスキームは、C2Q遷移の包括的かつ相補的な理解と反ハーミティティー強化量子センシングを提供する、二重対向2次PT対称性を促進する。 さらに、アインシュタイン・ポドルスキー・ローゼンの基準と相関関係を調べたところ、PT対称性と非古典性の間の未解明のつながりが明らかとなり、連続変数の枠組みにおける量子的絡み合いも明らかになった。

Our recent research on type-I quadrature parity-time (PT) symmetry, utilizing an open twin-beam system, not only enables observing genuine quantum photonic PT symmetry amid phase-sensitive amplification (PSA) and loss in the presence of Langevin noise but also reveals additional classical-to-quantum (C2Q) transitions in quadrature and relative-intensity noise fluctuations. In contrast to the previous setup, our exploration of an alternative system assuming no loss involves a type-II PSA-only scheme. This scheme facilitates dual opposing quadrature PT symmetry, offering a comprehensive and complementary comprehension of C2Q transitions and anti-Hermiticity-enhanced quantum sensing. Furthermore, our investigation into the correlation with the Einstein-Podolsky-Rosen criteria uncovers previously unexplored connections between PT symmetry and nonclassicality, as well as quantum entanglement within the continuous-variable framework.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# 自己教師付き学習のための自動データキュレーション:クラスタリングに基づくアプローチ

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach ( http://arxiv.org/abs/2405.15613v1 )

ライセンス: Link先を確認
Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski, (参考訳) 自己管理機能は、現代の機械学習システムの基盤となっている。 これらは典型的には、構築とキュレーションが広範囲な人的努力を必要とするデータ収集に基づいて事前訓練される。 この手動のプロセスは、教師付き学習で遭遇したいくつかの制限、例えば、クラウドソースによるデータの選択はコストと時間を要するため、データセットサイズをスケールすることができない。 本研究では,自己教師付き事前学習のための高品質データセットの自動キュレーションの問題について考察する。 このようなデータセットは大規模で多様性があり、バランスをとるべきであると仮定し、これらの基準を満たすデータセットを構築するためのクラスタリングベースのアプローチを提案する。 本手法は,大規模かつ多種多様なデータリポジトリ上に$k$-meansを連続的かつ階層的に適用して,データ概念間で均一に分散するクラスタを取得し,次いでこれらのクラスタから階層的でバランスの取れたサンプリングステップを行う。 ウェブベースの画像、衛星画像、テキストを含む3つの異なるデータ領域に関する大規模な実験では、自動キュレートされたデータセットでトレーニングされた機能は、手作業によるキュレートされたデータでトレーニングされたデータよりも、未処理のデータでトレーニングされたデータでトレーニングされたデータよりも優れています。

Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of $k$-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# ソフトウェア脆弱性検出のための大規模言語モデルのハーネス:包括的なベンチマーク研究

Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study ( http://arxiv.org/abs/2405.15614v1 )

ライセンス: Link先を確認
Karl Tamberg, Hayretdin Bahsi, (参考訳) 脆弱性を検出するためにさまざまなアプローチが採用されているが、報告された脆弱性の数は、ここ数年で上昇傾向を示している。 これは、コードがリリースされる前に問題が発生しないことを示唆している。認識の欠如、既存の脆弱性検出ツールの有効性の制限、ユーザフレンドリでないツールなど、多くの要因によって引き起こされる可能性がある。 従来の脆弱性検出ツールで問題に対処するために,ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。 LLMはコードを理解して生成する素晴らしい能力を示しており、コード関連のタスクにおけるその可能性を明らかにしている。 目的は、複数の最先端のLCMをテストし、最高のプロンプト戦略を特定し、LCMから最高の値を取り出すことである。 LLMに基づく手法の長所と短所を概観し、従来の静的解析ツールと比較する。 LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。 その結果は、コードが脆弱性のないことを保証するソフトウェア開発者やセキュリティアナリストの利益になるはずだ。

Despite various approaches being employed to detect vulnerabilities, the number of reported vulnerabilities shows an upward trend over the years. This suggests the problems are not caught before the code is released, which could be caused by many factors, like lack of awareness, limited efficacy of the existing vulnerability detection tools or the tools not being user-friendly. To help combat some issues with traditional vulnerability detection tools, we propose using large language models (LLMs) to assist in finding vulnerabilities in source code. LLMs have shown a remarkable ability to understand and generate code, underlining their potential in code-related tasks. The aim is to test multiple state-of-the-art LLMs and identify the best prompting strategies, allowing extraction of the best value from the LLMs. We provide an overview of the strengths and weaknesses of the LLM-based approach and compare the results to those of traditional static analysis tools. We find that LLMs can pinpoint many more issues than traditional static analysis tools, outperforming traditional tools in terms of recall and F1 scores. The results should benefit software developers and security analysts responsible for ensuring that the code is free of vulnerabilities.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# ニューロモルフィックドリーミング : 人工エージェントの効率的な学習への道のり

Neuromorphic dreaming: A pathway to efficient learning in artificial agents ( http://arxiv.org/abs/2405.15616v1 )

ライセンス: Link先を確認
Ingo Blakowski, Dmitrii Zendrikov, Cristiano Capone, Giacomo Indiveri, (参考訳) 学習におけるエネルギー効率を達成することは、人工知能(AI)コンピューティングプラットフォームにとって重要な課題である。 生物学的システムは、複雑なスキルを迅速かつ効率的に学習する驚くべき能力を示す。 そこで本研究では,混合信号アナログ/デジタルニューロモルフィックハードウェア上でのスパイキングニューラルネットワーク(SNN)を用いたモデルベース強化学習(MBRL)のハードウェア実装を提案する。 このアプローチは、混合信号ニューロモルフィックチップのエネルギー効率を生かし、オンライン学習("wake" 相)とオフライン学習("dreaming" 相)を交互に行い、高いサンプル効率を達成する。 提案するモデルには,実体験と模擬体験を組み合わせることによって学習するエージェントネットワークと,シミュレーション体験を生成する学習されたワールドモデルネットワークの2つの共生ネットワークが含まれる。 我々は、ハードウェア実装をトレーニングして、AtariゲームPongをプレイすることで、モデルを検証する。 まず,世界モデルのないエージェントネットワーク学習と,ゲームプレイの学習に成功する夢から始める。 夢を取り入れることで、ベースラインに比べて要求されるリアルゲーム体験の数は大幅に減少する。 ネットワークは混合信号ニューロモルフィックプロセッサを使用して実装され、読み出し層はコンピュータでトレーニングされ、他の層は固定されている。 これらの結果は,実世界の応用とユースケースにおいて,迅速な学習が可能なエネルギー効率の高いニューロモルフィック学習システムへの道を開いた。

Achieving energy efficiency in learning is a key challenge for artificial intelligence (AI) computing platforms. Biological systems demonstrate remarkable abilities to learn complex skills quickly and efficiently. Inspired by this, we present a hardware implementation of model-based reinforcement learning (MBRL) using spiking neural networks (SNNs) on mixed-signal analog/digital neuromorphic hardware. This approach leverages the energy efficiency of mixed-signal neuromorphic chips while achieving high sample efficiency through an alternation of online learning, referred to as the "awake" phase, and offline learning, known as the "dreaming" phase. The model proposed includes two symbiotic networks: an agent network that learns by combining real and simulated experiences, and a learned world model network that generates the simulated experiences. We validate the model by training the hardware implementation to play the Atari game Pong. We start from a baseline consisting of an agent network learning without a world model and dreaming, which successfully learns to play the game. By incorporating dreaming, the number of required real game experiences are reduced significantly compared to the baseline. The networks are implemented using a mixed-signal neuromorphic processor, with the readout layers trained using a computer in-the-loop, while the other layers remain fixed. These results pave the way toward energy-efficient neuromorphic learning systems capable of rapid learning in real world applications and use-cases.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# MLPは文脈を学ぶ

MLPs Learn In-Context ( http://arxiv.org/abs/2405.15618v1 )

ライセンス: Link先を確認
William L. Tong, Cengiz Pehlevan, (参考訳) In-context Learning (ICL) は、入力例のみからタスクを解く驚くべき能力であり、一般的にトランスフォーマーモデルのユニークな特徴であると考えられている。 本研究では,多層パーセプトロン(MLP)がコンテキスト内で学習可能であることを示す。 さらに,MLP と近縁な MLP-Mixer モデルは,同じ計算予算を与えられた Transformer と競合的に学習できることが判明した。 さらに,リレーショナル推論をテストするために設計された ICL タスクのサブセットにおいて,MPP が Transformer より優れていることを示す。 これらの結果は、文脈内学習はトランスフォーマー専用ではないことを示唆し、注意に基づくアーキテクチャを超えてこの現象を探求する可能性を強調している。 さらに、リレーショナルタスクにおけるMLPの驚くべき成功は、単純なコネクショナリストモデルに関する前提に挑戦する。 いずれにせよ,我々の結果は,‘非帰納的バイアスがよい’という広範な傾向を支持し,タスク固有のアーキテクチャに対するMLP代替案への関心の高まりに寄与している。

In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, has commonly been assumed to be a unique hallmark of Transformer models. In this study, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, we find that MLPs, and the closely related MLP-Mixer models, learn in-context competitively with Transformers given the same compute budget. We further show that MLPs outperform Transformers on a subset of ICL tasks designed to test relational reasoning. These results suggest that in-context learning is not exclusive to Transformers and highlight the potential of exploring this phenomenon beyond attention-based architectures. In addition, MLPs' surprising success on relational tasks challenges prior assumptions about simple connectionist models. Altogether, our results endorse the broad trend that ``less inductive bias is better" and contribute to the growing interest in all-MLP alternatives to task-specific architectures.
翻訳日:2024-05-27 13:40:24 公開日:2024-05-24
# DiffCalib:拡散型デンスインシデントマップ生成による単眼カメラ校正の改革

DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation ( http://arxiv.org/abs/2405.15619v1 )

ライセンス: Link先を確認
Xiankang He, Guangkai Xu, Bo Zhang, Hao Chen, Ying Cui, Dongyan Guo, (参考訳) モノクロカメラキャリブレーションは、多くの3D視覚アプリケーションにとって重要な前提条件である。 かなりの進歩にもかかわらず、既存の手法は特定の仮定にヒンジし、様々な現実世界のシナリオにまたがる一般化に苦慮することが多く、その性能は不十分なトレーニングデータによって制限される。 近年,多様な高品質な画像を生成する能力を維持するために,拡張データセットで訓練された拡散モデルが確認されている。 この成功は、様々な視覚情報を効果的に理解するモデルの強い可能性を示唆している。 本研究では、事前学習した拡散モデルに埋め込まれた包括的視覚知識を活用し、より堅牢で正確な単眼カメラ固有の推定を可能にする。 具体的には、高密度入射マップ生成タスクとして、カメラ固有のパラメータの4自由度(4-DoF)を推定する問題を再構成する。 地図はRGB画像の各ピクセルの入射角を詳述し、そのフォーマットは拡散モデルのパラダイムとよく一致している。 カメラ固有の特徴は、推論中に単純な非学習型RANSACアルゴリズムでインシデントマップから導き出すことができる。 さらに,さらなる性能向上のために,入射マップ推定のための余分な幾何学的情報を提供するために,深度マップを共同で推定する。 複数のテストデータセットに対する大規模な実験により、我々のモデルは最先端のパフォーマンスを達成し、予測エラーを最大40%削減することを示した。 さらに,この実験により,パイプラインで推定したカメラ固有の深度マップと深度マップは,一本の線内画像から3次元再構成を行うなど,実用的な応用に大いに有用であることが確認された。

Monocular camera calibration is a key precondition for numerous 3D vision applications. Despite considerable advancements, existing methods often hinge on specific assumptions and struggle to generalize across varied real-world scenarios, and the performance is limited by insufficient training data. Recently, diffusion models trained on expansive datasets have been confirmed to maintain the capability to generate diverse, high-quality images. This success suggests a strong potential of the models to effectively understand varied visual information. In this work, we leverage the comprehensive visual knowledge embedded in pre-trained diffusion models to enable more robust and accurate monocular camera intrinsic estimation. Specifically, we reformulate the problem of estimating the four degrees of freedom (4-DoF) of camera intrinsic parameters as a dense incident map generation task. The map details the angle of incidence for each pixel in the RGB image, and its format aligns well with the paradigm of diffusion models. The camera intrinsic then can be derived from the incident map with a simple non-learning RANSAC algorithm during inference. Moreover, to further enhance the performance, we jointly estimate a depth map to provide extra geometric information for the incident map estimation. Extensive experiments on multiple testing datasets demonstrate that our model achieves state-of-the-art performance, gaining up to a 40% reduction in prediction errors. Besides, the experiments also show that the precise camera intrinsic and depth maps estimated by our pipeline can greatly benefit practical applications such as 3D reconstruction from a single in-the-wild image.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# LAM3D:単一画像からの3次元再構成のための大規模画像ポイントクラウドアライメントモデル

LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image ( http://arxiv.org/abs/2405.15622v1 )

ライセンス: Link先を確認
Ruikai Cui, Xibin Song, Weixuan Sun, Senbo Wang, Weizhe Liu, Shenzhou Chen, Taizhang Shang, Yang Li, Nick Barnes, Hongdong Li, Pan Ji, (参考訳) 大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。 彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。 本研究では、3Dポイントクラウドデータを用いて生成された3Dメッシュの忠実度を高める新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を紹介する。 提案手法は,高精度で有意義な三面体を効果的に生成するポイントクラウドネットワークの開発から始まり,正確な3次元メッシュ再構築の基盤となる。 これに基づいて、画像-点-クラウド特徴アライメント技術は、1つの入力イメージを処理し、潜在する3次元平面と、頑健な3次元情報を持つ入出力画像特徴とを整合させる。 このプロセスは画像の特徴を豊かにするだけでなく、多視点入力を必要とせずに高忠実度3Dメッシュの作成を容易にし、幾何歪みを著しく低減する。 提案手法は,1枚の画像からわずか6秒で,最先端の高忠実度3Dメッシュ再構成を実現する。

Large Reconstruction Models have made significant strides in the realm of automated 3D content generation from single or multiple input images. Despite their success, these models often produce 3D meshes with geometric inaccuracies, stemming from the inherent challenges of deducing 3D shapes solely from image data. In this work, we introduce a novel framework, the Large Image and Point Cloud Alignment Model (LAM3D), which utilizes 3D point cloud data to enhance the fidelity of generated 3D meshes. Our methodology begins with the development of a point-cloud-based network that effectively generates precise and meaningful latent tri-planes, laying the groundwork for accurate 3D mesh reconstruction. Building upon this, our Image-Point-Cloud Feature Alignment technique processes a single input image, aligning to the latent tri-planes to imbue image features with robust 3D information. This process not only enriches the image features but also facilitates the production of high-fidelity 3D meshes without the need for multi-view input, significantly reducing geometric distortions. Our approach achieves state-of-the-art high-fidelity 3D mesh reconstruction from a single image in just 6 seconds, and experiments on various datasets demonstrate its effectiveness.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# 逆リライメント: LLMアライメントの実証から得られた逆強化学習

Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment ( http://arxiv.org/abs/2405.15624v1 )

ライセンス: Link先を確認
Hao Sun, Mihaela van der Schaar, (参考訳) 大規模言語モデル(LLM)の調整は,安全性と実用性の向上に不可欠である。 しかし、従来の手法は主に好みのデータセットに基づいており、ノイズラベル、高いアノテーションコスト、プライバシー上の懸念といった課題に直面している。 本稿では,これらの課題を克服するために高品質な実証データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。 本研究では,AfDのための分散化最小化目標について,前向きおよび逆方向の強化学習からの洞察を導出する。 分析学的には, 様々なアプローチのマスカバーとモード探索の振る舞いを解明し, 特定の手法が優れている理由と理由を説明する。 そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。 私たちは、ハームレスおよびヘルプフルタスクの実験を通じて、重要な洞察を検証し、シンプルさを維持しながら、その強力な経験的パフォーマンスを示します。

Aligning Large Language Models (LLMs) is crucial for enhancing their safety and utility. However, existing methods, primarily based on preference datasets, face challenges such as noisy labels, high annotation costs, and privacy concerns. In this work, we introduce Alignment from Demonstrations (AfD), a novel approach leveraging high-quality demonstration data to overcome these challenges. We formalize AfD within a sequential decision-making framework, highlighting its unique challenge of missing reward signals. Drawing insights from forward and inverse reinforcement learning, we introduce divergence minimization objectives for AfD. Analytically, we elucidate the mass-covering and mode-seeking behaviors of various approaches, explaining when and why certain methods are superior. Practically, we propose a computationally efficient algorithm that extrapolates over a tailored reward model for AfD. We validate our key insights through experiments on the Harmless and Helpful tasks, demonstrating their strong empirical performance while maintaining simplicity.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# 構造分布の強化学習のための非線形 denoising score matching

Nonlinear denoising score matching for enhanced learning of structured distributions ( http://arxiv.org/abs/2405.15625v1 )

ライセンス: Link先を確認
Jeremiah Birrell, Markos A. Katsoulakis, Luc Rey-Bellet, Benjamin Zhang, Wei Zhu, (参考訳) 本稿では,非線形ノイズ発生ダイナミクスを用いて,構造分布の学習を改善するためのスコアベース生成モデルの学習手法を提案する。 非線形ドリフトに一般化することで、追加構造をダイナミックスに組み込むことができ、マルチモーダリティや(近似)対称性の場合には、トレーニングをよりデータに適応させることができる。 このような構造は、安価な前処理ステップでデータから得ることができる。 非線形力学は、トレーニングに新しい課題をもたらす。 1) 非線形 denoising score matching (NDSM) 法を開発した。 2)NDSM訓練目標のばらつきを軽減するため,神経制御のバラツキを導入する。 本手法の有効性をいくつかの例で示す。 a) 潜在空間におけるクラスタリングによって動機付けられた低次元例の集合 b) モード崩壊、小さなトレーニングセット、近似対称性に関する問題に対処する高次元画像。後者は、正確な対称性を必要とする同変ニューラルネットワークに基づく手法の課題である。

We present a novel method for training score-based generative models which uses nonlinear noising dynamics to improve learning of structured distributions. Generalizing to a nonlinear drift allows for additional structure to be incorporated into the dynamics, thus making the training better adapted to the data, e.g., in the case of multimodality or (approximate) symmetries. Such structure can be obtained from the data by an inexpensive preprocessing step. The nonlinear dynamics introduces new challenges into training which we address in two ways: 1) we develop a new nonlinear denoising score matching (NDSM) method, 2) we introduce neural control variates in order to reduce the variance of the NDSM training objective. We demonstrate the effectiveness of this method on several examples: a) a collection of low-dimensional examples, motivated by clustering in latent space, b) high-dimensional images, addressing issues with mode collapse, small training sets, and approximate symmetries, the latter being a challenge for methods based on equivariant neural networks, which require exact symmetries.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# GPTZoo:研究コミュニティのための大規模GPTデータセット

GPTZoo: A Large-scale Dataset of GPTs for the Research Community ( http://arxiv.org/abs/2405.15630v1 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Shenao Wang, Haoyu Wang, (参考訳) 大規模言語モデル(LLM)の急速な進歩は自然言語処理に革命をもたらし、GPT、カスタマイズされたChatGPTがGPTストアで利用可能となり、特定のドメインやタスクの顕著な技術として登場した。 GPTの学術研究を支援するため、730,420 GPTインスタンスからなる大規模データセットであるGPTZooを紹介した。 それぞれのインスタンスには、その特性を記述した21の属性と、開発中に使用される命令、ナレッジファイル、サードパーティサービスを含む豊富なメタデータが含まれている。 GPTZooは、GPTの実際の応用、性能、可能性を研究するために、研究者に包括的で手軽に利用可能なリソースを提供することを目的としている。 GPTの効率的な検索と解析を容易にするために,キーワードベースのデータセット検索をサポートするCLI (Automated Command-line Interface) を開発した。 オープンな研究とイノベーションを促進するため、GPTZooデータセットは継続的更新が行われます。

The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing, with GPTs, customized versions of ChatGPT available on the GPT Store, emerging as a prominent technology for specific domains and tasks. To support academic research on GPTs, we introduce GPTZoo, a large-scale dataset comprising 730,420 GPT instances. Each instance includes rich metadata with 21 attributes describing its characteristics, as well as instructions, knowledge files, and third-party services utilized during its development. GPTZoo aims to provide researchers with a comprehensive and readily available resource to study the real-world applications, performance, and potential of GPTs. To facilitate efficient retrieval and analysis of GPTs, we also developed an automated command-line interface (CLI) that supports keyword-based searching of the dataset. To promote open research and innovation, the GPTZoo dataset will undergo continuous updates, and we are granting researchers public access to GPTZoo and its associated tools.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# フェデレーテッド行動平面:フェデレーテッド学習における顧客行動の進化について

Federated Behavioural Planes: Explaining the Evolution of Client Behaviour in Federated Learning ( http://arxiv.org/abs/2405.15632v1 )

ライセンス: Link先を確認
Dario Fenoglio, Gabriele Dominici, Pietro Barbiero, Alberto Tonda, Martin Gjoreski, Marc Langheinrich, (参考訳) 分散ディープラーニング環境におけるプライバシを意識したアプローチであるフェデレーション学習(FL)は、多くのクライアントが機密データを共有せずにモデルを協調的にトレーニングすることで、プライバシのリスクを低減する。 しかし、FLシステムの人間による信頼とコントロールを可能にするには、クライアントの進化する振る舞いを理解する必要がある。 この課題に対処するために、FBP(Federated Behavioural Planes)を導入し、FLシステムのダイナミクスを分析し、視覚化し、説明し、クライアントが2つの異なるレンズ(予測性能(エラー行動空間)と意思決定プロセス(非現実行動空間)でどのように振る舞うかを示す。 実験により,FBPはクライアントの進化状態とそのグローバルモデルへの貢献を記述した情報的トラジェクトリを提供することで,クライアントのクラスタを類似した振る舞いで識別できることが実証された。 FBPによって同定されたパターンを活用することで、Federated Behavioural Shieldsと呼ばれる堅牢なアグリゲーション手法を提案し、悪意のあるクライアントモデルやノイズの多いクライアントモデルを検出し、セキュリティを向上し、既存の最先端FL防御メカニズムを克服する。

Federated Learning (FL), a privacy-aware approach in distributed deep learning environments, enables many clients to collaboratively train a model without sharing sensitive data, thereby reducing privacy risks. However, enabling human trust and control over FL systems requires understanding the evolving behaviour of clients, whether beneficial or detrimental for the training, which still represents a key challenge in the current literature. To address this challenge, we introduce Federated Behavioural Planes (FBPs), a novel method to analyse, visualise, and explain the dynamics of FL systems, showing how clients behave under two different lenses: predictive performance (error behavioural space) and decision-making processes (counterfactual behavioural space). Our experiments demonstrate that FBPs provide informative trajectories describing the evolving states of clients and their contributions to the global model, thereby enabling the identification of clusters of clients with similar behaviours. Leveraging the patterns identified by FBPs, we propose a robust aggregation technique named Federated Behavioural Shields to detect malicious or noisy client models, thereby enhancing security and surpassing the efficacy of existing state-of-the-art FL defense mechanisms.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# より少ないもの:効率的なマルチラベルクラスインクリメンタルラーニングのためのパッチトークンの要約

Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning ( http://arxiv.org/abs/2405.15633v1 )

ライセンス: Link先を確認
Thomas De Min, Massimiliano Mancini, Stéphane Lathuilière, Subhankar Roy, Elisa Ricci, (参考訳) プロンプトチューニングは、タスク固有のパラメータ(またはプロンプト)の小さなセットを学習し、事前訓練されたトランスフォーマーにタスク列で学習するように指示する、クラスインクリメンタルラーニング(CIL)の効果的なリハーサルフリー手法として登場した。 有効ではあるが、プロンプトチューニング手法は、複数のタスクに属する異なるフォアグラウンドオブジェクトに対応する正しいプロンプトを選択する際のあいまいさにより、マルチラベルクラスインクリメンタルラーニング(MLCIL)シナリオ(画像が複数のフォアグラウンドクラスを含む)ではうまく機能しない。 この問題を回避するために,タスク固有の経路を維持することで,他のタスクと相互作用しない表現を学習できるようにする,迅速な選択機構の排除を提案する。 真にインクリメンタルなシナリオにおける独立した経路は、即座にチューニングする2次複雑なマルチヘッド自己アテンション(MSA)操作による計算の爆発をもたらすため、要約されたトークンへのオリジナルのパッチトークンの埋め込みを減らすことを提案する。 プロンプトチューニングは、最後の表現を計算するために、これらの少ない要約トークンに適用される。 提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。 我々は、共通ベンチマークで実験を行い、MLCILにおける新しい最先端を実現することを実証する。 さらに、Multi-LANEはCIL設定でも競合していることを示す。 ソースコードはhttps://github.com/tdemin16/multi-laneで入手できる。

Prompt tuning has emerged as an effective rehearsal-free technique for class-incremental learning (CIL) that learns a tiny set of task-specific parameters (or prompts) to instruct a pre-trained transformer to learn on a sequence of tasks. Albeit effective, prompt tuning methods do not lend well in the multi-label class incremental learning (MLCIL) scenario (where an image contains multiple foreground classes) due to the ambiguity in selecting the correct prompt(s) corresponding to different foreground objects belonging to multiple tasks. To circumvent this issue we propose to eliminate the prompt selection mechanism by maintaining task-specific pathways, which allow us to learn representations that do not interact with the ones from the other tasks. Since independent pathways in truly incremental scenarios will result in an explosion of computation due to the quadratically complex multi-head self-attention (MSA) operation in prompt tuning, we propose to reduce the original patch token embeddings into summarized tokens. Prompt tuning is then applied to these fewer summarized tokens to compute the final representation. Our proposed method Multi-Label class incremental learning via summarising pAtch tokeN Embeddings (MULTI-LANE) enables learning disentangled task-specific representations in MLCIL while ensuring fast inference. We conduct experiments in common benchmarks and demonstrate that our MULTI-LANE achieves a new state-of-the-art in MLCIL. Additionally, we show that MULTI-LANE is also competitive in the CIL setting. Source code available at https://github.com/tdemin16/multi-lane
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# GANアクティベーションの可視化とペイント

Visualize and Paint GAN Activations ( http://arxiv.org/abs/2405.15636v1 )

ライセンス: Link先を確認
Rudolf Herdt, Peter Maass, (参考訳) これらのモデルの内部動作をよりよく理解し、無条件で訓練されたGANで構造を描くことを目的として、GANの生成した構造と、それらが隠れた層内での活性化とどのように相関するかを考察する。 これにより、生成された画像をより制御し、トレーニングデータにそのようなセグメンテーションを必要としないセグメンテーションマップからセグメンテーションを生成することができます。 この目的のために、タイル可能な特徴の概念を導入し、絵を描くのにうまく機能するアクティベーションを識別できるようにします。

We investigate how generated structures of GANs correlate with their activations in hidden layers, with the purpose of better understanding the inner workings of those models and being able to paint structures with unconditionally trained GANs. This gives us more control over the generated images, allowing to generate them from a semantic segmentation map while not requiring such a segmentation in the training data. To this end we introduce the concept of tileable features, allowing us to identify activations that work well for painting.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# ソフトウェアサステナビリティの道を開く

Clearing the Path for Software Sustainability ( http://arxiv.org/abs/2405.15637v1 )

ライセンス: Link先を確認
Jennifer Gross, Sofia Ouhbi, (参考訳) ソフトウェアサステナビリティの進歩は、重要な課題に遭遇し、これらの課題を理解することの必要性を強調し、ソフトウェアサステナビリティを向上するための効果的なソリューションの道を開く。 本稿では,第3次研究から得られた知見をもとに,文献における重要な課題を概説する。 ソフトウェア持続可能性の定義に関する混乱、ソフトウェア開発における持続可能性を考えるための不確実性、評価指標とツールの欠如、ソフトウェアシステムの持続可能性に関する狭い視点、認識と教育の欠如、実践における重大な考慮の欠如。 本論文は,効果的なソリューションを動機付けるソフトウェア持続可能性をめぐる混乱を明らかにすることを目的としている。 提案された推奨事項は、持続可能なソフトウェア開発を促進するためのより組織化されたアプローチを提供すること、包括的な戦略を強調すること、持続可能なソフトウェア開発の基本的な側面としての持続可能性の統合、実行可能な研究の方向性、持続可能なソフトウェアに対する共通の理解の育成である。

The advancement of software sustainability encounters notable challenges, underscoring the necessity for understanding these challenges to facilitate significant progress and pave the way for effective solutions to advance software sustainability. This paper outlines key challenges identified in literature based on findings from a tertiary study. Challenges identified include: confusion regarding the definition of software sustainability, uncertainty about when to consider sustainability in software development, lack of assessment metrics and tools, narrow perspectives on sustainability in software systems, insufficient awareness and education, and a lack of serious considerations in practice. The paper aims at clarifying the confusion surrounding software sustainability to motivate effective solutions. The provided recommendations aim to give a more organized approach towards advancing sustainable software development, emphasizing comprehensive strategies, the integration of sustainability as a fundamental aspect of software development, actionable research directions, and the cultivation of a common understanding of sustainable software.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# M4U:大規模マルチモーダルモデルの多言語理解と推論の評価

M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models ( http://arxiv.org/abs/2405.15638v1 )

ライセンス: Link先を確認
Hongyu Wang, Jiayu Xu, Senwei Xie, Ruiping Wang, Jialin Li, Zhaojie Xie, Bin Zhang, Chuyan Xiong, Xilin Chen, (参考訳) 多言語多モーダル推論は、人間レベルの知性を達成するための中核的な要素である。 しかし、既存の多言語マルチモーダル推論のベンチマークでは、様々な性能のモデル間の区別が困難であり、視覚能力のない言語モデルでさえ、高いスコアを容易に得ることができる。 このことは、主要な多言語マルチモーダルモデルの包括的評価をほとんど探索されていないまま残している。 本稿では,多分野多言語マルチモーダル理解と推論の能力を評価するための,新しい,挑戦的なベンチマークであるM4Uを紹介する。 M4Uは、中国語、英語、ドイツ語の科学、工学、医療の分野で64の分野をカバーする8,931のサンプルを含んでいる。 M4Uを用いて,LMM(Large Multimodal Models)とLLM(Large Language Models)を外部ツールで評価する。 その結果,最新技術モデルであるGPT-4oは,M4Uの平均精度は47.6%に過ぎなかった。 さらに,先行するLMMが言語嗜好に有意な影響を与えていることも確認した。 GPT-4oを含む先行LMMは、中国語で重要なテキスト情報を持つ画像など、言語横断的な多モーダルな質問を誘発することで、性能劣化を被ることを示す。 我々は,M4Uが多言語マルチモーダル推論能力に基づいてLMMを体系的に評価し,開発を監視する上で重要なツールであると考えている。 ホームページ、コード、データは公開されています。

Multilingual multimodal reasoning is a core component in achieving human-level intelligence. However, most existing benchmarks for multilingual multimodal reasoning struggle to differentiate between models of varying performance; even language models without visual capabilities can easily achieve high scores. This leaves a comprehensive evaluation of leading multilingual multimodal models largely unexplored. In this work, we introduce M4U, a novel and challenging benchmark for assessing the capability of multi-discipline multilingual multimodal understanding and reasoning. M4U contains 8,931 samples covering 64 disciplines across 16 subfields in Science, Engineering, and Healthcare in Chinese, English, and German. Using M4U, we conduct extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs) with external tools. The evaluation results show that the state-of-the-art model, GPT-4o, achieves only 47.6% average accuracy on M4U. Additionally, we observe that the leading LMMs exhibit significant language preferences. Our in-depth analysis indicates that leading LMMs, including GPT-4o, suffer performance degradation when prompted with cross-lingual multimodal questions, such as images with key textual information in Chinese while the question is in German. We believe that M4U can serve as a crucial tool for systematically evaluating LMMs based on their multilingual multimodal reasoning capabilities and monitoring their development. The homepage, codes and data are public available.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# GECKO: 英語、コード、韓国語のための生成言語モデル

GECKO: Generative Language Model for English, Code and Korean ( http://arxiv.org/abs/2405.15640v1 )

ライセンス: Link先を確認
Sungwoo Oh, Donggyu Kim, (参考訳) 韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。 GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。 このレポートでは、コーパスのためのより良いデータパイプラインを構築し、モデルをトレーニングするためのいくつかの取り組みの経験を共有します。 GECKOは、語彙が小さいにもかかわらず、韓国語と英語の両方でトークン世代において非常に効率的である。 韓国語, 英語, コードで代表的ベンチマークで評価し, KMMLU (Korean MMLU) では高い性能を示し, 英語とコードでは中程度の性能を示した。 GECKOは、パーミッシブライセンスの下で、オープンソースコミュニティで利用可能である。 我々の研究が韓国のLLM研究に基礎と実践的な洞察を与えてくれることを願っている。 モデルは以下の通り。 https://huggingface.co/kifai/GECKO-7B

We introduce GECKO, a bilingual large language model (LLM) optimized for Korean and English, along with programming languages. GECKO is pretrained on the balanced, high-quality corpus of Korean and English employing LLaMA architecture. In this report, we share the experiences of several efforts to build a better data pipeline for the corpus and to train our model. GECKO shows great efficiency in token generations for both Korean and English, despite its small size of vocabulary. We measure the performance on the representative benchmarks in terms of Korean, English and Code, and it exhibits great performance on KMMLU (Korean MMLU) and modest performance in English and Code, even with its smaller number of trained tokens compared to English-focused LLMs. GECKO is available to the open-source community under a permissive license. We hope our work offers a research baseline and practical insights for Korean LLM research. The model can be found at: https://huggingface.co/kifai/GECKO-7B
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# 確率予測器を用いた効果的な信頼領域予測

Effective Confidence Region Prediction Using Probability Forecasters ( http://arxiv.org/abs/2405.15642v1 )

ライセンス: Link先を確認
David Lindsay, Sian Lindsay, (参考訳) 信頼領域予測は、一般的に研究されているパターン認識問題に対する事実上有用な拡張である。 単一のラベルを予測する代わりに、制約は緩和され、望ましい信頼レベル1-デルタのラベルのサブセットを予測できる。 理想的には、有効領域予測は、(1)信頼度レベル1デルタの精度の高い予測領域は、少なくともデルタの相対周波数で、(2)できるだけ狭く(あるいは確実)なければならない。 本研究では,条件付き確率推定(確率予測)から信頼性領域予測を生成する手法を提案する。 我々は、この「変換」技術を用いて、15のマルチクラスデータセットでテストした場合に、標準機械学習アルゴリズムによって出力される確率予測から信頼領域予測を生成する。 実験の約44%は、K-Nearest Neighbourアルゴリズムが全データに対して一貫した性能を示す傾向にあり、精度の高い信頼領域予測を実証している。 本研究は, 医療診断における有効信頼領域予測の実用的メリットを示し, 真の疾患ラベルの取得を保証できるものである。

Confidence region prediction is a practically useful extension to the commonly studied pattern recognition problem. Instead of predicting a single label, the constraint is relaxed to allow prediction of a subset of labels given a desired confidence level 1-delta. Ideally, effective region predictions should be (1) well calibrated - predictive regions at confidence level 1-delta should err with relative frequency at most delta and (2) be as narrow (or certain) as possible. We present a simple technique to generate confidence region predictions from conditional probability estimates (probability forecasts). We use this 'conversion' technique to generate confidence region predictions from probability forecasts output by standard machine learning algorithms when tested on 15 multi-class datasets. Our results show that approximately 44% of experiments demonstrate well-calibrated confidence region predictions, with the K-Nearest Neighbour algorithm tending to perform consistently well across all data. Our results illustrate the practical benefits of effective confidence region prediction with respect to medical diagnostics, where guarantees of capturing the true disease label can be given.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# タスク依存スコア学習による線形逆問題における後方サンプリングコストの低減

Reducing the cost of posterior sampling in linear inverse problems via task-dependent score learning ( http://arxiv.org/abs/2405.15643v1 )

ライセンス: Link先を確認
Fabian Schneider, Duc-Lam Duong, Matti Lassas, Maarten V. de Hoop, Tapio Helin, (参考訳) スコアベース拡散モデル(SDM)は、様々なベイズ逆問題において、後方分布から標本を抽出するための柔軟なアプローチを提供する。 文献では、1つの後部サンプルを生成するために、前部マッピングの複数の評価を必要とする異なる方法により、前部スコアを用いて後部からのサンプリングを行う。 これらの方法は、条件のない事前スコアの直接使用を可能にする目的で設計され、従ってタスク非依存のトレーニングである。 本稿では, 医用画像などの新しい計測データに対して, 前向きマッピングの評価が計算コストが高く, 頻繁な後続サンプリングが必要な場合, 線形逆問題に焦点をあてる。 前方マッピングの評価は, 後部サンプル生成時に完全に回避可能であることを示す。 代わりに、エラーを導入することなく、特定の拡散様ランダムプロセスのスコアをトレーニングするオフラインタスクに移行することができる。 特に、トレーニングは前方マッピングに関する情報をタスク依存で要求するが、計測データには依存しない。 補助スコアから後部に対応する条件スコアを適切なアフィン変換により得られることを示す。 この観測が最近導入された無限次元拡散モデルの枠組みに一般化されることを証明し、その方法の数値解析を行う。 さらに, 数値実験により得られた知見を検証した。

Score-based diffusion models (SDMs) offer a flexible approach to sample from the posterior distribution in a variety of Bayesian inverse problems. In the literature, the prior score is utilized to sample from the posterior by different methods that require multiple evaluations of the forward mapping in order to generate a single posterior sample. These methods are often designed with the objective of enabling the direct use of the unconditional prior score and, therefore, task-independent training. In this paper, we focus on linear inverse problems, when evaluation of the forward mapping is computationally expensive and frequent posterior sampling is required for new measurement data, such as in medical imaging. We demonstrate that the evaluation of the forward mapping can be entirely bypassed during posterior sample generation. Instead, without introducing any error, the computational effort can be shifted to an offline task of training the score of a specific diffusion-like random process. In particular, the training is task-dependent requiring information about the forward mapping but not about the measurement data. It is shown that the conditional score corresponding to the posterior can be obtained from the auxiliary score by suitable affine transformations. We prove that this observation generalizes to the framework of infinite-dimensional diffusion models introduced recently and provide numerical analysis of the method. Moreover, we validate our findings with numerical experiments.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# コホート・パラレル・フェデレーションラーニングによる顧客参加のハーネス化

Harnessing Increased Client Participation with Cohort-Parallel Federated Learning ( http://arxiv.org/abs/2405.15644v1 )

ライセンス: Link先を確認
Akash Dhasade, Anne-Marie Kermarrec, Tuan-Anh Nguyen, Rafael Pires, Martijn de Vos, (参考訳) Federated Learning(FL)は、ノードがグローバルモデルを協調的にトレーニングする機械学習アプローチである。 FLのラウンドに参加するノードが増えるにつれて、ノードによる個々のモデル更新の有効性も低下する。 本研究では,ネットワークを小さなパーティション,あるいはコホートに分割することで,クライアント更新の有効性を高める。 コホート・パラレル・フェデレートラーニング (CPFL) は,コホートが独立にFLを用いてグローバルモデルを訓練し,コンバージェンスまで,コホートが生成するモデルをワンショット知識蒸留 (KD) とクロスドメイン・アンラベルデータセットを用いて統一する学習手法である。 CPFLの背後にある洞察は、より小さく孤立したネットワークは、すべてのノードが参加するワンネットワーク環境よりも早く収束するということである。 CIFAR-10 と FEMNIST の画像分類タスクにおける実測的トレースと非IIDデータ分布を含む徹底的な実験を通して,コホート数,モデル精度,トレーニング時間,計算・通信資源のバランスについて検討する。 従来のFLと比較して、CPFLは4つのコホート、非IIDデータ分布、CIFAR-10は1.9$\times$、リソース使用量の1.3$\times$、テスト精度は最小限である。

Federated Learning (FL) is a machine learning approach where nodes collaboratively train a global model. As more nodes participate in a round of FL, the effectiveness of individual model updates by nodes also diminishes. In this study, we increase the effectiveness of client updates by dividing the network into smaller partitions, or cohorts. We introduce Cohort-Parallel Federated Learning (CPFL): a novel learning approach where each cohort independently trains a global model using FL, until convergence, and the produced models by each cohort are then unified using one-shot Knowledge Distillation (KD) and a cross-domain, unlabeled dataset. The insight behind CPFL is that smaller, isolated networks converge quicker than in a one-network setting where all nodes participate. Through exhaustive experiments involving realistic traces and non-IID data distributions on the CIFAR-10 and FEMNIST image classification tasks, we investigate the balance between the number of cohorts, model accuracy, training time, and compute and communication resources. Compared to traditional FL, CPFL with four cohorts, non-IID data distribution, and CIFAR-10 yields a 1.9$\times$ reduction in train time and a 1.3$\times$ reduction in resource usage, with a minimal drop in test accuracy.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# $$\mathbf{L^2\cdot M = C^2}$$大言語モデル

$$\mathbf{L^2\cdot M = C^2}$$ Large Language Models as Covert Channels... a Systematic Analysis ( http://arxiv.org/abs/2405.15652v1 )

ライセンス: Link先を確認
Simen Gaure, Stefanos Koffas, Stjepan Picek, Sondre Rønjom, (参考訳) 大規模言語モデル(LLM)は、翻訳、予測、コンテンツ生成といった様々なタスクにおけるパフォーマンスのために、ここ数年で大きな人気を集めている。 同時に、研究コミュニティは、LSMは様々な攻撃を受けやすいが、多様なシステムのセキュリティも改善できることを示した。 しかし、よりセキュアなシステムを実現することに加えて、オープンソースLLMは、例えば検閲に抵抗する通信を促進するために、カバーテキストの配布としてどのように振る舞うのか? 本稿では,LLMをベースとしたオープンソースの被覆チャネルの能力について検討する。 我々は,オープンソースのLLMモデル (Llama-7B) のセキュリティ対キャパシティを実証的に測定して,実験的な側面からこの問題にアプローチする。 以上の結果から,メッセージ長やモデルエントロピーに依存するような,実用的なビットレートを達成できない可能性が示唆されているが,敵が隠蔽通信を検出する可能性も低いことが示唆された。 一般参照として最小限の努力で結果が利用できることを保証するため、概念的に単純かつ簡潔なスキームを採用し、公開モデルのみを仮定する。

Large Language Models (LLMs) have gained significant popularity in the last few years due to their performance in diverse tasks such as translation, prediction, or content generation. At the same time, the research community has shown that LLMs are susceptible to various attacks but can also improve the security of diverse systems. However, besides enabling more secure systems, how well do open source LLMs behave as covertext distributions to, e.g., facilitate censorship resistant communication? In this paper, we explore the capabilities of open-source LLM-based covert channels. We approach this problem from the experimental side by empirically measuring the security vs. capacity of the open-source LLM model (Llama-7B) to assess how well it performs as a covert channel. Although our results indicate that such channels are not likely to achieve high practical bitrates, which depend on message length and model entropy, we also show that the chance for an adversary to detect covert communication is low. To ensure that our results can be used with the least effort as a general reference, we employ a conceptually simple and concise scheme and only assume public models.
翻訳日:2024-05-27 13:30:40 公開日:2024-05-24
# HiddenSpeaker: 話者認証システムのための、認識不能な未学習オーディオの生成

HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System ( http://arxiv.org/abs/2405.15655v1 )

ライセンス: Link先を確認
Zhisheng Zhang, Pengyang Huang, (参考訳) 近年、ディープニューラルネットワークの顕著な進歩は、非常に便利なものになっている。 しかし、非常に効果的なモデルのトレーニングプロセスは、大量のサンプルを必要とするため、プライバシー漏洩による不正なエクスプロイトのような大きな潜在的な脅威をもたらす。 これに対し,HiddenSpeaker というフレームワークを提案する。このフレームワークは,学習用サンプルに知覚不能な摂動を埋め込んで,大規模話者を用いた効率的な訓練を行うディープラーニングベースの話者検証システムでは学習不可能である。 HiddenSpeakerは、Single-Level Error-Minimizing (SLEM)と呼ばれる単純なエラー最小化手法を使用して、特定かつ効果的な摂動を生成する。 さらに、人間の知覚的最適化にはハイブリッドな目的関数が使用され、人間の聴取者との摂動が区別できないことが保証される。 我々は、話者検証領域における複数の最先端(SOTA)モデルに関する広範な実験を行い、HiddenSpeakerを評価する。 以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の受容性を高め,異なるモデル間での強い伝達性を示す。

In recent years, the remarkable advancements in deep neural networks have brought tremendous convenience. However, the training process of a highly effective model necessitates a substantial quantity of samples, which brings huge potential threats, like unauthorized exploitation with privacy leakage. In response, we propose a framework named HiddenSpeaker, embedding imperceptible perturbations within the training speech samples and rendering them unlearnable for deep-learning-based speaker verification systems that employ large-scale speakers for efficient training. The HiddenSpeaker utilizes a simplified error-minimizing method named Single-Level Error-Minimizing (SLEM) to generate specific and effective perturbations. Additionally, a hybrid objective function is employed for human perceptual optimization, ensuring the perturbation is indistinguishable from human listeners. We conduct extensive experiments on multiple state-of-the-art (SOTA) models in the speaker verification domain to evaluate HiddenSpeaker. Our results demonstrate that HiddenSpeaker not only deceives the model with unlearnable samples but also enhances the imperceptibility of the perturbations, showcasing strong transferability across different models.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# HDC: 一般化参照式セグメント化のための数値アシスト付き階層的意味的デコーディング

HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation ( http://arxiv.org/abs/2405.15658v1 )

ライセンス: Link先を確認
Zhuoyan Luo, Yinghao Wu, Yong Liu, Yicheng Xiao, Xiao-Ping Zhang, Yujiu Yang, (参考訳) 新たに提案された Generalized Referring Expression Segmentation (GRES) は、複数の/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。 近年のアプローチでは、セグメント化やオブジェクト存在識別に直接利用される最後のモダリティ融合特徴の最適化に焦点が当てられている。 しかし、全粒度の情報を単一の関節表現に統合しようとする試みは、インスタンス間の空間的関係の複雑化や、偽文の記述のため、GRESでは現実的ではない。 さらに、その後の全ての参照シナリオにおけるバイナリターゲットの正当化は、固有の違いを特定することに失敗し、オブジェクト理解の曖昧さにつながります。 この弱点に対処するために、$\textbf{H}$ierarchical Semantic $\textbf{D}$ecoding with $\textbf{C}$ounting Assistance framework (HDC)を提案する。 階層的に相補的モダリティ情報を粒度間で伝達し、その後、多レベル復号のための各適切に整合した意味対応を集約する。 さらに,完全なセマンティック・コンテキスト・モデリングにより,複数の/単一/非ターゲット設定における包括的オブジェクト認識を容易にするために,HDCに明示的なカウント機能を付与する。 gRefCOCO, Ref-ZOM, R-RefCOCO, RefCOCOベンチマークの実験結果は, 最先端のGRES法よりも優れたHDCの有効性と合理性を示した。 コードは $\href{https://github.com/RobertLuo1/HDC}{here}$ で提供される。

The newly proposed Generalized Referring Expression Segmentation (GRES) amplifies the formulation of classic RES by involving multiple/non-target scenarios. Recent approaches focus on optimizing the last modality-fused feature which is directly utilized for segmentation and object-existence identification. However, the attempt to integrate all-grained information into a single joint representation is impractical in GRES due to the increased complexity of the spatial relationships among instances and deceptive text descriptions. Furthermore, the subsequent binary target justification across all referent scenarios fails to specify their inherent differences, leading to ambiguity in object understanding. To address the weakness, we propose a $\textbf{H}$ierarchical Semantic $\textbf{D}$ecoding with $\textbf{C}$ounting Assistance framework (HDC). It hierarchically transfers complementary modality information across granularities, and then aggregates each well-aligned semantic correspondence for multi-level decoding. Moreover, with complete semantic context modeling, we endow HDC with explicit counting capability to facilitate comprehensive object perception in multiple/single/non-target settings. Experimental results on gRefCOCO, Ref-ZOM, R-RefCOCO, and RefCOCO benchmarks demonstrate the effectiveness and rationality of HDC which outperforms the state-of-the-art GRES methods by a remarkable margin. Code will be available $\href{https://github.com/RobertLuo1/HDC}{here}$.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 空間的一貫性イルミネーションと反射分解による低照度映像の高精細化

Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition ( http://arxiv.org/abs/2405.15660v1 )

ライセンス: Link先を確認
Xiaogang Xu, Kun Zhou, Tao Hu, Ruixing Wang, Hujun Bao, (参考訳) 低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。 1つの重要な側面は、時間空間照明と外観向上バージョンに特化した一貫性の制約を定式化することである。 本稿では,照度と反射率を規定する明示的な監督を必要とせず,Retinexベースの分解戦略を提案する。 自然界の出現に動的クロスフレーム対応を活用し,照明領域におけるシーンレベルの連続性制約を適用し,良好な一貫した分解結果を得る。 さらに一貫した分解を確保するために、新しいクロスフレーム相互作用機構を備えた二重構造拡張ネットワークを導入する。 このメカニズムはエンコーダ・デコーダの単一フレームネットワークとシームレスに統合することができ、最小限のパラメータコストを発生させる。 異なるフレームを同時に監視することにより、このネットワークは、一致する分解特性を示すことを奨励し、所望の時間的伝搬を達成する。 LLVEベンチマークでは、さまざまなシナリオをカバーする大規模な実験が行われている。 我々のフレームワークは既存のメソッドを一貫して上回り、新しい最先端(SOTA)のパフォーマンスを確立します。

Low-Light Video Enhancement (LLVE) seeks to restore dynamic and static scenes plagued by severe invisibility and noise. One critical aspect is formulating a consistency constraint specifically for temporal-spatial illumination and appearance enhanced versions, a dimension overlooked in existing methods. In this paper, we present an innovative video Retinex-based decomposition strategy that operates without the need for explicit supervision to delineate illumination and reflectance components. We leverage dynamic cross-frame correspondences for intrinsic appearance and enforce a scene-level continuity constraint on the illumination field to yield satisfactory consistent decomposition results. To further ensure consistent decomposition, we introduce a dual-structure enhancement network featuring a novel cross-frame interaction mechanism. This mechanism can seamlessly integrate with encoder-decoder single-frame networks, incurring minimal additional parameter costs. By supervising different frames simultaneously, this network encourages them to exhibit matching decomposition features, thus achieving the desired temporal propagation. Extensive experiments are conducted on widely recognized LLVE benchmarks, covering diverse scenarios. Our framework consistently outperforms existing methods, establishing a new state-of-the-art (SOTA) performance.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 実測周波数(CoF)表を用いた画像分類器ショートカットの抽出

Exposing Image Classifier Shortcuts with Counterfactual Frequency (CoF) Tables ( http://arxiv.org/abs/2405.15661v1 )

ライセンス: Link先を確認
James Hinns, David Martens, (参考訳) 画像分類におけるディープラーニングの台頭は前例のない精度をもたらしたが、モデルによる「ショートカット」の使用という重要な問題も浮き彫りにした。 このようなショートカットは、新しいデータへの一般化に失敗するトレーニングデータから簡単に学習できるパターンである。 例えば、馬を認識するための著作権の透かし、ハスキーを認識するための雪の背景、悪性皮膚病変を検出するためのインクマーキングなどである。 説明可能なAI(XAI)コミュニティは、外部データなしでショートカットを検出するためにインスタンスレベルの説明を使用することを提案するが、このようなショートカットの存在を確認するには、多くの説明を検査する必要があるため、労働集約的なプロセスである。 これらの課題に対処するために、我々は、インスタンスベースの説明をグローバルな洞察に集約し、ショートカットを公開する新しいアプローチである、CoFテーブルを導入します。 このアグリゲーションは、画像のセグメントをラベル付けすることで解決する説明に使用されるセマンティックな概念の必要性を示唆している。 いくつかのデータセットにまたがるCoFテーブルの有用性を実証し、それらから学んだショートカットを明らかにする。

The rise of deep learning in image classification has brought unprecedented accuracy but also highlighted a key issue: the use of 'shortcuts' by models. Such shortcuts are easy-to-learn patterns from the training data that fail to generalise to new data. Examples include the use of a copyright watermark to recognise horses, snowy background to recognise huskies, or ink markings to detect malignant skin lesions. The explainable AI (XAI) community has suggested using instance-level explanations to detect shortcuts without external data, but this requires the examination of many explanations to confirm the presence of such shortcuts, making it a labour-intensive process. To address these challenges, we introduce Counterfactual Frequency (CoF) tables, a novel approach that aggregates instance-based explanations into global insights, and exposes shortcuts. The aggregation implies the need for some semantic concepts to be used in the explanations, which we solve by labelling the segments of an image. We demonstrate the utility of CoF tables across several datasets, revealing the shortcuts learned from them.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 概念推論とデータポジショニングによる複雑なデータに対するクラスマシンの学習

Class Machine Unlearning for Complex Data via Concepts Inference and Data Poisoning ( http://arxiv.org/abs/2405.15662v1 )

ライセンス: Link先を確認
Wenhan Chang, Tianqing Zhu, Heng Xu, Wenjian Liu, Wanlei Zhou, (参考訳) 現在のAI時代では、プライバシー上の懸念から、ユーザーはAI企業にトレーニングデータセットからデータを削除するよう要求することができる。 モデルオーナとして、モデルの再トレーニングは、重要な計算リソースを消費する。 したがって、機械学習は、モデル所有者が要求されたトレーニングデータやクラスをモデルのパフォーマンスにほとんど影響を与えずに削除できるようにする新しい技術である。 しかし、画像やテキストデータのような大規模で複雑なデータの場合、クラスをモデルから学習することは、クラスとモデルの間のリンクを特定するのが困難であるため、性能が劣る。 不正確なクラス削除は、過度または未学習に繋がる可能性がある。 本稿では、複雑なデータの未学習クラスを正確に定義するために、画像の特徴やテキストデータのトークンではなく概念の定義を適用し、未学習クラスの意味情報を表現する。 この新しい表現は、モデルとクラスの間のリンクを切断し、クラスの影響を完全に消去する。 複雑なデータの概念が与える影響を分析するために,ポストホックの概念ボトルネックモデルと統合グラディエントを採用し,異なるクラスにまたがる概念を正確に識別する。 次に、ランダムなラベルとターゲットラベルによるデータ中毒を利用して、未学習の手法を提案する。 本稿では,画像分類モデルと大規模言語モデル(LLM)の両モデルについて検討する。 その結果,提案手法はモデルからターゲット情報を正確に消去し,モデルの性能をほぼ維持できることがわかった。

In current AI era, users may request AI companies to delete their data from the training dataset due to the privacy concerns. As a model owner, retraining a model will consume significant computational resources. Therefore, machine unlearning is a new emerged technology to allow model owner to delete requested training data or a class with little affecting on the model performance. However, for large-scaling complex data, such as image or text data, unlearning a class from a model leads to a inferior performance due to the difficulty to identify the link between classes and model. An inaccurate class deleting may lead to over or under unlearning. In this paper, to accurately defining the unlearning class of complex data, we apply the definition of Concept, rather than an image feature or a token of text data, to represent the semantic information of unlearning class. This new representation can cut the link between the model and the class, leading to a complete erasing of the impact of a class. To analyze the impact of the concept of complex data, we adopt a Post-hoc Concept Bottleneck Model, and Integrated Gradients to precisely identify concepts across different classes. Next, we take advantage of data poisoning with random and targeted labels to propose unlearning methods. We test our methods on both image classification models and large language models (LLMs). The results consistently show that the proposed methods can accurately erase targeted information from models and can largely maintain the performance of the models.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# GroundGrid:LiDARポイントクラウドグラウンドセグメンテーションと地すべり推定

GroundGrid:LiDAR Point Cloud Ground Segmentation and Terrain Estimation ( http://arxiv.org/abs/2405.15664v1 )

ライセンス: Link先を確認
Nicolai Steinke, Daniel Göhring, Raùl Rojas, (参考訳) 正確なクラウドグラウンドセグメンテーションは、自動運転車におけるLiDARセンサーの事実上全ての知覚タスクの必須条件である。 特に、点雲からの物体のクラスタリングと抽出は、通常、正確な接地点の除去に依存している。 周辺の地形の正確な推定は、表面の乾燥性、経路計画、障害物予測といった面において重要である。 本稿では,2次元標高マップによる地形推定と点状雲地分断問題を解決するシステムであるGroundGridを提案する。 地上域のセグメンテーションと地形推定性能を評価し,セマンティックKITTIデータセットと航空機LiDARスキャンを用いた新しい評価手法を用いて,他の最先端手法と比較した。 この結果から、GroundGridは平均94.78%のIoUで他の最先端システムよりも高速で171Hzの性能を維持することができることがわかった。 ソースコードはhttps://github.com/dcmlr/groundgridで入手できる。

The precise point cloud ground segmentation is a crucial prerequisite of virtually all perception tasks for LiDAR sensors in autonomous vehicles. Especially the clustering and extraction of objects from a point cloud usually relies on an accurate removal of ground points. The correct estimation of the surrounding terrain is important for aspects of the drivability of a surface, path planning, and obstacle prediction. In this article, we propose our system GroundGrid which relies on 2D elevation maps to solve the terrain estimation and point cloud ground segmentation problems. We evaluate the ground segmentation and terrain estimation performance of GroundGrid and compare it to other state-of-the-art methods using the SemanticKITTI dataset and a novel evaluation method relying on airborne LiDAR scanning. The results show that GroundGrid is capable of outperforming other state-of-the-art systems with an average IoU of 94.78% while maintaining a high run-time performance of 171Hz. The source code is available at https://github.com/dcmlr/groundgrid
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# ソフトウェアチームにおけるオーナシップモデルの検討 - 体系的文献レビューとレプリケーションスタディ

Examining Ownership Models in Software Teams: A Systematic Literature Review and a Replication Study ( http://arxiv.org/abs/2405.15665v1 )

ライセンス: Link先を確認
Umme Ayman Koana, Quang Hy Le, Shadikur Rahman, Chris Carlson, Francis Chew, Maleknaz Nayebi, (参考訳) ソフトウェアアーティファクトの効果的なオーナシップ、特にコードは、説明責任、知識共有、コード品質の向上に不可欠です。 ソフトウェアアーティファクトのオーナシップと開発者のパフォーマンスとコード品質を結びつけるモデルが提案されている。 本研究の目的は,様々なオーナシップモデルを体系的に検討し,構造化された文献概要を提供することである。 2005年から2022年にかけて、系統的な文献レビューを行い、79の関連論文を同定した。 我々は,各研究で用いたモデル変数と分析型をコンパイルし,タイプ,所有者,所有権度に基づいて,所有権のアーティファクトの分類法を開発した。 さらに, 各研究の複製状況についても検討した。 その結果、文献で議論されている9つの異なるソフトウェアアーティファクトを特定し、「コード」が最も頻繁に分析されたアーティファクトとした。 3つの論文(3.79%)がコードとデータを提供しており、9つの論文(11.4%)がデータのみを提供していた。 文献の体系的なレビュー結果を用いて,9つの優先プロジェクトについて実験を再現した。 同社は、コード品質を他のチームのオーナシップ要因と比較することを目的として、彼らのデータを使用したレプリケーション調査を実施しました。 以前の研究とは異なり、小さなコントリビュータとバグ番号の間には、強い相関関係はありませんでした。 驚いたことに、以前の結果とは対照的に、ファイルを変更する開発者の総数とバグ数との間には、強い関連性はありませんでした。 しかし,従来の研究から分岐して,主要なコントリビュータとバグ数との間に有意な相関関係がみられた。

Effective ownership of software artifacts, particularly code, is crucial for accountability, knowledge sharing, and code quality enhancement. Researchers have proposed models linking ownership of software artifacts with developer performance and code quality. Our study aims to systematically examine various ownership models and provide a structured literature overview. Conducting a systematic literature review, we identified 79 relevant papers published between 2005 and 2022. We developed a taxonomy of ownership artifacts based on type, owners, and degree of ownership, along with compiling modeling variables and analytics types used in each study. Additionally, we assessed the replication status of each study. As a result, we identified nine distinct software artifacts whose ownership has been discussed in the literature, with "Code" being the most frequently analyzed artifact. We found that only three papers (3.79%) provided code and data, whereas nine papers (11.4%) provided only data. Using our systematic literature review results, we replicated experiments on nine priority projects at \texttt{Brightsquid}. The company aimed to compare its code quality against ownership factors in other teams, so we conducted a replication study using their data. Unlike prior studies, we found no strong correlation between minor contributors and bug numbers. Surprisingly, we found no strong link between the total number of developers modifying a file and bug counts, contrasting previous findings. However, we observed a significant correlation between major contributors and bug counts, diverging from earlier research.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 何が見えるか?マルチモーダル大言語モデルによるゼロショット画像分類の強化

What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models ( http://arxiv.org/abs/2405.15668v1 )

ライセンス: Link先を確認
Abdelrahman Abdelhamed, Mahmoud Afifi, Alec Go, (参考訳) 大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。 本稿では,マルチモーダルLLMを用いたゼロショット画像分類法を提案する。 マルチモーダル LLM を用いて,入力画像から包括的テキスト表現を生成する。 これらのテキスト表現を使用して、クロスモーダル埋め込み空間における固定次元特徴を生成する。 その後、これらの特徴を融合させて、線形分類器を用いてゼロショット分類を行う。 当社の手法では,データセット毎にプロンプトエンジニアリングを必要とせず,その代わりに,すべてのデータセットに対して単一の,直接的なプロンプトセットを使用する。 提案手法を複数のデータセットで評価し,その性能が複数のデータセットでベンチマーク精度を上回った。 平均10以上のベンチマークでは,従来の手法に比べて精度が4.1ポイント向上し,ImageNetデータセットでは6.8ポイント向上した。 本研究は、ゼロショット画像分類などのコンピュータビジョンタスクを強化するマルチモーダルLCMの可能性を強調し、従来の手法よりも大幅に改善されている。

Large language models (LLMs) has been effectively used for many computer vision tasks, including image classification. In this paper, we present a simple yet effective approach for zero-shot image classification using multimodal LLMs. By employing multimodal LLMs, we generate comprehensive textual representations from input images. These textual representations are then utilized to generate fixed-dimensional features in a cross-modal embedding space. Subsequently, these features are fused together to perform zero-shot classification using a linear classifier. Our method does not require prompt engineering for each dataset; instead, we use a single, straightforward, set of prompts across all datasets. We evaluated our method on several datasets, and our results demonstrate its remarkable effectiveness, surpassing benchmark accuracy on multiple datasets. On average over ten benchmarks, our method achieved an accuracy gain of 4.1 percentage points, with an increase of 6.8 percentage points on the ImageNet dataset, compared to prior methods. Our findings highlight the potential of multimodal LLMs to enhance computer vision tasks such as zero-shot image classification, offering a significant improvement over traditional methods.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 神経因果部分同定の一貫性

Consistency of Neural Causal Partial Identification ( http://arxiv.org/abs/2405.15673v1 )

ライセンス: Link先を確認
Jiyuan Tan, Jose Blanchet, Vasilis Syrgkanis, (参考訳) ニューラル因果モデル(NCM)の最近の進歩は、与えられた因果グラフ(Xia et al 2022, Balazadeh et al 2022]に符号化された制約を尊重するニューラル生成モデルのトレーニングを通じて、因果効果の同定と部分的同定が自動的に可能であることを示した。 しかし、これらの手法の形式的整合性は離散変数の場合や線形因果モデルの場合のみ証明されている。 本研究では,NCMによる部分的同定の整合性を証明する。 さらに,本研究の結果は,深度と接続性,およびトレーニングフェーズにおけるリプシッツ正則化の適用の重要性の観点から,基礎となるニューラルネットワークアーキテクチャの設計の影響を強調した。 特に、リプシッツ正則化がなければ、NCMは漸近的に一貫しないかもしれないことを示す反例を示す。 本結果は,ニューラルネットワークモデルによる構造因果モデルの近似性に関する新たな結果と,得られたアーキテクチャのサンプル複雑性の解析,および部分的識別境界を定義する制約付き最適化問題における誤差への変換方法によって実現された。

Recent progress in Neural Causal Models (NCMs) showcased how identification and partial identification of causal effects can be automatically carried out via training of neural generative models that respect the constraints encoded in a given causal graph [Xia et al. 2022, Balazadeh et al. 2022]. However, formal consistency of these methods has only been proven for the case of discrete variables or only for linear causal models. In this work, we prove consistency of partial identification via NCMs in a general setting with both continuous and categorical variables. Further, our results highlight the impact of the design of the underlying neural network architecture in terms of depth and connectivity as well as the importance of applying Lipschitz regularization in the training phase. In particular, we provide a counterexample showing that without Lipschitz regularization the NCM may not be asymptotically consistent. Our results are enabled by new results on the approximability of structural causal models via neural generative models, together with an analysis of the sample complexity of the resulting architectures and how that translates into an error in the constrained optimization problem that defines the partial identification bounds.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 無限次元非線形逆問題に対するスコアベース拡散前処理

Taming Score-Based Diffusion Priors for Infinite-Dimensional Nonlinear Inverse Problems ( http://arxiv.org/abs/2405.15676v1 )

ライセンス: Link先を確認
Lorenzo Baldassari, Ali Siahkoohi, Josselin Garnier, Knut Solna, Maarten V. de Hoop, (参考訳) 本研究では,関数空間におけるベイズ逆問題の解法を提案する。 可能性の対数共空性は仮定せず、非線型逆問題と互換性がある。 この方法は、最近定義された無限次元スコアベース拡散モデルを学習ベースとして利用し、関数空間上で定義されたランゲヴィン型MCMCアルゴリズムによる証明可能な後続サンプリングを可能にする。 従来の正則化アルゴリズムで確立された固定点法に着想を得て, 重み付きアニーリングに適合する新しい収束解析を行う。 得られた収束は、スコアの近似誤差に明示的に依存し、よく近似されたスコアは、よく近似された後部を得るのに不可欠である。 結晶化およびPDEに基づく例を示し, 収束解析の有効性を実証した。 本稿では,本手法の学習と計算複雑性に関する課題について論じる。

This work introduces a sampling method capable of solving Bayesian inverse problems in function space. It does not assume the log-concavity of the likelihood, meaning that it is compatible with nonlinear inverse problems. The method leverages the recently defined infinite-dimensional score-based diffusion models as a learning-based prior, while enabling provable posterior sampling through a Langevin-type MCMC algorithm defined on function spaces. A novel convergence analysis is conducted, inspired by the fixed-point methods established for traditional regularization-by-denoising algorithms and compatible with weighted annealing. The obtained convergence bound explicitly depends on the approximation error of the score; a well-approximated score is essential to obtain a well-approximated posterior. Stylized and PDE-based examples are provided, demonstrating the validity of our convergence analysis. We conclude by presenting a discussion of the method's challenges related to learning the score and computational complexity.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# SMART:次世代予測によるスケーラブルマルチエージェントリアルタイムシミュレーション

SMART: Scalable Multi-agent Real-time Simulation via Next-token Prediction ( http://arxiv.org/abs/2405.15677v1 )

ライセンス: Link先を確認
Wei Wu, Xiaoxin Feng, Ziyan Gao, Yuheng Kan, (参考訳) データ駆動の自律走行運動生成タスクは、データセットサイズとデータセット間のドメインギャップの制限によって頻繁に影響を受ける。 この問題に対処するために,ベクトル化マップとエージェントトラジェクトリデータを離散シーケンストークンにモデル化する,新しい自律走行運動生成パラダイムSMARTを導入する。 これらのトークンはデコーダのみのトランスフォーマーアーキテクチャを通じて処理され、空間的時系列にわたって次のトークン予測タスクをトレーニングする。 このGPTスタイルの手法により,実走行シナリオにおける運動分布を学習することができる。 SMARTは、生成するSim Agentsチャレンジのほとんどのメトリクスで最先端のパフォーマンスを達成し、Waymo Open Motion Dataset(WOMD)のリーダーボードで1位にランクインし、驚くべき推論速度を示している。 さらに、SMARTは自律走行運動領域における生成モデルを表し、ゼロショットの一般化能力を示す:訓練にNuPlanデータセットのみを使用し、検証にWOMDを使用すると、Sim Agentsチャレンジで競争スコア0.71を達成した。 最後に、複数のデータセットから10億以上のモーショントークンを収集し、モデルのスケーラビリティを検証する。 これらの結果は,SMARTが当初,スケーラビリティとゼロショットの一般化という2つの重要な特性をエミュレートしたことを示唆している。 我々は、自律運転分野における運動生成モデル探索を促進するために、すべてのコードをリリースした。

Data-driven autonomous driving motion generation tasks are frequently impacted by the limitations of dataset size and the domain gap between datasets, which precludes their extensive application in real-world scenarios. To address this issue, we introduce SMART, a novel autonomous driving motion generation paradigm that models vectorized map and agent trajectory data into discrete sequence tokens. These tokens are then processed through a decoder-only transformer architecture to train for the next token prediction task across spatial-temporal series. This GPT-style method allows the model to learn the motion distribution in real driving scenarios. SMART achieves state-of-the-art performance across most of the metrics on the generative Sim Agents challenge, ranking 1st on the leaderboards of Waymo Open Motion Dataset (WOMD), demonstrating remarkable inference speed. Moreover, SMART represents the generative model in the autonomous driving motion domain, exhibiting zero-shot generalization capabilities: Using only the NuPlan dataset for training and WOMD for validation, SMART achieved a competitive score of 0.71 on the Sim Agents challenge. Lastly, we have collected over 1 billion motion tokens from multiple datasets, validating the model's scalability. These results suggest that SMART has initially emulated two important properties: scalability and zero-shot generalization, and preliminarily meets the needs of large-scale real-time simulation applications. We have released all the code to promote the exploration of models for motion generation in the autonomous driving field.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 道路のスケジュールが下がった

The Road Less Scheduled ( http://arxiv.org/abs/2405.15682v1 )

ライセンス: Link先を確認
Aaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky, (参考訳) 既存の学習速度スケジュールは、最適化停止ステップTの仕様を必要とせず、Tに依存する学習速度スケジュールにより大幅に性能が向上する。我々は、凸問題から大規模深層学習問題まで幅広い問題にまたがるスケジュールと比較して、最先端の性能を示しながら、スケジュールを全面的に活用することで、この停止時間の必要性を回避するアプローチを提案する。 我々のスケジュールフリーアプローチでは、運動量を持つ標準オプティマイザよりもハイパーパラメータが追加されることはない。 提案手法はスケジューリングと反復平均化を統一する新しい理論の直接的な結果である。 私たちのメソッドのオープンソース実装が利用可能です(https://github.com/facebookresearch/schedule_free)。

Existing learning rate schedules that do not require specification of the optimization stopping step T are greatly out-performed by learning rate schedules that depend on T. We propose an approach that avoids the need for this stopping time by eschewing the use of schedules entirely, while exhibiting state-of-the-art performance compared to schedules across a wide family of problems ranging from convex problems to large-scale deep learning problems. Our Schedule-Free approach introduces no additional hyper-parameters over standard optimizers with momentum. Our method is a direct consequence of a new theory we develop that unifies scheduling and iterate averaging. An open source implementation of our method is available (https://github.com/facebookresearch/schedule_free).
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# VDGD:視覚知覚ギャップを埋めることによる認知的プロンプトにおけるLVLM幻覚の緩和

VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap ( http://arxiv.org/abs/2405.15683v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, Dinesh Manocha, (参考訳) 近年のLVLM(Large Vision-Language Models)への関心は、幻覚の重大な課題や、事実情報と生成されたテキストの矛盾によって中和されている。 本稿では,まず幻覚の詳細な分析を行い,LVLMが幻覚をどのように,いつ,どのように,どのように,どのように,どのように,どのように,どのようにして,どのように,どのように,どのように,どのように,どのようにして、どのようにして、どのように,幻覚するかについてのいくつかの新しい知見を見出す。 本分析から, コミュニティの取り組みは, 視覚認識(VR)のプロンプト(例えば, 画像の記述のみを必要とするプロンプト)を減らし, 認知的プロンプトの幻覚を無視すること(例えば, 画像の内容の推論など追加のスキルを必要とするプロンプト)を主目的としてきた。 2)LVLMは視覚的知覚を欠いている。 LVLMは入力画像の視覚的要素を正確に認識し、十分な認知能力を有するが、正確な反応と幻覚に苦しむ。 この欠点を克服するために、幻覚を緩和するためのシンプルで頑健でトレーニングのないVisual Description Grounded Decoding (VDGD)を提案する。 具体的には、まずイメージを記述し、命令にプレフィックスとして追加する。 次に, 自己回帰復号の際には, KL-Divergence (KLD) に基づく可塑性候補から, より低いKLDが優先される記述までをサンプリングする。 いくつかのベンチマークとLVLMによる実験結果から、VDGDは幻覚の減少において他のベースラインよりも大幅に改善されていることが示された。 また,LVLMの認知能力を総合的に評価するためのベンチマークであるVaLLuを提案する。

Recent interest in Large Vision-Language Models (LVLMs) for practical applications is moderated by the significant challenge of hallucination or the inconsistency between the factual information and the generated text. In this paper, we first perform an in-depth analysis of hallucinations and discover several novel insights about how and when LVLMs hallucinate. From our analysis, we show that: (1) The community's efforts have been primarily targeted towards reducing hallucinations related to visual recognition (VR) prompts (e.g., prompts that only require describing the image), thereby ignoring hallucinations for cognitive prompts (e.g., prompts that require additional skills like reasoning on contents of the image). (2) LVLMs lack visual perception, i.e., they can see but not necessarily understand or perceive the input image. We analyze responses to cognitive prompts and show that LVLMs hallucinate due to a perception gap: although LVLMs accurately recognize visual elements in the input image and possess sufficient cognitive skills, they struggle to respond accurately and hallucinate. To overcome this shortcoming, we propose Visual Description Grounded Decoding (VDGD), a simple, robust, and training-free method for alleviating hallucinations. Specifically, we first describe the image and add it as a prefix to the instruction. Next, during auto-regressive decoding, we sample from the plausible candidates according to their KL-Divergence (KLD) to the description, where lower KLD is given higher preference. Experimental results on several benchmarks and LVLMs show that VDGD improves significantly over other baselines in reducing hallucinations. We also propose VaLLu, a benchmark for the comprehensive evaluation of the cognitive capabilities of LVLMs.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# Prompt-Aware Adapter:マルチモーダル大言語モデルのための適応型視覚トークンの学習に向けて

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models ( http://arxiv.org/abs/2405.15684v1 )

ライセンス: Link先を確認
Yue Zhang, Hehe Fan, Yi Yang, (参考訳) 視覚と言語モダリティのギャップを埋めるために、MLLM(Multimodal Large Language Models)は通常、視覚入力をLLM(Large Language Models)の理解可能なトークンに変換するアダプタを学ぶ。 しかし、ほとんどのアダプタは、プロンプトで言及されている特定の関心の対象に関係なく、一貫した視覚トークンを生成する。 これらのアダプタは画像のあらゆる詳細に等しく注意を分散し、シーン全体に焦点を当てるため、特に複雑なシーンを処理する場合、LLMの認知負荷を増加させる可能性がある。 この問題を軽減するために,我々はプロンプト対応アダプタを提案する。 これらのアダプタは、プロンプトの特定の焦点に基づいて視覚入力を動的に埋め込むことができるように設計されている。 特に、プロンプト対応アダプタは、グローバルテキストとローカルテキストの特徴の両方を利用して、粗さと微粒度の両方でプロンプトから最も関連性の高い視覚的手がかりをキャプチャする。 このアプローチは、LLMが視覚内容を理解し解釈する能力を大幅に向上させる。 数え上げや位置推定などの様々な視覚的質問応答タスクの実験は、プロンプト対応アダプタの有効性を実証している。

To bridge the gap between vision and language modalities, Multimodal Large Language Models (MLLMs) usually learn an adapter that converts visual inputs to understandable tokens for Large Language Models (LLMs). However, most adapters generate consistent visual tokens, regardless of the specific objects of interest mentioned in the prompt. Since these adapters distribute equal attention to every detail in the image and focus on the entire scene, they may increase the cognitive load for LLMs, particularly when processing complex scenes. To alleviate this problem, we propose prompt-aware adapters. These adapters are designed with the capability to dynamically embed visual inputs based on the specific focus of the prompt. Specifically, prompt-aware adapters utilize both global and local textual features to capture the most relevant visual clues from the prompt at both coarse and fine granularity levels. This approach significantly enhances the ability of LLMs to understand and interpret visual content. Experiments on various visual question answering tasks, such as counting and position reasoning, demonstrate the effectiveness of prompt-aware adapters.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# 大規模マルチモーダルモデルを用いた図形推論のためのチェーン・オブ・サート・プロンプト

Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models ( http://arxiv.org/abs/2405.15687v1 )

ライセンス: Link先を確認
Yongsheng Yu, Jiebo Luo, (参考訳) 従来の人口推定手法は、正確にラベル付けされたデータの監督の下で主に運用されてきたが、変化する社会的景観や多様な文化的文脈への適応に苦慮している。 近年,大規模マルチモーダルモデル (LMM) の出現は,視覚的理解や記述など,様々な研究課題にまたがるトランスフォーメーションの可能性を示している。 本研究では,LMMの人口動態推定への応用について検討し,定量評価と定性評価のベンチマークを導入する。 以上の結果から,LMMにはゼロショット学習,解釈可能性,未修正の「イン・ザ・ワイルド」入力の処理に優位性があることが示唆された。 LMMの性能向上と教師付き学習ベースラインとの整合性向上を目的として,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。

Conventional demographic inference methods have predominantly operated under the supervision of accurately labeled data, yet struggle to adapt to shifting social landscapes and diverse cultural contexts, leading to narrow specialization and limited accuracy in applications. Recently, the emergence of large multimodal models (LMMs) has shown transformative potential across various research tasks, such as visual comprehension and description. In this study, we explore the application of LMMs to demographic inference and introduce a benchmark for both quantitative and qualitative evaluation. Our findings indicate that LMMs possess advantages in zero-shot learning, interpretability, and handling uncurated 'in-the-wild' inputs, albeit with a propensity for off-target predictions. To enhance LMM performance and achieve comparability with supervised learning baselines, we propose a Chain-of-Thought augmented prompting approach, which effectively mitigates the off-target prediction issue.
翻訳日:2024-05-27 13:20:55 公開日:2024-05-24
# UNION:オブジェクト外観に基づく擬似クラスを用いた教師なし3次元物体検出

UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes ( http://arxiv.org/abs/2405.15688v1 )

ライセンス: Link先を確認
Ted Lentsch, Holger Caesar, Dariu M. Gavrila, (参考訳) 教師なしの3Dオブジェクト検出手法が登場し、トレーニングに手動ラベルを必要とせず、大量のデータを効率的に活用している。 最近のアプローチでは、オブジェクトの検出を学習するために動的オブジェクトに依存しているが、トレーニング中に静的インスタンスの検出をペナルティ化している。 検出された静的インスタンスをトレーニング対象のセットに追加する、複数の(自己)トレーニングラウンドが使用される。 そこで本研究では,UNION法を提案する。 我々は空間クラスタリングと自己監督型シーンフローを用いて、LiDARから静的および動的オブジェクトの提案セットを得る。 その後、オブジェクトプロポーザルの視覚的外観が符号化され、動的オブジェクトと視覚的に類似した静的インスタンスを選択することで、前景と背景の静的オブジェクトを区別する。 その結果、静的および動的フォアグラウンドオブジェクトが一緒に得られ、既存の検出器は単一のトレーニングで訓練することができる。 さらに,オブジェクトの分類をトレーニングするための擬似クラスラベルとして,オブジェクトの外観に基づくクラスタラベルを用いて,3次元オブジェクトの発見を検知まで拡張する。 我々はnuScenesデータセットの広範な実験を行い、教師なしオブジェクト発見の最先端性能、すなわちUNIONの平均精度を33.9に2倍以上に向上させる。 コードは公開されます。

Unsupervised 3D object detection methods have emerged to leverage vast amounts of data efficiently without requiring manual labels for training. Recent approaches rely on dynamic objects for learning to detect objects but penalize the detections of static instances during training. Multiple rounds of (self) training are used in which detected static instances are added to the set of training targets; this procedure to improve performance is computationally expensive. To address this, we propose the method UNION. We use spatial clustering and self-supervised scene flow to obtain a set of static and dynamic object proposals from LiDAR. Subsequently, object proposals' visual appearances are encoded to distinguish static objects in the foreground and background by selecting static instances that are visually similar to dynamic objects. As a result, static and dynamic foreground objects are obtained together, and existing detectors can be trained with a single training. In addition, we extend 3D object discovery to detection by using object appearance-based cluster labels as pseudo-class labels for training object classification. We conduct extensive experiments on the nuScenes dataset and increase the state-of-the-art performance for unsupervised object discovery, i.e. UNION more than doubles the average precision to 33.9. The code will be made publicly available.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 自動脆弱性修復のためのLCMのケーススタディ:推論とパッチ検証フィードバックの影響評価

A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback ( http://arxiv.org/abs/2405.15690v1 )

ライセンス: Link先を確認
Ummay Kulsum, Haotian Zhu, Bowen Xu, Marcelo d'Amorim, (参考訳) 自動プログラム修復(APR)における最近の研究は、解析対象のLLMとコード間のセマンティックギャップを低減するために、推論とパッチ検証フィードバックの使用を提案する。 この考え方は一般のAPRに対してうまく機能することが示されているが、他の特定の文脈での有効性は未解明のままである。 本研究では,セキュリティ上の重要な課題である脆弱性修復の文脈において,LCMに対する推論とパッチ検証フィードバックの影響を評価する。 この評価を支援するために,LLMに基づく脆弱性修復技術であるVRpilotを提案する。 VRpilot (1)は、パッチ候補を生成する前に脆弱性を推論するためにチェーン・オブ・シークレットプロンプトを使用し、(2)外部ツール(例えば、コンパイラ、コードサニタイザ、テストスイートなど)の出力に応じてプロンプトを反復的に洗練する。 性能を評価するため,文献からの公開データセットを用いて,VRpilotをCとJavaの最先端の脆弱性修復技術と比較した。 以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。 我々は、アブレーション研究を通じて、推論とパッチ検証のフィードバックが重要であることを示す。 本研究からいくつかの教訓とLSMを利用した脆弱性修復に向けた可能性について報告する。

Recent work in automated program repair (APR) proposes the use of reasoning and patch validation feedback to reduce the semantic gap between the LLMs and the code under analysis. The idea has been shown to perform well for general APR, but its effectiveness in other particular contexts remains underexplored. In this work, we assess the impact of reasoning and patch validation feedback to LLMs in the context of vulnerability repair, an important and challenging task in security. To support the evaluation, we present VRpilot, an LLM-based vulnerability repair technique based on reasoning and patch validation feedback. VRpilot (1) uses a chain-of-thought prompt to reason about a vulnerability prior to generating patch candidates and (2) iteratively refines prompts according to the output of external tools (e.g., compiler, code sanitizers, test suite, etc.) on previously-generated patches. To evaluate performance, we compare VRpilot against the state-of-the-art vulnerability repair techniques for C and Java using public datasets from the literature. Our results show that VRpilot generates, on average, 14% and 7.6% more correct patches than the baseline techniques on C and Java, respectively. We show, through an ablation study, that reasoning and patch validation feedback are critical. We report several lessons from this study and potential directions for advancing LLM-empowered vulnerability repair
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 量子絡み合いと古典的非分離性との操作的区別

An operational distinction between quantum entanglement and classical non-separability ( http://arxiv.org/abs/2405.15692v1 )

ライセンス: Link先を確認
Natalia Korolkova, Luis Sánchez-Soto, Gerd Leuchs, (参考訳) 量子絡み合い (quantum entanglement) は多次元系における重ね合わせ状態(少なくとも2つの粒子)を記述し、分解不可能であり、したがって分離不能である。 非分離状態は、ベクトル空間を含む古典理論にも存在する。 どちらの場合もベルのような不平等を犯すことが可能である。 これは議論の的となり、古典的ケースと量子的ケースの運用上の違いを特定することで解決する。

Quantum entanglement describes superposition states in multi-dimensional systems, at least two partite, which cannot be factorized and are thus non-separable. Non-separable states exist also in classical theories involving vector spaces. In both cases, it is possible to violate a Bell-like inequality. This has led to controversial discussions, which we resolve by identifying an operational distinction between the classical and quantum cases.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# マイクロ波発振器における合成高角運動量スピンダイナミクス

Synthetic high angular momentum spin dynamics in a microwave oscillator ( http://arxiv.org/abs/2405.15695v1 )

ライセンス: Link先を確認
Saswata Roy, Alen Senanian, Christopher S. Wang, Owen C. Wetherbee, Luojia Zhang, B. Cole, C. P. Larson, E. Yelton, Kartikeya Arora, Peter L. McMahon, B. L. T. Plourde, Baptiste Royer, Valla Fatemi, (参考訳) スピンと発振器は多くの物理学や応用科学の基礎となっている。 量子情報に対して、スピン1/2は最も基本的な単位である量子ビットを例示する。 高角運動量スピンと高調波発振器は、ハードウェア効率で保護された量子情報の符号化と多体量子システムのシミュレーションの可能性を秘めているマルチレベル多様体(例えばクイディット)を提供する。 本研究では、これらの異なるハードウェアプラットフォームを概念的にマージする新しい量子制御プロトコルを実証する。 すなわち、必要に応じて高調波発振器を修正して、高調波クーディットの共振駆動に関連する連続的な発電機を実装し、特に高調波マルチレベルスピンの自由度を設計する方法を示す。 合成スピンはスピンコヒーレント (SU(2)) 回転の実証と、単純なトランカット振動子のような他の多様体との比較によって検証される。 我々のスキームはクディットの普遍的な制御を可能にし、初めて高調波演算を用いて4つの論理ゲートを高調波クディット符号化で達成する。 以上の結果から,閉ヒルベルト空間上の運動が量子情報処理にどのように役立つかを示し,高角運動量量子磁気の超伝導回路シミュレーションへの扉を開く。

Spins and oscillators are foundational to much of physics and applied sciences. For quantum information, a spin 1/2 exemplifies the most basic unit, a qubit. High angular momentum spins and harmonic oscillators provide multi-level manifolds (e.g., qudits) which have the potential for hardware-efficient protected encodings of quantum information and simulation of many-body quantum systems. In this work, we demonstrate a new quantum control protocol that conceptually merges these disparate hardware platforms. Namely, we show how to modify a harmonic oscillator on-demand to implement a continuous range of generators associated to resonant driving of a harmonic qudit, and then specifically design a harmonic multi-level spin degree of freedom. The synthetic spin is verified by demonstration of spin coherent (SU(2)) rotations and comparison to other manifolds like simply-truncated oscillators. Our scheme allows universal control of the qudit, and, for the first time, we use linear, harmonic operations to accomplish four logical gates on a harmonic qudit encoding. Our results show how motion on a closed Hilbert space can be useful for quantum information processing and opens the door to superconducting circuit simulations of higher angular momentum quantum magnetism.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# ランダム特徴回帰のための次元自由決定論的等価性

Dimension-free deterministic equivalents for random feature regression ( http://arxiv.org/abs/2405.15699v1 )

ライセンス: Link先を確認
Leonardo Defilippis, Bruno Loureiro, Theodor Misiakiewicz, (参考訳) 本研究では,ランダム特徴リッジ回帰(RFRR)の一般化性能について検討する。 我々の主な貢献は、RFRRのテスト誤差に対する一般的な決定論的等価性である。 具体的には、ある濃度特性の下で、テスト誤差は特徴写像固有値にのみ依存する閉形式式によってよく近似されていることを示す。 特に、我々の近似保証は非漸近的で乗法的であり、特徴写像次元とは独立である -- 無限次元の特徴を可能にする。 我々は、この決定論的等価性は、我々の理論的分析をはるかに超え、様々な実・合成データセット上でその予測を実証的に検証する。 応用として、スペクトルと目標減衰の標準パワールール仮定の下で、急激な過大な誤差率を導出する。 特に、最適なミニマックス誤差率を達成する最小の特徴量に対して、厳密な結果を与える。

In this work we investigate the generalization performance of random feature ridge regression (RFRR). Our main contribution is a general deterministic equivalent for the test error of RFRR. Specifically, under a certain concentration property, we show that the test error is well approximated by a closed-form expression that only depends on the feature map eigenvalues. Notably, our approximation guarantee is non-asymptotic, multiplicative, and independent of the feature map dimension -- allowing for infinite-dimensional features. We expect this deterministic equivalent to hold broadly beyond our theoretical analysis, and we empirically validate its predictions on various real and synthetic datasets. As an application, we derive sharp excess error rates under standard power-law assumptions of the spectrum and target decay. In particular, we provide a tight result for the smallest number of features achieving optimal minimax error rate.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# Trackastra:ライブセル顕微鏡のためのトランスフォーマーベースの細胞追跡

Trackastra: Transformer-based cell tracking for live-cell microscopy ( http://arxiv.org/abs/2405.15700v1 )

ライセンス: Link先を確認
Benjamin Gallusser, Martin Weigert, (参考訳) 細胞追跡は、ライブセル顕微鏡における全方位画像解析タスクである。 マルチオブジェクトトラッキング(MOT)に似ているが、各フレームには、分割可能な数百の類似したオブジェクトが含まれているため、難しい問題である。 現在の最先端のアプローチは、トラッキング・バイ・検出のパラダイムに従っている。つまり、最初にすべての細胞がフレーム毎に検出され、2番目のステップで連続的にリンクされ、生物学的に一貫した細胞トラックを形成する。 リンクは、データセットごとにハイパーパラメータを手動でチューニングする必要があるため、実際に使用するのが困難である、離散的な最適化手法によって、一般的に解決される。 本稿では、簡単なトランスフォーマーアーキテクチャを用いて、アノテートされたデータから時間ウィンドウ内のセルのペア関係を直接学習する汎用的なセル追跡手法であるTerastraを提案する。 重要なことは、既存のトランスフォーマーベースのMOTパイプラインとは異なり、我々の学習アーキテクチャは、セルなどのオブジェクトの分割も考慮しており、単純なグリージーリンクでも正確なトラッキングが可能であり、複雑なリンクステップの要求を取り除くための努力が続けられている。 提案アーキテクチャは,高密度画像処理の計算負担を回避することにより,時間窓内の検出の時間的全コンテキストで動作する。 我々は, 細菌, 細胞培養, 蛍光粒子などの生物学的データセットに対して, 高度に調整された最先端の細胞追跡アルゴリズムと同等以上の性能を示すことを示す。 私たちはhttps://github.com/weigertlab/trackastra.comでコードを提供しています。

Cell tracking is an omnipresent image analysis task in live-cell microscopy. It is similar to multiple object tracking (MOT), however, each frame contains hundreds of similar-looking objects that can divide, making it a challenging problem. Current state-of-the-art approaches follow the tracking-by-detection paradigm, i.e. first all cells are detected per frame and successively linked in a second step to form biologically consistent cell tracks. Linking is commonly solved via discrete optimization methods, which require manual tuning of hyperparameters for each dataset and are therefore cumbersome to use in practice. Here we propose Trackastra, a general purpose cell tracking approach that uses a simple transformer architecture to directly learn pairwise associations of cells within a temporal window from annotated data. Importantly, unlike existing transformer-based MOT pipelines, our learning architecture also accounts for dividing objects such as cells and allows for accurate tracking even with simple greedy linking, thus making strides towards removing the requirement for a complex linking step. The proposed architecture operates on the full spatio-temporal context of detections within a time window by avoiding the computational burden of processing dense images. We show that our tracking approach performs on par with or better than highly tuned state-of-the-art cell tracking algorithms for various biological datasets, such as bacteria, cell cultures and fluorescent particles. We provide code at https://github.com/weigertlab/trackastra.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 絡み合いと非線形ハミルトニアンのメトロロジー的有用性

Metrological usefulness of entanglement and nonlinear Hamiltonians ( http://arxiv.org/abs/2405.15703v1 )

ライセンス: Link先を確認
Satoya Imai, Augusto Smerzi, Luca Pezzè, (参考訳) 量子距離論における中心的な課題は、古典的な感度限界を上回るように量子相関を利用することである。 量子フィッシャー情報(QFI)が与えられたパラメータエンコーディングハミルトニアンに対して有界な分離性を超えたときに、メトロロジカルに有用な絡み合いが特定される。 しかし、今のところは線型ハミルトニアンに対する結果のみが確立されている。 ここでは、非線形ハミルトニアンに対するメロジカルに有用な絡み合いを特徴付け、集合角モータに対する分離性バウンダリを提示する。 また、QFIを最大化する絡み合った状態に対する一般表現も提供し、これらが必ずしもGHZライクな状態ではないことを示す。 最後に, 線形および非線形の場合の距離論的有用性について, 絡み込み検出およびランダム対称状態の観点から比較した。

A central task in quantum metrology is to exploit quantum correlations to outperform classical sensitivity limits. Metrologically useful entanglement is identified when the quantum Fisher information (QFI) exceeds a separability bound for a given parameter-encoding Hamiltonian. However, so far, only results for linear Hamiltonians are well-established. Here, we characterize metrologically useful entanglement for nonlinear Hamiltonians, presenting separability bounds for collective angular momenta. Also, we provide a general expression for entangled states maximizing the QFI, showing that these are not always GHZ-like states. Finally, we compare the metrological usefulness of linear and nonlinear cases, in terms of entanglement detection and random symmetric states.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 自然放出型量子非破壊測定装置

Quantum nondemolition measurement operator with spontaneous emission ( http://arxiv.org/abs/2405.15704v1 )

ライセンス: Link先を確認
Ebubechukwu O. Ilo-Okeke, Tim Byrnes, (参考訳) 本稿では,自然発光の存在下での原子アンサンブルの量子非分解(QND)測定の理論について述べる。 我々は、原子の基底状態と光の量子状態の進化を支配するマスター方程式を導出する。 ホルシュタイン・プリマコフ近似を起こさずにマスター方程式を正確に解き、光の量子状態を投影し、QND測定を記述する正の演算子評価測度を導出する。 高自然放出条件下では、QND測定は、測定が崩壊する独自の支配的状態を有することを示す。 さらに、強い原子-光相互作用の制限の場合におけるQND測定の挙動について検討し、正の作用素値が射影作用素となることを示す。 さらに, 自然発生騒音が原子状態形成に及ぼす影響を解析した。 線形重ね合わせにおいて量子状態に利用可能な固有値スペクトルの幅を制限することが分かる。 この効果は、支配国家に国家の崩壊をもたらす。 我々は、原子-光相互作用強度を調整することによって、原子の様々な非古典状態を生成する。 与えられたスピン固有値$J$に対して、スピン作用素$J_z$の全固有値スペクトルにコヒーレンスがあるシュリンガー・キャット状態のような古典的でない状態は、自然放出が支配状態から遠く離れた状態のアクセシビリティを制限するため、コヒーレンスを失う。

We present a theory for quantum nondemolition (QND) measurements of an atomic ensemble in the presence of spontaneous emission. We derive the master equation that governs the evolution of the ground state of the atoms and the quantum state of light. Solving the master equation exactly without invoking the Holstein-Primakoff approximation and projecting out the quantum state of light, we derive a positive operator-valued measure that describes the QND measurement. We show that at high spontaneous emission conditions, the QND measurement has a unique dominant state to which the measurement collapses. We additionally investigate the behavior of the QND measurement in the limiting case of strong atom-light interactions, where we show that the positive operator valued measure becomes a projection operator. We further analyze the effect of spontaneous emission noise on atomic state preparation. We find that it limits the width of the eigenvalue spectrum available to a quantum state in a linear superposition. This effect leads to state collapse on the dominant state. We generate various non-classical states of the atom by tuning the atom-light interaction strength. We find that non-classical states such as the Schr\"odinger-cat state, whose coherence spans the entire eigenvalue spectrum of the total spin operator $J_z$ for a given spin eigenvalue $J$, lose their coherence because spontaneous emission limits the accessibility of states farther away from the dominant state.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 移動学習における幾何学的複雑度が神経崩壊に及ぼす影響

The Impact of Geometric Complexity on Neural Collapse in Transfer Learning ( http://arxiv.org/abs/2405.15706v1 )

ライセンス: Link先を確認
Michael Munn, Benoit Dherin, Javier Gonzalvo, (参考訳) 近年のコンピュータビジョンと言語モデルにおける顕著な進歩の多くは、大規模な基礎モデルの事前学習によるトランスファーラーニングの成功によるものである。 しかし、この経験的成功を説明する理論的枠組みは不完全であり、現在も研究の活発な領域である。 損失面の平坦さと神経崩壊は、最近、トレーニング前の基礎となる暗黙のバイアスに光を当てる有用な事前学習指標として現れている。 本稿では,これらの2つの概念を関連づける基本的なメカニズムとして,モデルが学習した表現の幾何学的複雑さについて考察する。 実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。 さらに、この幾何学的複雑性の影響が、新しいクラスの神経崩壊にどのように一般化するかを示し、特に数ショット設定において、下流タスクにおけるより良いパフォーマンスを促進させる。

Many of the recent remarkable advances in computer vision and language models can be attributed to the success of transfer learning via the pre-training of large foundation models. However, a theoretical framework which explains this empirical success is incomplete and remains an active area of research. Flatness of the loss surface and neural collapse have recently emerged as useful pre-training metrics which shed light on the implicit biases underlying pre-training. In this paper, we explore the geometric complexity of a model's learned representations as a fundamental mechanism that relates these two concepts. We show through experiments and theory that mechanisms which affect the geometric complexity of the pre-trained network also influence the neural collapse. Furthermore, we show how this effect of the geometric complexity generalizes to the neural collapse of new classes as well, thus encouraging better performance on downstream tasks, particularly in the few-shot setting.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# ロジスティックススケジューリングのためのディジタイズされた反断熱量子アルゴリズム

Digitized Counterdiabatic Quantum Algorithms for Logistics Scheduling ( http://arxiv.org/abs/2405.15707v1 )

ライセンス: Link先を確認
Archismita Dalal, Iraitz Montalban, Narendra N. Hegade, Alejandro Gomez Cadavid, Enrique Solano, Abhishek Awasthi, Davide Vodola, Caitlin Jones, Horst Weiss, Gernot Füchsel, (参考訳) 本稿では,高スループット実験室における自動ロボットのジョブショップスケジューリング問題と,最近提案されたディジタル対ダイアバティック量子最適化(DCQO)アルゴリズムを用いたトラベリングセールスパーソン問題について検討する。 直流QOでは, 反断熱プロトコルによって高速化される, 断熱量子力学による最適化問題の解を求める。 その後、グローバルユニタリをデジタル化してデジタル量子コンピュータにエンコードする。 ジョブショップスケジューリング問題では,特定の制約下で複数のタスクを実行するロボットに対して,プロセスの実行時間を最小化するように最適なスケジュールを求める。 旅行セールスパーソンの問題は、すべての都市をカバーし、最短の旅行距離と関連する経路を見つけることである。 我々は、DCQOアルゴリズムのハイブリッドバージョンと純粋バージョンを共に検討し、デジタル化された量子アニールと量子近似最適化アルゴリズム(QAOA)のパフォーマンスをベンチマークする。 QAOAと比較して、DCQOの解は、同じ数の2ビットゲートを用いて、数桁の成功確率で改善される。 さらに,超伝導およびトラップイオン量子プロセッサ上でのアルゴリズムを実験的に実装した。 提案手法は,従来のNISQハードウェアでは回路圧縮が可能であり,他のディジタル量子アルゴリズムでは性能が不十分であるロジスティクススケジューリングの問題を解くことができることを示す。

We study a job shop scheduling problem for an automatized robot in a high-throughput laboratory and a travelling salesperson problem with recently proposed digitized counterdiabatic quantum optimization (DCQO) algorithms. In DCQO, we find the solution of an optimization problem via an adiabatic quantum dynamics, which is accelerated with counterdiabatic protocols. Thereafter, we digitize the global unitary to encode it in a digital quantum computer. For the job-shop scheduling problem, we aim at finding the optimal schedule for a robot executing a number of tasks under specific constraints, such that the total execution time of the process is minimized. For the traveling salesperson problem, the goal is to find the path that covers all cities and is associated with the shortest traveling distance. We consider both hybrid and pure versions of DCQO algorithms and benchmark the performance against digitized quantum annealing and the quantum approximate optimization algorithm (QAOA). In comparison to QAOA, the DCQO solution is improved by several orders of magnitude in success probability using the same number of two-qubit gates. Moreover, we experimentally implement our algorithms on superconducting and trapped-ion quantum processors. Our results demonstrate that circuit compression using counterdiabatic protocols is amenable to current NISQ hardware and can solve logistics scheduling problems, where other digital quantum algorithms show insufficient performance.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# EmpathicStories++: 個人エクスペリエンスに対する共感のためのマルチモーダルデータセット

EmpathicStories++: A Multimodal Dataset for Empathy towards Personal Experiences ( http://arxiv.org/abs/2405.15708v1 )

ライセンス: Link先を確認
Jocelyn Shen, Yubin Kim, Mohit Hulse, Wazeer Zulfikar, Sharifa Alghowinem, Cynthia Breazeal, Hae Won Park, (参考訳) 共感のモデル化は、人間同士の相互作用の対人的・経験的な次元に根ざした複雑な取り組みであり、AIの中では未解決の問題である。 既存の共感データセットは、共感応答の豊かさを捉えるのに不足している。 EmpathicStories++データセット(https://mitmedialab.github.io/empathic-stories-multimodal/)には、脆弱な経験を共有し、AIエージェントと共感的な話を読み取る41人の参加者の53時間のビデオ、オーディオ、テキストデータが含まれている。 EmpathicStories++は共感に関する最初の時系列データセットであり、参加者がAIエージェントと自然な共感的なストーリーテリングのインタラクションに従事しているため、参加者の自宅に1ヶ月にわたってソーシャルロボットを配置した。 次に、個人の体験に基づいて、他人のストーリーに対する共感を予測する新しいタスクを紹介し、参加者自身の共有ストーリーコンテキストと、読んだストーリーに対する反映の2つの文脈で評価する。 我々は、現状のモデルを用いてこのタスクをベンチマークし、文脈的および縦長の共感モデリングにおける将来の改善の道を開く。 私たちの研究は、共感型AIシステムの開発と人間の共感の複雑さを理解するための貴重なリソースを提供する。

Modeling empathy is a complex endeavor that is rooted in interpersonal and experiential dimensions of human interaction, and remains an open problem within AI. Existing empathy datasets fall short in capturing the richness of empathy responses, often being confined to in-lab or acted scenarios, lacking longitudinal data, and missing self-reported labels. We introduce a new multimodal dataset for empathy during personal experience sharing: the EmpathicStories++ dataset (https://mitmedialab.github.io/empathic-stories-multimodal/) containing 53 hours of video, audio, and text data of 41 participants sharing vulnerable experiences and reading empathically resonant stories with an AI agent. EmpathicStories++ is the first longitudinal dataset on empathy, collected over a month-long deployment of social robots in participants' homes, as participants engage in natural, empathic storytelling interactions with AI agents. We then introduce a novel task of predicting individuals' empathy toward others' stories based on their personal experiences, evaluated in two contexts: participants' own personal shared story context and their reflections on stories they read. We benchmark this task using state-of-the-art models to pave the way for future improvements in contextualized and longitudinal empathy modeling. Our work provides a valuable resource for further research in developing empathetic AI systems and understanding the intricacies of human empathy within genuine, real-world settings.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 期待校正誤差に対する情報理論一般化解析

Information-theoretic Generalization Analysis for Expected Calibration Error ( http://arxiv.org/abs/2405.15709v1 )

ライセンス: Link先を確認
Futoshi Futami, Masahiro Fujisawa, (参考訳) 予測校正誤差(ECE)は,機械学習モデルの校正性能を評価するために広く採用されているが,その推定バイアスの理論的理解は限られている。 本稿では,2つの共通ビンニング戦略,一様質量と一様幅ビンニングにおける推定バイアスの包括的解析について述べる。 我々の分析はバイアスの上限を確立し、収束率の向上を実現している。 さらに, 推定バイアスを最小化するために, ボビンの最適個数を初めて明らかにした。 さらに、情報理論に基づく一般化誤差解析にバイアス分析を拡張し、未知のデータに対してECEがどの程度小さいかの数値的な評価を可能にする上限を導出する。 深層学習モデルを用いた実験では、この情報理論の一般化分析アプローチにより、境界は空白であることがわかった。

While the expected calibration error (ECE), which employs binning, is widely adopted to evaluate the calibration performance of machine learning models, theoretical understanding of its estimation bias is limited. In this paper, we present the first comprehensive analysis of the estimation bias in the two common binning strategies, uniform mass and uniform width binning. Our analysis establishes upper bounds on the bias, achieving an improved convergence rate. Moreover, our bounds reveal, for the first time, the optimal number of bins to minimize the estimation bias. We further extend our bias analysis to generalization error analysis based on the information-theoretic approach, deriving upper bounds that enable the numerical evaluation of how small the ECE is for unknown data. Experiments using deep learning models show that our bounds are nonvacuous thanks to this information-theoretic generalization analysis approach.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# マルチヘッドトランスダイナミクスの無限限界

Infinite Limits of Multi-head Transformer Dynamics ( http://arxiv.org/abs/2405.15712v1 )

ライセンス: Link先を確認
Blake Bordelon, Hamza Tahir Chaudhry, Cengiz Pehlevan, (参考訳) 本研究では,特徴学習体制における変圧器モデルのトレーニング力学の様々なスケーリング限界を解析する。 パラメータ化の集合は、適切に定義された無限の幅と深さの制限を許容し、トレーニングを通して注意層を更新することができる。 次に、動的平均場理論(DMFT)のツールを用いて、無限の極限がどの極限を取るか、どのように注意層がスケールするかによって異なる統計的記述を持つ様々な無限の極限(無限の鍵/クエリ次元、無限のヘッド、無限の深さ)を解析する。 限界への収束の数値的な証拠を提供し、パラメータ化が学習した特徴にどのように影響するかを議論する。

In this work, we analyze various scaling limits of the training dynamics of transformer models in the feature learning regime. We identify the set of parameterizations that admit well-defined infinite width and depth limits, allowing the attention layers to update throughout training--a relevant notion of feature learning in these models. We then use tools from dynamical mean field theory (DMFT) to analyze various infinite limits (infinite key/query dimension, infinite heads, and infinite depth) which have different statistical descriptions depending on which infinite limit is taken and how attention layers are scaled. We provide numerical evidence of convergence to the limits and discuss how the parameterization qualitatively influences learned features.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# フィードフォワード後樹を用いた階層的不確かさ探索

Hierarchical Uncertainty Exploration via Feedforward Posterior Trees ( http://arxiv.org/abs/2405.15719v1 )

ライセンス: Link先を確認
Elias Nehme, Rotem Mulayoff, Tomer Michaeli, (参考訳) 不測の逆問題を解決する際には、単一の可算的再構成で示されるよりも、潜在的な解の空間を探求したいという願望がしばしばある。 これらの実現可能な解とその関連する確率に関する有意義な洞察が後部分布に埋め込まれている。 しかし,高次元データ(画像など)に直面すると,この分布の可視化は困難な課題となり,ユーザ試験に先立って効果的な要約手法を適用する必要がある。 本研究では,木評価予測を用いて,複数レベルの粒度にまたがる後部を可視化する手法を提案する。 本手法は, ニューラルネットワークの1つの前方通過において, 入力測定における後部分布の階層的階層化を予測する。 多様なデータセットと画像復元の課題にまたがるアプローチの有効性を示し、不確実な定量化と可視化の進歩を強調した。 その結果,本手法は拡散型後方サンプリング装置から試料を階層的にクラスタリングするベースラインと同等に機能することがわかったが,これは桁違いの速度で達成できることがわかった。

When solving ill-posed inverse problems, one often desires to explore the space of potential solutions rather than be presented with a single plausible reconstruction. Valuable insights into these feasible solutions and their associated probabilities are embedded in the posterior distribution. However, when confronted with data of high dimensionality (such as images), visualizing this distribution becomes a formidable challenge, necessitating the application of effective summarization techniques before user examination. In this work, we introduce a new approach for visualizing posteriors across multiple levels of granularity using tree-valued predictions. Our method predicts a tree-valued hierarchical summarization of the posterior distribution for any input measurement, in a single forward pass of a neural network. We showcase the efficacy of our approach across diverse datasets and image restoration challenges, highlighting its prowess in uncertainty quantification and visualization. Our findings reveal that our method performs comparably to a baseline that hierarchically clusters samples from a diffusion-based posterior sampler, yet achieves this with orders of magnitude greater speed.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# 自己正当性を示すモデル

Models That Prove Their Own Correctness ( http://arxiv.org/abs/2405.15722v1 )

ライセンス: Link先を確認
Noga Amit, Shafi Goldwasser, Orr Paradise, Guy Rothblum, (参考訳) 学習したモデルの正しさを、特定の関心の入力にどのように信頼することができるか? モデル精度は典型的には入力の分布上で「emph{on average}」と測られ、固定入力の保証は与えられない。 本稿では,この問題に対する理論的に確立された解決策を提案し,その正当性を証明する*自己証明モデル*を,対話的証明による検証アルゴリズム$V$に訓練する。 自己証明モデルは、ランダムな入力よりも高い確率で正しい出力 \emph{and} を生成し、その正しさを$V\! $. V$の*soundness*プロパティは、*すべての*入力に対して、間違った出力の正しさを$V$を納得させるモデルは存在しないことを保証します。 したがって、自己証明モデルは出力の大部分の正しさを証明し、*all*不正確な出力は(任意のモデルの)$V$で検出される。 我々は、自己形成モデルを学ぶための一般的な手法を考案し、ある仮定の下で収束境界を証明した。 理論的な枠組みと結果は、2つの整数の最大共通因子(GCD)を計算する算術能力の実験によって補完される。 学習方法は,GCDを演算する自己証明変換器を訓練するために用いられ,その解答の正しさが証明される。

How can we trust the correctness of a learned model on a particular input of interest? Model accuracy is typically measured \emph{on average} over a distribution of inputs, giving no guarantee for any fixed input. This paper proposes a theoretically-founded solution to this problem: to train *Self-Proving models* that prove the correctness of their output to a verification algorithm $V$ via an Interactive Proof. Self-Proving models satisfy that, with high probability over a random input, the model generates a correct output \emph{and} successfully proves its correctness to $V\!$. The *soundness* property of $V$ guarantees that, for *every* input, no model can convince $V$ of the correctness of an incorrect output. Thus, a Self-Proving model proves correctness of most of its outputs, while *all* incorrect outputs (of any model) are detected by $V$. We devise a generic method for learning Self-Proving models, and we prove convergence bounds under certain assumptions. The theoretical framework and results are complemented by experiments on an arithmetic capability: computing the greatest common divisor (GCD) of two integers. Our learning method is used to train a Self-Proving transformer that computes the GCD *and* proves the correctness of its answer.
翻訳日:2024-05-27 13:11:11 公開日:2024-05-24
# シミュレーション学習

Bisimulation Learning ( http://arxiv.org/abs/2405.15723v1 )

ライセンス: Link先を確認
Alessandro Abate, Mirco Giacobbe, Yannik Schnitzer, (参考訳) 我々は、非常に大きく、潜在的に無限な状態空間を持つ状態遷移系に対する有限バイシミュレートを計算するためのデータ駆動型アプローチを導入する。 本手法は,各クラスに対するランキング関数とともに状態分類器を学習する問題として特徴付けられる,決定論的システムのスタッタ非感性ビシミュレーションを計算したものである。 提案手法では,サンプル状態の有限データセットから候補状態分類器と候補ランキング関数を学習し,満足度変調理論を用いて状態空間全体を一般化するかどうかを確認する。 肯定的な答えが得られたとき、その手続きは、分類器がシステムの有効なスタッター非感受性のバイシミュレーションを構成すると結論付ける。 負の応答をすると、クラシファイタがクレームに反する反例状態を生成し、データセットに付加し、正のバイシミュレーションが見つかるまで、反例誘導帰納的合成ループでの学習とチェックを繰り返す。 我々は、リアクティブ検証やソフトウェアモデル検査など、さまざまなベンチマークで、我々の手法が実際に行われている代替最先端ツールよりも高速な検証結果をもたらすことを実証した。 本手法は,次の演算子を使わずに線形時間論理を効果的に検証し,システム診断のために解釈可能な簡潔な抽象化を生成する。

We introduce a data-driven approach to computing finite bisimulations for state transition systems with very large, possibly infinite state space. Our novel technique computes stutter-insensitive bisimulations of deterministic systems, which we characterize as the problem of learning a state classifier together with a ranking function for each class. Our procedure learns a candidate state classifier and candidate ranking functions from a finite dataset of sample states; then, it checks whether these generalise to the entire state space using satisfiability modulo theory solving. Upon the affirmative answer, the procedure concludes that the classifier constitutes a valid stutter-insensitive bisimulation of the system. Upon a negative answer, the solver produces a counterexample state for which the classifier violates the claim, adds it to the dataset, and repeats learning and checking in a counterexample-guided inductive synthesis loop until a valid bisimulation is found. We demonstrate on a range of benchmarks from reactive verification and software model checking that our method yields faster verification results than alternative state-of-the-art tools in practice. Our method produces succinct abstractions that enable an effective verification of linear temporal logic without next operator, and are interpretable for system diagnostics.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 確率的予測符号化を用いた異常変化点検出

Anomalous Change Point Detection Using Probabilistic Predictive Coding ( http://arxiv.org/abs/2405.15727v1 )

ライセンス: Link先を確認
Roelof G. Hup, Julian P. Merkofer, Alex A. Bhogal, Ruud J. G. van Sloun, Reinder Haakma, Rik Vullings, (参考訳) 変化点検出(CPD)と異常検出(AD)は、急激な変化や異常なデータインスタンスを特定するために、様々な分野において不可欠である。 しかし、既存の手法は、しばしば一変量データに制約され、計算要求による大規模なデータセットによるスケーラビリティの課題に直面し、高次元または複雑なデータによるパフォーマンスの低下と隠れ異常を経験する。 さらに、それらはドメイン固有の知識に対する解釈可能性や適応性に欠けることが多く、異なる分野にまたがる汎用性を制限する。 本研究では,確率予測符号化(Probabilistic Predictive Coding, PPC)と呼ばれる深層学習に基づくCDD/AD手法を提案する。 モデルパラメータは、これらの予測と真のエンコーディングを比較することにより、最大推定値に最適化される。 適用時には、真および予測された符号化を用いて、適合性の確率、解釈可能かつ有意義な異常スコアを決定する。 さらに,本手法には線形時間的複雑性があり,スケーラビリティの問題が防止され,幅広いデータ型や複雑なアプリケーションに容易に対応できる。 本研究では, 合成時系列実験, 画像データ, 実世界の磁気共鳴分光画像データにまたがって提案手法の有効性と適応性を示す。

Change point detection (CPD) and anomaly detection (AD) are essential techniques in various fields to identify abrupt changes or abnormal data instances. However, existing methods are often constrained to univariate data, face scalability challenges with large datasets due to computational demands, and experience reduced performance with high-dimensional or intricate data, as well as hidden anomalies. Furthermore, they often lack interpretability and adaptability to domain-specific knowledge, which limits their versatility across different fields. In this work, we propose a deep learning-based CPD/AD method called Probabilistic Predictive Coding (PPC) that jointly learns to encode sequential data to low dimensional latent space representations and to predict the subsequent data representations as well as the corresponding prediction uncertainties. The model parameters are optimized with maximum likelihood estimation by comparing these predictions with the true encodings. At the time of application, the true and predicted encodings are used to determine the probability of conformity, an interpretable and meaningful anomaly score. Furthermore, our approach has linear time complexity, scalability issues are prevented, and the method can easily be adjusted to a wide range of data types and intricate applications. We demonstrate the effectiveness and adaptability of our proposed method across synthetic time series experiments, image data, and real-world magnetic resonance spectroscopic imaging data.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 視覚言語モデルの病的インフォームド適応

Disease-informed Adaptation of Vision-Language Models ( http://arxiv.org/abs/2405.15728v1 )

ライセンス: Link先を確認
Jiajin Zhang, Ge Wang, Mannudeep K. Kalra, Pingkun Yan, (参考訳) 医用画像解析では、専門知識の不足と高コストなデータアノテーションにより、大規模な人工知能モデルの開発が制限される。 本稿では,この領域における事前学習型視覚言語モデル(VLM)を用いた伝達学習の可能性について検討する。 現在、VLMは、最小限の存在と、事前訓練データセットから完全に欠落した新しい疾患で、表現不足の疾患への移行に苦慮している。 VLMの効果的な適応は、疾患概念のニュアンス表現学習に影響を及ぼすと論じている。 VLMの協調視覚言語機能を活用することで,新しい病原体学習フレームワークにおいて,疾患情報を用いたコンテキストプロンプトを導入する。 このアプローチにより、VLMは、限られたデータであっても、新しい病気の概念を効果的に、効率的に把握することができる。 複数の画像モダリティにわたる大規模な実験では、既存の技術と比較して、パフォーマンスが顕著に向上した。

In medical image analysis, the expertise scarcity and the high cost of data annotation limits the development of large artificial intelligence models. This paper investigates the potential of transfer learning with pre-trained vision-language models (VLMs) in this domain. Currently, VLMs still struggle to transfer to the underrepresented diseases with minimal presence and new diseases entirely absent from the pretraining dataset. We argue that effective adaptation of VLMs hinges on the nuanced representation learning of disease concepts. By capitalizing on the joint visual-linguistic capabilities of VLMs, we introduce disease-informed contextual prompting in a novel disease prototype learning framework. This approach enables VLMs to grasp the concepts of new disease effectively and efficiently, even with limited data. Extensive experiments across multiple image modalities showcase notable enhancements in performance compared to existing techniques.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# OpenAPIコード補完のための大規模言語モデルの最適化

Optimizing Large Language Models for OpenAPI Code Completion ( http://arxiv.org/abs/2405.15729v1 )

ライセンス: Link先を確認
Bohdan Petryshyn, Mantas Lukoševičius, (参考訳) 大規模言語モデル(LLM)の最近の進歩とコード生成タスクの利用は、ソフトウェア開発の分野を大きく変えた。 主流プログラミング言語におけるコード補完ソリューションの顕著な有効性にもかかわらず、その性能はOpenAPI定義のようなユビキタスでないフォーマットに適用した場合に遅れている。 本研究では,商用コード補完ツールであるGitHub CopilotのOpenAPI補完性能を評価し,MetaのオープンソースモデルであるCode Llamaを利用したタスク固有の最適化セットを提案する。 本研究で提案したセマンティックス対応のOpenAPI補完ベンチマークを用いて,コードラマモデルの性能に対する各種のプロンプトエンジニアリングおよび微調整技術の影響を分析する。 微調整されたCode Llamaモデルは、商用ソリューションの基盤であるCodexモデルの25倍のパラメータを使用するにもかかわらず、GitHub Copilot上で55.2%のピーク精度向上を達成した。 さらに,本研究では,訓練中に使用したコードよりもコンテキストサイズが小さいモデルが誘導される場合のアンダーパフォーマンスの問題に対処するため,広く使用されているコード埋込み訓練手法の強化を提案する。

Recent advancements in Large Language Models (LLMs) and their utilization in code generation tasks have significantly reshaped the field of software development. Despite the remarkable efficacy of code completion solutions in mainstream programming languages, their performance lags when applied to less ubiquitous formats such as OpenAPI definitions. This study evaluates the OpenAPI completion performance of GitHub Copilot, a prevalent commercial code completion tool, and proposes a set of task-specific optimizations leveraging Meta's open-source model Code Llama. A semantics-aware OpenAPI completion benchmark proposed in this research is used to perform a series of experiments through which the impact of various prompt-engineering and fine-tuning techniques on the Code Llama model's performance is analyzed. The fine-tuned Code Llama model reaches a peak correctness improvement of 55.2% over GitHub Copilot despite utilizing 25 times fewer parameters than the commercial solution's underlying Codex model. Additionally, this research proposes an enhancement to a widely used code infilling training technique, addressing the issue of underperformance when the model is prompted with context sizes smaller than those used during training.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 基礎モデルの違いを理解する:注意、状態空間モデル、リカレントニューラルネットワーク

Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks ( http://arxiv.org/abs/2405.15731v1 )

ライセンス: Link先を確認
Jerome Sieber, Carmen Amo Alonso, Alexandre Didier, Melanie N. Zeilinger, Antonio Orvieto, (参考訳) ソフトマックス・アテンション(Softmax attention)は、様々な人工知能アプリケーションの基礎モデルの基本的なバックボーンであるが、シーケンス長の2次複雑さは、長いコンテキスト設定で推論スループットを制限することができる。 この課題に対処するため、線形アテンション、ステートスペースモデル(SSM)、リカレントニューラルネットワーク(RNN)といった代替アーキテクチャがより効率的な代替案として検討されている。 これらのアプローチ間の関係は存在するが、そのようなモデルは一般的に独立して開発されており、これらのアーキテクチャを支える共通原則とその微妙な違いを理論的に理解していないため、パフォーマンスとスケーラビリティに大きな影響を及ぼす。 本稿では,これらすべてのアーキテクチャを共通表現で探索する動的システムフレームワーク(DSF)について紹介する。 我々のフレームワークは厳密な比較を促進し、各モデルクラスの特色に関する新たな洞察を提供する。 例えば、線形注意と選択的SSMを比較し、両者が等価である相違点と条件を詳述する。 また、ソフトマックスアテンションと他のモデルクラスとの原理的な比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。 さらに、これらの新たな知見を経験的検証と数学的議論で裏付ける。 このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。

Softmax attention is the principle backbone of foundation models for various artificial intelligence applications, yet its quadratic complexity in sequence length can limit its inference throughput in long-context settings. To address this challenge, alternative architectures such as linear attention, State Space Models (SSMs), and Recurrent Neural Networks (RNNs) have been considered as more efficient alternatives. While connections between these approaches exist, such models are commonly developed in isolation and there is a lack of theoretical understanding of the shared principles underpinning these architectures and their subtle differences, greatly influencing performance and scalability. In this paper, we introduce the Dynamical Systems Framework (DSF), which allows a principled investigation of all these architectures in a common representation. Our framework facilitates rigorous comparisons, providing new insights on the distinctive characteristics of each model class. For instance, we compare linear attention and selective SSMs, detailing their differences and conditions under which both are equivalent. We also provide principled comparisons between softmax attention and other model classes, discussing the theoretical conditions under which softmax attention can be approximated. Additionally, we substantiate these new insights with empirical validations and mathematical arguments. This shows the DSF's potential to guide the systematic development of future more efficient and scalable foundation models.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# ニューラルパーシステンスダイナミクス

Neural Persistence Dynamics ( http://arxiv.org/abs/2405.15732v1 )

ライセンス: Link先を確認
Sebastian Zeng, Florian Graf, Martin Uray, Stefan Huber, Roland Kwitt, (参考訳) 時間進化する点雲のトポロジにおける力学を学習する問題は、昆虫や鳥の群れや物理学における粒子などの集団行動を示すシステムにおいて、よく見られる時空間モデルである。 このようなシステムでは、自己推進物質間の(局所的な)相互作用からパターンが出現する。 動きと相互作用に関するいくつかのよく理解された支配方程式が存在するが、しばしば多数の実体と観測時間の間の対応が欠如しているため、データに適合し難い。 このような要因を避けるために, 集合的挙動を {textit{topological perspective} から検討するが, 観測シーケンス全体を要約する代わりに, 位相的特徴である {textit{per time point} から潜在力学モデルを学ぶことを提案する。 後者は、ダウンストリーム回帰タスクを定式化して、事前指定した支配方程式のパラメトリゼーションを予測するために使用される。 我々は、ベクトル化された(静的な)永続図から学習した潜在ODEに基づいて、このアイデアを実装し、このモデリング選択が、持続的ホモロジーに対する最近の安定性の結果の組み合わせによって正当化されることを示す。 様々な(アブレーション)実験は、個々のモデルコンポーネントの関連性を実証するだけでなく、我々の提案したモデルである「textit{neural persistence dynamics}」が、様々なパラメータ回帰タスクの集合における最先端技術よりも大幅に優れているという、説得力のある実証的な証拠を提供する。

We consider the problem of learning the dynamics in the topology of time-evolving point clouds, the prevalent spatiotemporal model for systems exhibiting collective behavior, such as swarms of insects and birds or particles in physics. In such systems, patterns emerge from (local) interactions among self-propelled entities. While several well-understood governing equations for motion and interaction exist, they are difficult to fit to data due to the often large number of entities and missing correspondences between the observation times, which may also not be equidistant. To evade such confounding factors, we investigate collective behavior from a \textit{topological perspective}, but instead of summarizing entire observation sequences (as in prior work), we propose learning a latent dynamical model from topological features \textit{per time point}. The latter is then used to formulate a downstream regression task to predict the parametrization of some a priori specified governing equation. We implement this idea based on a latent ODE learned from vectorized (static) persistence diagrams and show that this modeling choice is justified by a combination of recent stability results for persistent homology. Various (ablation) experiments not only demonstrate the relevance of each individual model component, but provide compelling empirical evidence that our proposed model -- \textit{neural persistence dynamics} -- substantially outperforms the state-of-the-art across a diverse set of parameter regression tasks.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# LM4LV:低レベル視覚タスクのための凍結型大規模言語モデル

LM4LV: A Frozen Large Language Model for Low-level Vision Tasks ( http://arxiv.org/abs/2405.15734v1 )

ライセンス: Link先を確認
Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong, (参考訳) 大規模言語モデル(LLMs)の成功は、コンピュータビジョンにおける様々な分野のパラダイムを変える多モード大規模言語モデル(MLLMs)の新たな研究トレンドを生み出している。 MLLMは、VQAやテキスト・トゥ・イメージのような多くの高レベルな視覚および視覚言語タスクにおいて有望な結果を示してきたが、低レベルな視覚タスクがMLLMの利点を如何に発揮できるかを示す研究は行われていない。 その結果,ほとんどのMLLMは視覚モジュールの設計上,低レベルな特徴に欠けており,低レベルな視覚タスクを解くには本質的に不可能であることが判明した。 本研究の目的は、FROZEN LLMがマルチモーダルデータや先行データなしで様々な低レベル視覚タスクを解決できるフレームワークである$\textbf{LM4LV}$である。 これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。 この研究がLSMの新たな視点を刺激し、そのメカニズムをより深く理解することを願っている。

The success of large language models (LLMs) has fostered a new research trend of multi-modality large language models (MLLMs), which changes the paradigm of various fields in computer vision. Though MLLMs have shown promising results in numerous high-level vision and vision-language tasks such as VQA and text-to-image, no works have demonstrated how low-level vision tasks can benefit from MLLMs. We find that most current MLLMs are blind to low-level features due to their design of vision modules, thus are inherently incapable for solving low-level vision tasks. In this work, we purpose $\textbf{LM4LV}$, a framework that enables a FROZEN LLM to solve a range of low-level vision tasks without any multi-modal data or prior. This showcases the LLM's strong potential in low-level vision and bridges the gap between MLLMs and low-level vision tasks. We hope this work can inspire new perspectives on LLMs and deeper understanding of their mechanisms.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 知識推定による量子性の単行証明

Single-Round Proofs of Quantumness from Knowledge Assumptions ( http://arxiv.org/abs/2405.15736v1 )

ライセンス: Link先を確認
Petia Arabadjieva, Alexandru Gheorghiu, Victor Gitton, Tony Metger, (参考訳) 量子性の証明は、効率的な量子コンピュータが通過できるような、効率よく検証可能なインタラクティブなテストである。 このようなプロトコルは、量子デバイスの認証において重要な役割を果たす。 既存のシングルラウンドプロトコル(例えば、量子コンピュータに大量の因子を求めるなど)は大きな量子回路を必要とするが、マルチラウンドプロトコルはより小さな回路を使用するが、実験的な中間回路測定を必要とする。 そのため、量子性の現在の証明は、短期的なデバイスには届かない。 本研究では,既存の知識仮定に基づいて,量子性の効率的な単一ラウンド証明を構築する。 この文脈では知識仮定はこれまでに検討されていないが、古典計算と量子計算を分離するための自然な基礎を提供することを示す。 具体的には,Decisional Diffie-Hellman (DDH) やLearning With Errors (LWE) に基づくマルチラウンドプロトコルを,経験的仮定や相対的仮定を用いて,それぞれ単一ラウンドプロトコルに"コンパイル"可能であることを示す。 また,DDHに基づく無爪関数群に対する適応型ハードコアビットステートメントの証明を行った。 シングルラウンドプロトコルを構築するための従来のアプローチは、ランダムなオラクルモデルに頼っていたため、暗号ハッシュ関数でオラクルをインスタンス化する際のオーバーヘッドを発生させた。 対照的に、我々のプロトコルは、中間回路の測定を必要とせずに、マルチラウンドのプロトコルと同じリソース要件を持ち、量子性の最も効率的な単一ラウンド証明であることは間違いない。 我々の研究は、量子性の証明の設計におけるブラックボックス/ホワイトボックスの削減と暗号的仮定の間の相互作用を理解するのにも役立ちます。

A proof of quantumness is an efficiently verifiable interactive test that an efficient quantum computer can pass, but all efficient classical computers cannot (under some cryptographic assumption). Such protocols play a crucial role in the certification of quantum devices. Existing single-round protocols (like asking the quantum computer to factor a large number) require large quantum circuits, whereas multi-round ones use smaller circuits but require experimentally challenging mid-circuit measurements. As such, current proofs of quantumness are out of reach for near-term devices. In this work, we construct efficient single-round proofs of quantumness based on existing knowledge assumptions. While knowledge assumptions have not been previously considered in this context, we show that they provide a natural basis for separating classical and quantum computation. Specifically, we show that multi-round protocols based on Decisional Diffie-Hellman (DDH) or Learning With Errors (LWE) can be "compiled" into single-round protocols using a knowledge-of-exponent assumption or knowledge-of-lattice-point assumption, respectively. We also prove an adaptive hardcore-bit statement for a family of claw-free functions based on DDH, which might be of independent interest. Previous approaches to constructing single-round protocols relied on the random oracle model and thus incurred the overhead associated with instantiating the oracle with a cryptographic hash function. In contrast, our protocols have the same resource requirements as their multi-round counterparts without necessitating mid-circuit measurements, making them, arguably, the most efficient single-round proofs of quantumness to date. Our work also helps in understanding the interplay between black-box/white-box reductions and cryptographic assumptions in the design of proofs of quantumness.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# より注目されるための洞察: クラスタ化された市場アプリケーションの分析

More Insight from Being More Focused: Analysis of Clustered Market Apps ( http://arxiv.org/abs/2405.15737v1 )

ライセンス: Link先を確認
Maleknaz Nayebi, Homayoon Farrahi, Ada Lee, Henry Cho, Guenther Ruhe, (参考訳) モバイルアプリの魅力が増すにつれ、研究者は異なる視点からアプリを分析するようになった。 他のソフトウェア製品と同様に、アプリはサイズ、コンテンツ成熟度、評価、カテゴリ、ダウンロード数など、さまざまな属性を持つ。 最近の調査では、主に全アプリのサンプリングが検討されている。 この結果、アプリの性質やカテゴリー(天気やカレンダーアプリと比較するゲーム)がかなり異なり、サイズや複雑さもかなり異なることがしばしばある。 プロプライエタリなソフトウェアやWebベースのサービスと同様に、クラスタリングを適用する結果として、より均一なサンプルを受信できるため、より具体的な結果が期待できる。 本稿では,アプリの同質なサンプルを対象とし,分析から得られる洞察の度合いを高める。 概念実証として,F-Droidの940個のオープンソースモバイルアプリに対して,クラスタリング手法DBSCANとその後のアプリ属性間の相関解析を適用した。 私たちはそれを示しました i) 類似した特徴を持つアプリのクラスタは、データ全体に同じを適用することに比べ、より多くの洞察を与えます。 (II)トピックモデリング手法であるLatent Dirichlet Allocationから作成されたトピックの類似性に基づいてアプリの類似性を定義することは、クラスタリングの結果を著しく改善するものではない。

The increasing attraction of mobile apps has inspired researchers to analyze apps from different perspectives. As with any software product, apps have different attributes such as size, content maturity, rating, category, or number of downloads. Current research studies mostly consider sampling across all apps. This often results in comparisons of apps being quite different in nature and category (games compared with weather and calendar apps), also being different in size and complexity. Similar to proprietary software and web-based services, more specific results can be expected from looking at more homogeneous samples as they can be received as a result of applying clustering. In this paper, we target homogeneous samples of apps to increase the degree of insight gained from analytics. As a proof-of-concept, we applied the clustering technique DBSCAN and subsequent correlation analysis between app attributes for a set of 940 open-source mobile apps from F-Droid. We showed that (i) clusters of apps with similar characteristics provided more insight compared to applying the same to the whole data and (ii) defining the similarity of apps based on the similarity of topics as created from the topic modeling technique Latent Dirichlet Allocation does not significantly improve clustering results.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# ConvLLaVA: 大規模マルチモーダルモデルのためのビジュアルエンコーダとしての階層型バックボーン

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models ( http://arxiv.org/abs/2405.15738v1 )

ライセンス: Link先を確認
Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng, (参考訳) 高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。 現在の高解像度のLMMは、過度な視覚トークンを生成しながら二次的な複雑さに対処している。 しかし、視覚トークンの冗長性は、より実質的な計算につながるため、鍵となる問題である。 この問題を軽減するために,LMMの視覚エンコーダとして,階層的なバックボーンであるConvNeXtを用いて視覚変換器(ViT)を置き換えるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。 ConvLLaVAの能力を高めるために,2つの重要な最適化を提案する。 高分解能に直接適用した場合、低分解能プレトレーニングのConvNeXtは性能が低下するため、ギャップを埋めるために更新する。 さらに、ConvNeXtの元々の圧縮比は、はるかに高解像度な入力には不十分であるため、視覚トークンをさらに圧縮するために連続的なステージを訓練し、冗長性を低減させる。 これらの最適化により、ConvLLaVAは、1536x1536解像度の入力をサポートし、任意のアスペクト比の画像を処理できる576の視覚トークンしか生成できない。 実験により,本手法は主流ベンチマーク上での最先端モデルとの競合性能を実証した。 ConvLLaVAモデルシリーズはhttps://github.com/alibaba/conv-llava.comで公開されている。

High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 強化サイテーションバイアスを用いた大規模言語モデルによる人間のクエンテーションパターンの反映

Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias ( http://arxiv.org/abs/2405.15739v1 )

ライセンス: Link先を確認
Andres Algaba, Carmen Mazijn, Vincent Holst, Floriano Tori, Sylvia Wenmackers, Vincent Ginis, (参考訳) サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。 GPT-4のような大規模言語モデル(LLM)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。 興味深いことに、LLMが推奨する参照の特徴と潜在的なバイアスは、そのパラメトリックな知識に完全に依存しており、検索や検索強化世代に依存していない。 本稿では,これらの特徴を,GPT-4の知識遮断日後に公表されたAAAI,NeurIPS,ICML,ICLRの166論文のデータセットを用いて解析した。 実験では,GPT-4は,これらの論文の中で匿名化されたインテキストの引用を学術的に参照することを提案する。 GPT-4では, 出版年, タイトル長, 著者数, 会場数などをコントロールした上でも, 高い引用バイアスが持続している。 さらに、GPT-4の既存の参照と存在しない参照の特徴との間に大きな一貫性が見られ、モデルが励起パターンを内部化していることが示される。 引用グラフを解析することにより, GPT-4で推奨される参照が関連する引用コンテキストに埋め込まれていることが示され, 引用ネットワークのより深い概念的内部化が示唆された。 LLMは引用生成に役立つが、既存のバイアスを増幅し、新しいバイアスを導入し、科学的知識の拡散を引き起こす可能性がある。 この結果から,モデルのバイアスを同定し,LLMと一般に相互作用するバランスの取れた手法を開発する必要性が示唆された。

Citation practices are crucial in shaping the structure of scientific knowledge, yet they are often influenced by contemporary norms and biases. The emergence of Large Language Models (LLMs) like GPT-4 introduces a new dynamic to these practices. Interestingly, the characteristics and potential biases of references recommended by LLMs that entirely rely on their parametric knowledge, and not on search or retrieval-augmented generation, remain unexplored. Here, we analyze these characteristics in an experiment using a dataset of 166 papers from AAAI, NeurIPS, ICML, and ICLR, published after GPT-4's knowledge cut-off date, encompassing 3,066 references in total. In our experiment, GPT-4 was tasked with suggesting scholarly references for the anonymized in-text citations within these papers. Our findings reveal a remarkable similarity between human and LLM citation patterns, but with a more pronounced high citation bias in GPT-4, which persists even after controlling for publication year, title length, number of authors, and venue. Additionally, we observe a large consistency between the characteristics of GPT-4's existing and non-existent generated references, indicating the model's internalization of citation patterns. By analyzing citation graphs, we show that the references recommended by GPT-4 are embedded in the relevant citation context, suggesting an even deeper conceptual internalization of the citation networks. While LLMs can aid in citation generation, they may also amplify existing biases and introduce new ones, potentially skewing scientific knowledge dissemination. Our results underscore the need for identifying the model's biases and for developing balanced methods to interact with LLMs in general.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# スパース最大更新パラメータ化:スパーストレーニングダイナミクスに対する総合的アプローチ

Sparse maximal update parameterization: A holistic approach to sparse training dynamics ( http://arxiv.org/abs/2405.15743v1 )

ライセンス: Link先を確認
Nolan Dey, Shane Bergsma, Joel Hestness, (参考訳) いくつかの課題は、疎いニューラルネットワークが高密度モデルと競合することを困難にしている。 第一に、重量のかなりの部分をゼロに設定すると、前方と勾配信号の伝搬が損なわれる。 第二に、スパース研究は、しばしば複数の空間レベルをテストする必要がある一方で、新しいハイパーパラメータ(HP)を導入し、禁止的なチューニングコストをもたらす。 実際、標準のプラクティスは、もともと密度の高いモデルのために作られたHPの学習を再利用することである。 残念なことに、疎結合で密度の高いネットワークは、同じ最適なHPを共有していない。 安定したダイナミックスと効果的なトレーニングのレシピがなければ、高密度ネットワークを超越し、ハードウェアにおけるスパーシティアクセラレーションのビジネスケースを作る上で鍵となる、大規模にスパーシティをテストするのにコストがかかる。 これらの課題に対処するためには総合的なアプローチが必要であり、そのようなアプローチとしてS$\mu$Parを提案する。 S$\mu$Parは、アクティベーション、グラデーション、およびウェイト更新を、すべてのスペーサリティレベルとは無関係に保証する。 さらに、HPsを再パラメータ化することにより、S$\mu$Parは同じHP値が、スパーシリティレベルとモデル幅の両方が異なるため最適となる。 HPは小さな高密度ネットワーク上でチューニングが可能で、大きなスパースモデルに移行することで、チューニングコストを大幅に削減できる。 大規模言語モデリングでは、S$\mu$Parトレーニングは、高密度モデル標準パラメータ化を用いる一般的なアプローチに比べて、損失を最大8.2%改善する。

Several challenges make it difficult for sparse neural networks to compete with dense models. First, setting a large fraction of weights to zero impairs forward and gradient signal propagation. Second, sparse studies often need to test multiple sparsity levels, while also introducing new hyperparameters (HPs), leading to prohibitive tuning costs. Indeed, the standard practice is to re-use the learning HPs originally crafted for dense models. Unfortunately, we show sparse and dense networks do not share the same optimal HPs. Without stable dynamics and effective training recipes, it is costly to test sparsity at scale, which is key to surpassing dense networks and making the business case for sparsity acceleration in hardware. A holistic approach is needed to tackle these challenges and we propose S$\mu$Par as one such approach. S$\mu$Par ensures activations, gradients, and weight updates all scale independently of sparsity level. Further, by reparameterizing the HPs, S$\mu$Par enables the same HP values to be optimal as we vary both sparsity level and model width. HPs can be tuned on small dense networks and transferred to large sparse models, greatly reducing tuning costs. On large-scale language modeling, S$\mu$Par training improves loss by up to 8.2% over the common approach of using the dense model standard parameterization.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# CAFe: コストと年齢を考慮したフェデレーションラーニング

CAFe: Cost and Age aware Federated Learning ( http://arxiv.org/abs/2405.15744v1 )

ライセンス: Link先を確認
Sahan Liyanaarachchi, Kanchana Thilakarathna, Sennur Ulukus, (参考訳) 多くのフェデレーテッドラーニング(FL)モデルでは、トレーニングプロセスの進捗を確実にするために使われる一般的な戦略として、合計$N$クライアントのうち少なくとも$M$クライアントが、パラメータサーバ(PS)がグローバルモデルをブロードキャストすると、レポートの期限である$T$に基づいてローカル勾配を送信するのを待つことである。 期限内に十分なクライアントが報告しなければ、特定のラウンドは失敗ラウンドと見なされ、トレーニングラウンドはゼロから再開されます。 十分な数のクライアントが応答した場合、ラウンドは成功と判断され、応答したすべてのクライアントの局所的な勾配が、グローバルモデル更新に使用される。 いずれにせよ、期限内に更新を報告できなかったクライアントは、計算リソースを浪費していただろう。 より厳密な期限 (小さな$T$) を持ち、より多くの参加クライアント (大きな$M$) を待つと、多数のラウンドが失敗し、通信コストと計算リソースの浪費が増加する。 しかし、より大きい$T$を持つことは長いラウンド期間につながるが、小さい$M$はノイズのある勾配につながる可能性がある。 したがって、パラメータを$M$と$T$で最適化し、通信コストとリソースの無駄を最小化し、許容できる収束率を持つようにする必要がある。 この点において、PSにおけるクライアントの平均年齢は理論収束境界に明示的に現れるので、大域モデルの収束を定量化するための計量として用いることができる。 この設定でパラメータ$M$と$T$を選択するための分析スキームを提供する。

In many federated learning (FL) models, a common strategy employed to ensure the progress in the training process, is to wait for at least $M$ clients out of the total $N$ clients to send back their local gradients based on a reporting deadline $T$, once the parameter server (PS) has broadcasted the global model. If enough clients do not report back within the deadline, the particular round is considered to be a failed round and the training round is restarted from scratch. If enough clients have responded back, the round is deemed successful and the local gradients of all the clients that responded back are used to update the global model. In either case, the clients that failed to report back an update within the deadline would have wasted their computational resources. Having a tighter deadline (small $T$) and waiting for a larger number of participating clients (large $M$) leads to a large number of failed rounds and therefore greater communication cost and computation resource wastage. However, having a larger $T$ leads to longer round durations whereas smaller $M$ may lead to noisy gradients. Therefore, there is a need to optimize the parameters $M$ and $T$ such that communication cost and the resource wastage is minimized while having an acceptable convergence rate. In this regard, we show that the average age of a client at the PS appears explicitly in the theoretical convergence bound, and therefore, can be used as a metric to quantify the convergence of the global model. We provide an analytical scheme to select the parameters $M$ and $T$ in this setting.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# 空域Wi-FiMACアドレス再ランダム化

Over-the-Air Runtime Wi-Fi MAC Address Re-randomization ( http://arxiv.org/abs/2405.15747v1 )

ライセンス: Link先を確認
Hongyu Jin, Panos Papadimitratos, (参考訳) メディアアクセス制御(MAC)アドレスランダム化は、Wi-Fiネットワークにおけるプライバシー保護の鍵となるコンポーネントである。 現在の提案では、アクセシビリティポイント(AP)から切り離されたときに、モバイルデバイスMACアドレスを定期的に変更している。 この方法では、フレームは変更間でリンクできないが、モバイルデバイスの存在は、接続されている限り露呈する。 我々のランタイムMAC再ランダム化方式はこの問題に対処し、接続を待たずにWi-Fiフレームのリンクを減らしたり削除したりします。 MACアドレスは送信直前に再ランダム化され、プロトコルスタック(モバイルとAP)は元のMACアドレスをローカルに保持します。 オフザシェルフデバイスを用いた小型実験の実施により,本手法の有効性と今後の展開の可能性を示す。

Medium Access Control (MAC) address randomization is a key component for privacy protection in Wi-Fi networks. Current proposals periodically change the mobile device MAC addresses when it disconnects from the Access Point (AP). This way frames cannot be linked across changes, but the mobile device presence is exposed as long as it remains connected: all its communication is trivially linkable by observing the randomized yet same MAC address throughout the connection. Our runtime MAC re-randomization scheme addresses this issue, reducing or eliminating Wi-Fi frames linkability without awaiting for or requiring a disconnection. Our MAC re-randomization is practically 'over-the-air': MAC addresses are re-randomized just before transmission, while the protocol stacks (at the mobile and the AP) maintain locally the original connection MAC addresses - making our MAC layer scheme transparent to upper layers. With an implementation and a set of small-scale experiments with off-the-shelf devices, we show the feasibility of our scheme and the potential towards future deployment.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# IoTのための協調的アクセス制御 -- ブロックチェーンアプローチ

Collaborative Access Control for IoT -- A Blockchain Approach ( http://arxiv.org/abs/2405.15749v1 )

ライセンス: Link先を確認
Yongtao Huang, I-Ling Yen, Farokh Bastani, (参考訳) IoT(Internet of Things)は、多数の相互接続デバイスを保護するために、堅牢なアクセス制御機構を必要とする。 既存のIoTシステムのほとんどは、集中型ソリューションを使用している。 このようなソリューションの問題を識別し、ブロックチェーンベースの分散アクセス制御アプローチを採用する。 アクセス制御にブロックチェーンを使用する文献は存在するが、これらの研究にはいくつかのギャップがある。 ギャップを埋めるブロックチェーン組み込みアクセス制御(BEAC)フレームワークを開発しています。 まず、アクセス制御のためのブロックチェーンベースのソリューションでは、P2Pネットワークを有効にする必要があるが、既存のP2Pオーバーレイはいくつかの必要な機能をサポートしていない。 BEACフレームワークをシームレスにサポートする新しいP2Pインフラストラクチャを開発しました。 第2に、ブロックチェーンベースの単一のアクセス制御モデルに対するアクセス制御を検討し、汎用的なブロックチェーンメカニズムを開発し、さまざまなアクセス制御モデルの埋め込みをサポートできることを示します。 最後に、既存の作業では、通信オーバーヘッドの高い既存のブロックチェーンメカニズムを採用しています。 アクセスプロトコルにおけるメッセージラウンド数を改善するためのショートカット手法を開発した。 提案システムの有効性を実証し,ショートカット機構によりアクセス時間を約43%短縮できることを示した。

The Internet of Things (IoT) necessitates robust access control mechanisms to secure a vast array of interconnected devices. Most of the existing IoT systems in practice use centralized solutions. We identify the problems in such solutions and adopt the blockchain based decentralized access control approach. Though there are works in the literature that use blockchain for access control, there are some gaps in these works. We develop a blockchain embedded access control (BEAC) framework to bridge the gaps. First, blockchain based solutions for access control require an enabling P2P network while existing P2P overlays do not support some required features. We develop a novel P2P infrastructure to seamlessly support our BEAC framework. Second, most of the works consider blockchain based access control for a single access control model, and we develop a generic blockchain mechanism and show that it can support the embedding of various access control models. Finally, existing works adopt existing blockchain mechanisms which may incur a high communication overhead. We develop a shortcut approach to improve the number of message rounds in the access protocol. Our experiments demonstrate the efficacy of our system, showing that the shortcut mechanism can reduces access time by approximately 43%.
翻訳日:2024-05-27 13:01:17 公開日:2024-05-24
# フィルタコーパストレーニング(FiCT)は、言語モデルが間接的証拠から一般化可能であることを示す

Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence ( http://arxiv.org/abs/2405.15750v1 )

ライセンス: Link先を確認
Abhinav Patil, Jaap Jumelet, Yu Ying Chiu, Andy Lapastora, Peter Shen, Lexie Wang, Clevis Willrich, Shane Steinert-Threlkeld, (参考訳) 本稿では,コーパス上の言語モデル(LM)を学習データから抽出した特定の言語構造を用いて訓練し,間接的証拠に基づく言語一般化を行うためのLMの能力を測定する方法であるフィルタコーパストレーニングを紹介する。 本手法をLSTMとTransformer LM(ほぼ同等の大きさ)に応用し,幅広い言語現象を対象とするフィルタコーパスを開発した。 以上の結果から,トランスフォーマーは(パープレキシティによって測定されるように)より優れた準LMでありながら,両モデルとも言語的一般化対策において等しく,驚くほど良好に機能し,間接的証拠から一般化できることが示唆された。

This paper introduces Filtered Corpus Training, a method that trains language models (LMs) on corpora with certain linguistic constructions filtered out from the training data, and uses it to measure the ability of LMs to perform linguistic generalization on the basis of indirect evidence. We apply the method to both LSTM and Transformer LMs (of roughly comparable size), developing filtered corpora that target a wide range of linguistic phenomena. Our results show that while transformers are better qua LMs (as measured by perplexity), both models perform equally and surprisingly well on linguistic generalization measures, suggesting that they are capable of generalizing from indirect evidence.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# 市場と非市場モバイルアプリリリースの分析

Analysis of Marketed versus Not-marketed Mobile App Releases ( http://arxiv.org/abs/2405.15752v1 )

ライセンス: Link先を確認
Maleknaz Nayebi, Homayoon Farrahi, Guenther Ruhe, (参考訳) モバイルアプリの市場とユーザの特徴は、リリース管理をプロプライエタリなソフトウェア製品やWebサービスと異なるものにしている。 アプリに対するユーザのフィードバックに関する情報が豊富にあるにも関わらず,不整合性や不確実性のため,アプリリリースの詳細な分析は困難である。 アプリリリースプロセスの理解を深め、潜在的に改善するために、セマンティックバージョニング後のリリースのメジャーリリース、マイナーリリース、パッチリリースを分析します。 特に、市場リリースと非市場リリースの違いを見つけることには興味がありました。 以上の結果から,メジャーリリース,マイナーリリース,パッチリリースはリリースサイクルの期間,特性,変更速度に有意な差があることが示唆された。 また、サイクル期間、性質、変更範囲、オープンおよびクローズドな問題の数に関して、市場と非マーケットのモバイルアプリリリースの間に大きな違いがあることも観察した。

Market and user characteristics of mobile apps make their release management different from proprietary software products and web services. Despite the wealth of information regarding users' feedback on an app, an in-depth analysis of app releases is difficult due to the inconsistency and uncertainty of the information. To better understand and potentially improve app release processes, we analyze major, minor, and patch releases for releases following semantic versioning. In particular, we were interested in finding out the difference between marketed and not-marketed releases. Our results show that, in general, major, minor, and patch releases have significant differences in the release cycle duration, nature, and change velocity. We also observed that there is a significant difference between marketed and non-marketed mobile app releases in terms of cycle duration, nature and the extent of changes, and the number of opened and closed issues.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# データ再構成 - 見る時と見ない時

Data Reconstruction: When You See It and When You Don't ( http://arxiv.org/abs/2405.15753v1 )

ライセンス: Link先を確認
Edith Cohen, Haim Kaplan, Yishay Mansour, Shay Moran, Kobbi Nissim, Uri Stemmer, Eliad Tsfadia, (参考訳) 再建攻撃を構成するものを正式に定義する上での根本的な問題を再考する。 文脈からはしばしば明確だが、我々の探索では、正確な定義が見かけよりもはるかにニュアンスで、1つの全アクセス定義が存在しない程度に明らかにされている。 このように、我々は異なる戦略を採用し、2つの補足的な疑問に対処することで、再建攻撃の概念を「サンドウィッチ」することを目指している。 (i)そのような攻撃に対して特定のシステムが保護されていることを保証している条件は? (ii)特定の攻撃が、システムが保護されていないことを明確に示している状況は、どのようなものか。 より具体的には、新しい定義パラダイムであるNarcissus Resiliencyを導入し、再構築攻撃に対するセキュリティ定義を定式化します。 このパラダイムは自己参照性を持ち、これまで研究されてきたセキュリティの概念の欠点を回避できる。 さらに、副作用として、Narcissus resiliencyは、差分プライバシーやその他の一方通行機能や暗号化方式のセキュリティ概念を含む、よく研究されている複数の概念として捉えられることを示す。 ※再建攻撃とコルモゴロフ複雑性の関連を定式化する。 これにより、そのような攻撃が確実に成功したかどうかを評価するための基準を提示できます。

We revisit the fundamental question of formally defining what constitutes a reconstruction attack. While often clear from the context, our exploration reveals that a precise definition is much more nuanced than it appears, to the extent that a single all-encompassing definition may not exist. Thus, we employ a different strategy and aim to "sandwich" the concept of reconstruction attacks by addressing two complementing questions: (i) What conditions guarantee that a given system is protected against such attacks? (ii) Under what circumstances does a given attack clearly indicate that a system is not protected? More specifically, * We introduce a new definitional paradigm -- Narcissus Resiliency -- to formulate a security definition for protection against reconstruction attacks. This paradigm has a self-referential nature that enables it to circumvent shortcomings of previously studied notions of security. Furthermore, as a side-effect, we demonstrate that Narcissus resiliency captures as special cases multiple well-studied concepts including differential privacy and other security notions of one-way functions and encryption schemes. * We formulate a link between reconstruction attacks and Kolmogorov complexity. This allows us to put forward a criterion for evaluating when such attacks are convincingly successful.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# スコアベース生成モデルは証明可能ロバストである:不確実な定量化の観点から

Score-based generative models are provably robust: an uncertainty quantification perspective ( http://arxiv.org/abs/2405.15754v1 )

ライセンス: Link先を確認
Nikiforos Mimikos-Stamatopoulos, Benjamin J. Zhang, Markos A. Katsoulakis, (参考訳) 不確実性定量化(UQ)の観点からは、スコアベース生成モデル(SGM)が実用実装において複数のエラー源に対して確実に堅牢であることを示す。 我々の主要なツールであるWUP定理は、スコア関数の学習から$L^2$の誤差が、フォッカー・プランク方程式の進化の下で真のデータ分布の周りのワッサーシュタイン-1 ("\mathbf{d}_1$") 球にどのように伝播するかを記述するモデル形式のUQ境界である。 私たちはどのようにしてエラーが起こるかを示す a)有限サンプル近似 (b)早期停止 (c)スコアマッチングの客観的選択 (d)スコア関数のパラメトリゼーション表現性、及び (e) 参照分布の選択は、計算可能量の$\mathbf{d}_1$バウンドの観点から生成モデルの品質に影響を与える。 WUP定理は、ハミルトン・ヤコビ・ベルマン偏微分方程式(PDE)と拡散過程の正則性に対するバーンスタインの推定に依存する。 具体的には、PDE正則性理論は確率性がSGMアルゴリズムが確実に堅牢であることを保証する鍵となるメカニズムであることを示している。 WUP定理は、全変動距離や最大平均誤差など、$\mathbf{d}_1$を超える積分確率測度に適用される。 WUP定理から直接、$\mathbf{d}_1$ のサンプル複雑性と一般化境界が従う。 我々のアプローチは最小の仮定を必要とし、多様体仮説に非依存であり、対象分布に対する絶対連続性仮定を避ける。 さらに,SGMにおける複数のエラー源間のトレードオフを明らかにした。

Through an uncertainty quantification (UQ) perspective, we show that score-based generative models (SGMs) are provably robust to the multiple sources of error in practical implementation. Our primary tool is the Wasserstein uncertainty propagation (WUP) theorem, a model-form UQ bound that describes how the $L^2$ error from learning the score function propagates to a Wasserstein-1 ($\mathbf{d}_1$) ball around the true data distribution under the evolution of the Fokker-Planck equation. We show how errors due to (a) finite sample approximation, (b) early stopping, (c) score-matching objective choice, (d) score function parametrization expressiveness, and (e) reference distribution choice, impact the quality of the generative model in terms of a $\mathbf{d}_1$ bound of computable quantities. The WUP theorem relies on Bernstein estimates for Hamilton-Jacobi-Bellman partial differential equations (PDE) and the regularizing properties of diffusion processes. Specifically, PDE regularity theory shows that stochasticity is the key mechanism ensuring SGM algorithms are provably robust. The WUP theorem applies to integral probability metrics beyond $\mathbf{d}_1$, such as the total variation distance and the maximum mean discrepancy. Sample complexity and generalization bounds in $\mathbf{d}_1$ follow directly from the WUP theorem. Our approach requires minimal assumptions, is agnostic to the manifold hypothesis and avoids absolute continuity assumptions for the target distribution. Additionally, our results clarify the trade-offs among multiple error sources in SGMs.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# ETTrack:マルチオブジェクトトラッキングのためのテンポラルモーション予測器

ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking ( http://arxiv.org/abs/2405.15755v1 )

ライセンス: Link先を確認
Xudong Han, Nobuyuki Oishi, Yueying Tian, Elif Ucurum, Rupert Young, Chris Chatwin, Philip Birch, (参考訳) 多くのマルチオブジェクト追跡(MOT)アプローチは、検出されたすべてのオブジェクトをフレーム間で関連付けるために、モーション情報を活用する。 しかしながら、カルマンフィルタのようなフィルタリングに基づくアルゴリズムに依存する多くの手法は、しばしば線形運動のシナリオでうまく機能するが、複雑で非線形な動きをしている物体の位置を正確に予測することは困難である。 これらのシナリオに対処するために,時間的動き予測器であるETTrackを改良した動きに基づくMOT手法を提案する。 具体的には、この動き予測器は、変圧器モデルと時間畳み込みネットワーク(TCN)を統合して、短期及び長期の動作パターンを捉え、過去の動き情報に基づいて個々の物体の将来の動きを予測する。 さらに,トレーニング中の物体の運動方向に関する追加情報を提供するモメンタム補正損失関数を提案する。 これにより、動き予測器は動きの変化に迅速に適応し、将来の動きをより正確に予測することができる。 実験の結果,ETTrackはDanceTrackとSportsMOTの最先端トラッカーと比較して,それぞれ56.4%,HOTAの74.4%の競合性能を示した。

Many Multi-Object Tracking (MOT) approaches exploit motion information to associate all the detected objects across frames. However, many methods that rely on filtering-based algorithms, such as the Kalman Filter, often work well in linear motion scenarios but struggle to accurately predict the locations of objects undergoing complex and non-linear movements. To tackle these scenarios, we propose a motion-based MOT approach with an enhanced temporal motion predictor, ETTrack. Specifically, the motion predictor integrates a transformer model and a Temporal Convolutional Network (TCN) to capture short-term and long-term motion patterns, and it predicts the future motion of individual objects based on the historical motion information. Additionally, we propose a novel Momentum Correction Loss function that provides additional information regarding the motion direction of objects during training. This allows the motion predictor rapidly adapt to motion variations and more accurately predict future motion. Our experimental results demonstrate that ETTrack achieves a competitive performance compared with state-of-the-art trackers on DanceTrack and SportsMOT, scoring 56.4% and 74.4% in HOTA metrics, respectively.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# スパース伸展と神経遠絡

Sparse Expansion and Neuronal Disentanglement ( http://arxiv.org/abs/2405.15756v1 )

ライセンス: Link先を確認
Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit, (参考訳) 本研究では, LLM をスパースの専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。 このアプローチを $\textit{Sparse Expansion}$ と呼ぶ。 Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張はトークン当たりのFLOP予算で他の全てのワンショットスペーシフィケーションアプローチよりも優れており、このギャップはスパシティの増加とともに増大し、推論速度が向上することを示している。 でも、なぜ? これに対応するために、スパースの専門家の混合物が事実上$\textit{disentangling}$個々のニューロンの入力-出力関係であることを示す強力な証拠を提供する。 具体的には、スパースの専門家は、より単純なものの集合に分散を分解することで、より少ない重量で密度の高いニューロンの出力分布を近似した。 興味深いことに、ニューロンの出力分布とガウス分布の間のワッサーシュタイン距離は、その絡み合いの指標であり、モデルの精度に寄与する。 LLMのすべての層は、非常に絡み合ったワッサースタインニューロンのごく一部を持ち、モデル性能は、それらが他のものと対照的にスパース化されているときにより困難である。

We show how to improve the inference efficiency of an LLM by expanding it into a mixture of sparse experts, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input values. We call this approach $\textit{Sparse Expansion}$. We show that, for models such as Llama 2 70B, as we increase the number of sparse experts, Sparse Expansion outperforms all other one-shot sparsification approaches for the same inference FLOP budget per token, and that this gap grows as sparsity increases, leading to inference speedups. But why? To answer this, we provide strong evidence that the mixture of sparse experts is effectively $\textit{disentangling}$ the input-output relationship of every individual neuron across clusters of inputs. Specifically, sparse experts approximate the dense neuron output distribution with fewer weights by decomposing the distribution into a collection of simpler ones, each with a separate sparse dot product covering it. Interestingly, we show that the Wasserstein distance between a neuron's output distribution and a Gaussian distribution is an indicator of its entanglement level and contribution to the accuracy of the model. Every layer of an LLM has a fraction of highly entangled Wasserstein neurons, and model performance suffers more when these are sparsified as opposed to others.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# 振り返る:フィーチャーバンクでビデオからビデオへの翻訳をストリーミング

Looking Backward: Streaming Video-to-Video Translation with Feature Banks ( http://arxiv.org/abs/2405.15757v1 )

ライセンス: Link先を確認
Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu, (参考訳) 本稿では,ユーザプロンプトによるリアルタイムストリーミングビデオ変換を実現する拡散モデルStreamV2Vを紹介する。 バッチを使用して限られたフレームを処理する従来のV2V手法とは異なり、我々は無制限フレームをサポートするために、ストリーミング形式でフレームを処理することを選択した。 StreamV2Vの中心には、現在と過去を関連づけた後ろ向きの原理がある。 これは、過去のフレームから情報をアーカイブするフィーチャーバンクを維持することで実現される。 入ってくるフレームに対して、StreamV2Vは自己アテンションを拡張して、バンクされたキーと値を含み、同様の過去の機能を出力に直接フューズする。 機能バンクは、格納された機能と新機能をマージすることで継続的に更新される。 StreamV2Vはその適応性と効率性を強調し、微調整なしで画像拡散モデルとシームレスに統合する。 1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。 定量的メトリクスとユーザスタディは、StreamV2Vの時間的一貫性を維持する異常な能力を確認している。

This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# InstructAvatar:アバター生成のためのテキストガイド型感情制御

InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation ( http://arxiv.org/abs/2405.15758v1 )

ライセンス: Link先を確認
Yuchi Wang, Junliang Guo, Jianhong Bai, Runyi Yu, Tianyu He, Xu Tan, Xu Sun, Jiang Bian, (参考訳) 最近の音声アバター生成モデルは、現実的で正確な唇の同期を実現するために進歩してきたが、しばしばアバターの詳細な表情や感情を制御・伝達するのに不足しており、生成された映像は鮮明で制御しにくくなっている。 本稿では,感情表現型2Dアバターを生成するためのテキスト誘導方式を提案する。 我々のフレームワークであるInstructAvatarは、自然言語インタフェースを利用して感情やアバターの顔の動きを制御します。 技術的には、音声とテキストによるアバターの予測を同時に行う新しい2分岐拡散ベースジェネレータを備えた、命令ビデオペアトレーニングデータセットを構築するための自動アノテーションパイプラインを設計する。 実験結果から,InstructAvatarは両条件とも良好に一致し,感情制御,リップシンク品質,自然性などの既存手法よりも優れることがわかった。 私たちのプロジェクトページはhttps://wangyuchi369.github.io/InstructAvatar/です。

Recent talking avatar generation models have made strides in achieving realistic and accurate lip synchronization with the audio, but often fall short in controlling and conveying detailed expressions and emotions of the avatar, making the generated video less vivid and controllable. In this paper, we propose a novel text-guided approach for generating emotionally expressive 2D avatars, offering fine-grained control, improved interactivity, and generalizability to the resulting video. Our framework, named InstructAvatar, leverages a natural language interface to control the emotion as well as the facial motion of avatars. Technically, we design an automatic annotation pipeline to construct an instruction-video paired training dataset, equipped with a novel two-branch diffusion-based generator to predict avatars with audio and text instructions at the same time. Experimental results demonstrate that InstructAvatar produces results that align well with both conditions, and outperforms existing methods in fine-grained emotion control, lip-sync quality, and naturalness. Our project page is https://wangyuchi369.github.io/InstructAvatar/.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# GPTはアノテーションではない:フェアネスベンチマーク構築における人間のアノテーションの必要性

GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction ( http://arxiv.org/abs/2405.15760v1 )

ライセンス: Link先を確認
Virginia K. Felkner, Jennifer A. Thompson, Jonathan May, (参考訳) LLMの社会的バイアスは通常、バイアスベンチマークデータセットによって測定される。 現在のベンチマークには、スコープ、接地、品質、人的労力の制限がある。 これまでの研究は、クラウドソースではなく、コミュニティソースによるベンチマーク開発で成功している。 しかし、この研究には、関連する生活経験を持つアノテーターによるかなりの努力が必要であった。 本稿では,LPM(特にGPT-3.5-Turbo)が,オープンエンドコミュニティサーベイへの回答からバイアスベンチマークデータセットの開発を支援することができるかどうかを考察する。 我々は、ユダヤ人コミュニティと反ユダヤ主義という、新しいコミュニティと一連の偏見に、以前の作業を拡張した。 分析の結果,GPT-3.5-Turboはアノテーション処理の性能が悪く,出力に許容できない品質問題が発生することがわかった。 したがって、GPT-3.5-Turboは、社会的バイアスに関連するセンシティブなタスクにおける人間のアノテーションの適切な代用ではない。

Social biases in LLMs are usually measured via bias benchmark datasets. Current benchmarks have limitations in scope, grounding, quality, and human effort required. Previous work has shown success with a community-sourced, rather than crowd-sourced, approach to benchmark development. However, this work still required considerable effort from annotators with relevant lived experience. This paper explores whether an LLM (specifically, GPT-3.5-Turbo) can assist with the task of developing a bias benchmark dataset from responses to an open-ended community survey. We also extend the previous work to a new community and set of biases: the Jewish community and antisemitism. Our analysis shows that GPT-3.5-Turbo has poor performance on this annotation task and produces unacceptable quality issues in its output. Thus, we conclude that GPT-3.5-Turbo is not an appropriate substitute for human annotation in sensitive tasks related to social biases, and that its use actually negates many of the benefits of community-sourcing bias benchmarks.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# FreeMotion:Number-free Text-to-Motion 合成のための統一フレームワーク

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis ( http://arxiv.org/abs/2405.15763v1 )

ライセンス: Link先を確認
Ke Fan, Junshu Tang, Weijian Cao, Ran Yi, Moran Li, Jingyu Gong, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Lizhuang Ma, (参考訳) テキスト・トゥ・モーション合成はコンピュータビジョンにおいて重要な課題である。 既存の手法は、一人または二人のシナリオ用に調整されており、より多くの個人に対して動作を生成するには適用できないため、普遍性に制限がある。 数自由な動作合成を実現するために,本論文では,条件付き動作分布による単一動作と多人数動作の統一を提案する。 生成モジュールと相互作用モジュールはFreeMotionフレームワーク用に設計されており、条件付きモーション生成のプロセスを分離し、最終的に数自由モーション合成をサポートする。 さらに,本フレームワークをベースとした一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。 広範囲な実験により,本手法の優れた性能と,単動作と多動作を同時に推定する能力が実証された。

Text-to-motion synthesis is a crucial task in computer vision. Existing methods are limited in their universality, as they are tailored for single-person or two-person scenarios and can not be applied to generate motions for more individuals. To achieve the number-free motion synthesis, this paper reconsiders motion generation and proposes to unify the single and multi-person motion by the conditional motion distribution. Furthermore, a generation module and an interaction module are designed for our FreeMotion framework to decouple the process of conditional motion generation and finally support the number-free motion synthesis. Besides, based on our framework, the current single-person motion spatial control method could be seamlessly integrated, achieving precise control of multi-person motion. Extensive experiments demonstrate the superior performance of our method and our capability to infer single and multi-human motions simultaneously.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# 大規模言語モデルにおける識別的分類のためのスケーリング法則

Scaling Laws for Discriminative Classification in Large Language Models ( http://arxiv.org/abs/2405.15765v1 )

ライセンス: Link先を確認
Dean Wyatte, Fatemeh Tahmasbi, Ming Li, Thomas Markovich, (参考訳) 現代の大規模言語モデル(LLM)は、機械学習モデルに期待できることのパラダイムシフトを表している。 LLMが多種多様なクエリに対して有効な答えを効果的に生成できるという事実は、顧客サポートアプリケーションに有用であろうことを示唆している。 LLMは強力だが、幻覚の傾向が強く、残念ながら顧客サポートアプリケーションでは短期的に利用することが困難である。 この問題に対処するために,言語モデリングタスクを識別的分類タスクとして再定義することで,LLMを使用して顧客サポートの支持者を増強するシステムを提案する。 このフレーミングでは、カスタマーサポート支持者が顧客に対応する際に使用する、トップKのテンプレートレスポンスを提示する。 オフラインとオンラインの両方の実験の結果を提示し,実験システムのオフラインゲインと統計的に有意なオンラインリフトを観測した。 その過程で,モデルパラメータアブレーション研究の結果,検証損失とトップK精度のスケーリング曲線が得られた。 モデルのサイズ、レイテンシ、正確性に関するトレードオフの空間について議論し、将来的なアプリケーションを提案することで、私たちは締めくくっています。

Modern large language models (LLMs) represent a paradigm shift in what can plausibly be expected of machine learning models. The fact that LLMs can effectively generate sensible answers to a diverse range of queries suggests that they would be useful in customer support applications. While powerful, LLMs have been observed to be prone to hallucination which unfortunately makes their near term use in customer support applications challenging. To address this issue we present a system that allows us to use an LLM to augment our customer support advocates by re-framing the language modeling task as a discriminative classification task. In this framing, we seek to present the top-K best template responses for a customer support advocate to use when responding to a customer. We present the result of both offline and online experiments where we observed offline gains and statistically significant online lifts for our experimental system. Along the way, we present observed scaling curves for validation loss and top-K accuracy, resulted from model parameter ablation studies. We close by discussing the space of trade-offs with respect to model size, latency, and accuracy as well as and suggesting future applications to explore.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# マルチモーダルデータセットによる逆薬物事象検出の強化:コーパス生成とモデル開発

Enhancing Adverse Drug Event Detection with Multimodal Dataset: Corpus Creation and Model Development ( http://arxiv.org/abs/2405.15766v1 )

ライセンス: Link先を確認
Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Aman Chadha, Samrat Mondal, (参考訳) 有害薬物イベントの採掘(ADEs)は、薬物移動において重要な役割を担い、薬物に関連する潜在的なリスクを特定し、有害事象の早期発見を促進し、規制決定を導くことによって患者の安全を高める。 従来のADE検出方法は信頼性が高いが遅く、大規模な操作に容易に適応できず、限られた情報を提供する。 ソーシャルメディアコンテンツやバイオメディカル文学、電子医療記録(EMR)などのデータソースの指数的な増加に伴い、これらの非構造化テキストからADE関連情報を抽出することが必須である。 以前のADE鉱業研究は、テキストベースの方法論、視覚的手がかりを見渡すこと、文脈的理解を制限すること、正確な解釈を妨げることに集中してきた。 このギャップに対処するために、ADE関連テキスト情報を視覚支援と組み合わせたMultiModal Adverse Drug Event (MMADE) 検出データセットを提案する。 さらに, ADEを描写した医用画像の詳細な記述を生成することにより, LLMとVLMの能力を活用したADE検出フレームワークを導入し, 医療従事者が視覚的に有害事象を識別できるようにする。 MMADEデータセットを用いて、画像から視覚的手がかりを統合することの重要性を示し、全体的な性能を向上させる。 このアプローチは患者の安全、ADEの認識、医療のアクセシビリティを約束し、パーソナライズされた医療のさらなる探索の道を開く。

The mining of adverse drug events (ADEs) is pivotal in pharmacovigilance, enhancing patient safety by identifying potential risks associated with medications, facilitating early detection of adverse events, and guiding regulatory decision-making. Traditional ADE detection methods are reliable but slow, not easily adaptable to large-scale operations, and offer limited information. With the exponential increase in data sources like social media content, biomedical literature, and Electronic Medical Records (EMR), extracting relevant ADE-related information from these unstructured texts is imperative. Previous ADE mining studies have focused on text-based methodologies, overlooking visual cues, limiting contextual comprehension, and hindering accurate interpretation. To address this gap, we present a MultiModal Adverse Drug Event (MMADE) detection dataset, merging ADE-related textual information with visual aids. Additionally, we introduce a framework that leverages the capabilities of LLMs and VLMs for ADE detection by generating detailed descriptions of medical images depicting ADEs, aiding healthcare professionals in visually identifying adverse events. Using our MMADE dataset, we showcase the significance of integrating visual cues from images to enhance overall performance. This approach holds promise for patient safety, ADE awareness, and healthcare accessibility, paving the way for further exploration in personalized healthcare.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# 平均場ニューラルネットワークにおける粒子近似誤差の改善

Improved Particle Approximation Error for Mean Field Neural Networks ( http://arxiv.org/abs/2405.15767v1 )

ライセンス: Link先を確認
Atsushi Nitanda, (参考訳) MFLD(Mean-field Langevin dynamics)は、確率分布の空間上で定義されるエントロピー規則化された非線形凸関数を最小化する。 MFLDは平均場2層ニューラルネットワークの雑音勾配勾配と接続しているため注目されている。 通常のランゲヴィン力学とは異なり、目的関数の非線形性は粒子の相互作用を誘導し、有限粒子設定における力学を近似するために複数の粒子を必要とする。 最近の研究(Chen et al , 2022; Suzuki et al , 2023b)は、MFLDのカオスの時間内均一伝播を実証し、粒子の数が増加するにつれて粒子系と平均場限界のギャップが時間とともに一様に縮むことを示した。 本研究では粒子近似誤差における対数的ソボレフ不等式(LSI)定数の依存性を改善し,正則化係数で指数関数的に劣化させることができる。 具体的には、リスク最小化における問題構造を活用することにより、目的ギャップに関するLSI-コンスタントフリー粒子近似誤差を確立する。 適用例として,MFLDの収束性の向上,平均場定常分布のサンプリング保証,および粒子の複雑度の観点からのカオスの均一時間Wasserstein伝播を示す。

Mean-field Langevin dynamics (MFLD) minimizes an entropy-regularized nonlinear convex functional defined over the space of probability distributions. MFLD has gained attention due to its connection with noisy gradient descent for mean-field two-layer neural networks. Unlike standard Langevin dynamics, the nonlinearity of the objective functional induces particle interactions, necessitating multiple particles to approximate the dynamics in a finite-particle setting. Recent works (Chen et al., 2022; Suzuki et al., 2023b) have demonstrated the uniform-in-time propagation of chaos for MFLD, showing that the gap between the particle system and its mean-field limit uniformly shrinks over time as the number of particles increases. In this work, we improve the dependence on logarithmic Sobolev inequality (LSI) constants in their particle approximation errors, which can exponentially deteriorate with the regularization coefficient. Specifically, we establish an LSI-constant-free particle approximation error concerning the objective gap by leveraging the problem structure in risk minimization. As the application, we demonstrate improved convergence of MFLD, sampling guarantee for the mean-field stationary distribution, and uniform-in-time Wasserstein propagation of chaos in terms of particle complexity.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# ヴァッサーシュタイン計量空間における正準変量

Canonical Variates in Wasserstein Metric Space ( http://arxiv.org/abs/2405.15768v1 )

ライセンス: Link先を確認
Jia Li, Lin Lin, (参考訳) 本稿では,特異点ではなくベクトル空間上の分布によって特徴付けられるインスタンスの分類について述べる。 我々は、分布間の距離を測定するためにワッサーシュタイン計量を用い、k-アネレスト隣人、k-平均、擬混合モデリングなどの距離に基づく分類アルゴリズムで使用される。 我々の研究の中心は、分類精度を高めるために、ワッサーシュタイン計量空間内の次元の減少である。 本稿では,クラス間変動からクラス内変動への商として定義されたフィッシャー比を最大化する原理に基づく新しいアプローチを提案する。 この比率を最大化する方向は、判別座標または正準変量軸と呼ばれる。 実際には、クラス間の変分とクラス内の変分を、同じクラスに属するペアと異なるクラスに属するペアのペア間の平均2乗距離として定義する。 この比の最適化は、ベクトル空間内の最適輸送と最大化ステップを交互に交互に行う反復アルゴリズムによって達成される。 我々は,アルゴリズムの収束性を評価するための実証的研究を行い,実験により,我々の次元低減技術が分類性能を大幅に向上させることを示す。 さらに,本手法は,分布データから導出されるベクトル表現を演算する,確立されたアルゴリズムよりも優れている。 また、データクラウドの分散表現のバリエーションに対して堅牢性を示す。

In this paper, we address the classification of instances each characterized not by a singular point, but by a distribution on a vector space. We employ the Wasserstein metric to measure distances between distributions, which are then used by distance-based classification algorithms such as k-nearest neighbors, k-means, and pseudo-mixture modeling. Central to our investigation is dimension reduction within the Wasserstein metric space to enhance classification accuracy. We introduce a novel approach grounded in the principle of maximizing Fisher's ratio, defined as the quotient of between-class variation to within-class variation. The directions in which this ratio is maximized are termed discriminant coordinates or canonical variates axes. In practice, we define both between-class and within-class variations as the average squared distances between pairs of instances, with the pairs either belonging to the same class or to different classes. This ratio optimization is achieved through an iterative algorithm, which alternates between optimal transport and maximization steps within the vector space. We conduct empirical studies to assess the algorithm's convergence and, through experimental validation, demonstrate that our dimension reduction technique substantially enhances classification performance. Moreover, our method outperforms well-established algorithms that operate on vector representations derived from distributional data. It also exhibits robustness against variations in the distributional representations of data clouds.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# FastDrag: 任意のものをひとつのステップで操作する

FastDrag: Manipulate Anything in One Step ( http://arxiv.org/abs/2405.15769v1 )

ライセンス: Link先を確認
Xuanjia Zhao, Jian Guan, Congyi Fan, Dongli Xu, Youtian Lin, Haiwei Pan, Pengming Feng, (参考訳) 生成モデルを用いたドラッグベースの画像編集は、画像内容の正確な制御を可能にし、ユーザーは数クリックで画像中のあらゆるものを操作できる。 しかし、一般的な手法では、遅延セマンティック最適化に$n$-stepのイテレーションを採用してドラッグベースの画像編集を実現するのが一般的である。 本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。 我々のアプローチの中心は潜時ウォーページ関数(LWF)であり、この関数は伸長された材料の挙動をシミュレートし、潜時空間内の個々のピクセルの位置を調節する。 この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。 一方, LWF適用後に出現するヌル領域は, 近距離補間(BNNI)戦略によって対処される。 この戦略は、近隣地域の類似した特徴を用いてこれらの領域を補間し、意味的整合性を高める。 また、拡散インバージョン中に自己保持モジュールのキーと値ペアとして保存された原画像からのセマンティック情報を採用し、拡散サンプリングを誘導することにより、編集画像と原画像との整合性を維持するための整合性保存戦略を導入する。 我々のFastDragはDragBenchデータセットで検証されており、既存のメソッドよりも処理時間を大幅に改善し、編集性能の向上を実現しています。

Drag-based image editing using generative models provides precise control over image contents, enabling users to manipulate anything in an image with a few clicks. However, prevailing methods typically adopt $n$-step iterations for latent semantic optimization to achieve drag-based image editing, which is time-consuming and limits practical applications. In this paper, we introduce a novel one-step drag-based image editing method, i.e., FastDrag, to accelerate the editing process. Central to our approach is a latent warpage function (LWF), which simulates the behavior of a stretched material to adjust the location of individual pixels within the latent space. This innovation achieves one-step latent semantic optimization and hence significantly promotes editing speeds. Meanwhile, null regions emerging after applying LWF are addressed by our proposed bilateral nearest neighbor interpolation (BNNI) strategy. This strategy interpolates these regions using similar features from neighboring areas, thus enhancing semantic integrity. Additionally, a consistency-preserving strategy is introduced to maintain the consistency between the edited and original images by adopting semantic information from the original image, saved as key and value pairs in self-attention module during diffusion inversion, to guide the diffusion sampling. Our FastDrag is validated on the DragBench dataset, demonstrating substantial improvements in processing time over existing methods, while achieving enhanced editing performance.
翻訳日:2024-05-27 12:51:30 公開日:2024-05-24
# ALI-Agent:エージェントによる評価によるLLMと人的価値のアライメントの評価

ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation ( http://arxiv.org/abs/2405.14125v2 )

ライセンス: Link先を確認
Jingnan Zheng, Han Wang, An Zhang, Tai D. Nguyen, Jun Sun, Tat-Seng Chua, (参考訳) 大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図せず有害なコンテンツも引き起こし、ユーザや社会に深刻なリスクを及ぼす可能性がある。 これらのリスクを軽減するため、現在の評価ベンチマークでは、専門家が設計したコンテキストシナリオを使用して、LLMが人的価値とどの程度うまく一致しているかを評価する。 しかし、これらのベンチマークの労働集約性はテスト範囲を制限し、様々なオープンワールドのユースケースに一般化し、稀だが重要な長期的リスクを特定する能力を妨げている。 さらに、これらの静的テストはLLMの急速な進化に対応できず、タイムリーなアライメントの問題を評価することは困難である。 これらの課題に対処するために, LLM エージェントの自律能力を活用し, 奥行き及び適応アライメントアセスメントアセスメントを行う評価フレームワーク ALI-Agent を提案する。 ALI-Agentはエミュレーションとリファインメントの2つの主要な段階を通している。 Emulationの段階では、ALI-Agentは現実的なテストシナリオの生成を自動化する。 リファインメント段階では、長期的リスクを調査するためにシナリオを反復的に洗練します。 具体的には、ALI-Agentには、テストシナリオ生成をガイドするメモリモジュール、目標のLSMからのフィードバックの評価などのタスクにおける人的労力を削減するツール使用モジュール、テストを洗練するためのアクションモジュールが組み込まれている。 ALI-Agentは、一般的な評価の枠組みとして、モデルミスアライメントを効果的に識別する。 システム分析はまた、生成されたテストシナリオが意味のあるユースケースを表すこと、および長期的リスクを調査するための強化された措置を統合することを検証する。 私たちのコードはhttps://github.com/SophieZheng998/ALI-Agent.gitで利用可能です。

Large Language Models (LLMs) can elicit unintended and even harmful content when misaligned with human values, posing severe risks to users and society. To mitigate these risks, current evaluation benchmarks predominantly employ expert-designed contextual scenarios to assess how well LLMs align with human values. However, the labor-intensive nature of these benchmarks limits their test scope, hindering their ability to generalize to the extensive variety of open-world use cases and identify rare but crucial long-tail risks. Additionally, these static tests fail to adapt to the rapid evolution of LLMs, making it hard to evaluate timely alignment issues. To address these challenges, we propose ALI-Agent, an evaluation framework that leverages the autonomous abilities of LLM-powered agents to conduct in-depth and adaptive alignment assessments. ALI-Agent operates through two principal stages: Emulation and Refinement. During the Emulation stage, ALI-Agent automates the generation of realistic test scenarios. In the Refinement stage, it iteratively refines the scenarios to probe long-tail risks. Specifically, ALI-Agent incorporates a memory module to guide test scenario generation, a tool-using module to reduce human labor in tasks such as evaluating feedback from target LLMs, and an action module to refine tests. Extensive experiments across three aspects of human values--stereotypes, morality, and legality--demonstrate that ALI-Agent, as a general evaluation framework, effectively identifies model misalignment. Systematic analysis also validates that the generated test scenarios represent meaningful use cases, as well as integrate enhanced measures to probe long-tail risks. Our code is available at https://github.com/SophieZheng998/ALI-Agent.git
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 画像方向ナビゲーション用変圧器

Transformers for Image-Goal Navigation ( http://arxiv.org/abs/2405.14128v2 )

ライセンス: Link先を確認
Nikhilanj Pelluri, (参考訳) 視覚知覚とナビゲーションは、具体的人工知能の分野における主要な焦点領域として現れてきた。 本稿では,カメラ上の画像のみに頼って,エージェントが画像によって特定された目標にナビゲートする作業である画像ゴールナビゲーションの課題について考察する。 このタスクは、堅牢なシーン理解、目標指向の計画、長距離ナビゲーションを必要とするため、特に難しい。 既存のほとんどのアプローチは、オンライン強化学習を通じてトレーニングされたリカレントニューラルネットワークに依存するナビゲーションポリシーを学習する。 しかし、そのような政策の訓練にはかなりの計算資源と時間が必要であり、これらのモデルの性能は長距離航法では信頼できない。 本研究では,画像目標,カメラ観測,ロボットの過去の動作を共同でモデル化し,将来的な行動を予測できる生成トランスフォーマーモデルを提案する。 我々は、現状の認識モデルとナビゲーションポリシーを使用して、環境とのリアルタイムインタラクションを必要とせずに、堅牢な目標条件付きポリシーを学習する。 本モデルでは,長期間の地平線上での視覚情報の収集と関連性を実証し,ナビゲーションの効率化に寄与する。 NOTE: この作業はMaster's Capstone Projectの一部として提出され、そう扱わなければならない。 これはまだ開発中であり、最終バージョンではない。

Visual perception and navigation have emerged as major focus areas in the field of embodied artificial intelligence. We consider the task of image-goal navigation, where an agent is tasked to navigate to a goal specified by an image, relying only on images from an onboard camera. This task is particularly challenging since it demands robust scene understanding, goal-oriented planning and long-horizon navigation. Most existing approaches typically learn navigation policies reliant on recurrent neural networks trained via online reinforcement learning. However, training such policies requires substantial computational resources and time, and performance of these models is not reliable on long-horizon navigation. In this work, we present a generative Transformer based model that jointly models image goals, camera observations and the robot's past actions to predict future actions. We use state-of-the-art perception models and navigation policies to learn robust goal conditioned policies without the need for real-time interaction with the environment. Our model demonstrates capability in capturing and associating visual information across long time horizons, helping in effective navigation. NOTE: This work was submitted as part of a Master's Capstone Project and must be treated as such. This is still an early work in progress and not the final version.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 埋め込み型セマンティックセグメンテーションマスクの微細粒度分類への応用

Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification ( http://arxiv.org/abs/2405.14162v2 )

ライセンス: Link先を確認
Taylor Archibald, Tony Martinez, (参考訳) 史料の効率的な分類は、系譜学、法学研究、歴史学などの分野において重要であり、手作業による分類は、労働集約的かつ誤りを生じやすい性質から、大規模な収集には不実用である。 そこで本稿では,ResNet,CLIP,Document Image Transformer (DiT) やマスク付き自動エンコーダ (MAE) など,セマンティックセグメンテーションとディープラーニングモデルを統合した表現型学習戦略を提案する。 我々の知識を最大限に活用するために、我々は、きめ細かい、教師なしの形式分類への埋め込みを初めて評価する。 これらの埋め込みを改善するために,まずセマンティックセグメンテーションを前処理のステップとして活用することを提案する。 我々は、我々のアプローチを実証するために、2つの新しいデータセット$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録$\unicode{x2014}$the U.S. 1950 Census records$\unicode{x2014}$the French 19世紀と1950年の国勢調査記録に貢献する。 本研究は, 類似の文書型を識別するための埋め込み手法の有効性を示し, セマンティックセグメンテーションを適用することにより, クラスタリングや分類結果を大幅に改善できることを示す。 国勢調査データセットはhttps://github.com/tahlor/census_formsで公開されている。

Efficient categorization of historical documents is crucial for fields such as genealogy, legal research, and historical scholarship, where manual classification is impractical for large collections due to its labor-intensive and error-prone nature. To address this, we propose a representational learning strategy that integrates semantic segmentation and deep learning models such as ResNet, CLIP, Document Image Transformer (DiT), and masked auto-encoders (MAE), to generate embeddings that capture document features without predefined labels. To the best of our knowledge, we are the first to evaluate embeddings on fine-grained, unsupervised form classification. To improve these embeddings, we propose to first employ semantic segmentation as a preprocessing step. We contribute two novel datasets$\unicode{x2014}$the French 19th-century and U.S. 1950 Census records$\unicode{x2014}$to demonstrate our approach. Our results show the effectiveness of these various embedding techniques in distinguishing similar document types and indicate that applying semantic segmentation can greatly improve clustering and classification results. The census datasets are available at https://github.com/tahlor/census_forms
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# FloodDamageCast: マシンラーニングとデータ拡張による洪水被害の構築

FloodDamageCast: Building Flood Damage Nowcasting with Machine Learning and Data Augmentation ( http://arxiv.org/abs/2405.14232v2 )

ライセンス: Link先を確認
Chia-Fu Liu, Lipai Huang, Kai Yin, Sam Brody, Ali Mostafavi, (参考訳) 本研究は,災害時,災害時,災害時,災害時,災害時,復旧時に,避難指示やインフラ修復の優先順位について,緊急対応者に情報提供の権限を与えるため,建物やインフラの被害をほぼリアルタイムに見積もることである。 FloodDamageCastは、現在、不動産洪水の被害に対応する機械学習フレームワークである。 このフレームワークは、2017年のハリケーン・ハービーの間、テキサス州ハリス郡で500メートル×500メートルの解像度で住宅の洪水被害を予測するために、異種データを活用している。 データ不均衡に対処するため、FloodDamageCastでは、生成する敵ネットワークベースのデータ拡張と、効率的な機械学習モデルが組み込まれている。 その結果、モデルがベースラインモデルで見過ごされるような高損傷空間領域を識別する能力を示した。 洪水被害から解放された洞察は、緊急対応者がより効率的に修理ニーズを特定し、リソースを割り当て、地上での検査を効率化し、時間と労力を節約するのに役立つ。

Near-real time estimation of damage to buildings and infrastructure, referred to as damage nowcasting in this study, is crucial for empowering emergency responders to make informed decisions regarding evacuation orders and infrastructure repair priorities during disaster response and recovery. Here, we introduce FloodDamageCast, a machine learning framework tailored for property flood damage nowcasting. The framework leverages heterogeneous data to predict residential flood damage at a resolution of 500 meters by 500 meters within Harris County, Texas, during the 2017 Hurricane Harvey. To deal with data imbalance, FloodDamageCast incorporates a generative adversarial networks-based data augmentation coupled with an efficient machine learning model. The results demonstrate the model's ability to identify high-damage spatial areas that would be overlooked by baseline models. Insights gleaned from flood damage nowcasting can assist emergency responders to more efficiently identify repair needs, allocate resources, and streamline on-the-ground inspections, thereby saving both time and effort.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# D-MiSo:マルチガウスによる動的3Dシーンの編集

D-MiSo: Editing Dynamic 3D Scenes using Multi-Gaussians Soup ( http://arxiv.org/abs/2405.14276v2 )

ライセンス: Link先を確認
Joanna Waczyńska, Piotr Borycki, Joanna Kaleta, Sławomir Tadeja, Przemysław Spurek, (参考訳) 近年,ガウススプラッティング (GS) を用いて動的3次元シーンをモデリングするためのアプローチが数多く見受けられてきた。 このようなソリューションはGSを使ってシーンの構造を表現し、ニューラルネットワークを使ってダイナミクスをモデル化する。 このようなアプローチにより、動的なシーンの各要素の高速なレンダリングと抽出が可能になる。 しかし、そのようなオブジェクトを時間とともに変更することは難しい。 SC-GS (Sparse Controlled Gaussian Splatting) はデフォルメド・コントロール・ポイントによって強化された。 しかし、このアプローチでは、修正される必要のある要素の選択と、編集を通して調整されるべきセントロイドが必要である。 さらに,この課題は,このような編集の再現性に関して,さらなる困難を生じさせる。 そこで我々はD-MiSo(Dynamic Multi-Gaussian Soup)を提案する。 さらに,パラメータ化されたガウススプラットをリンクし,推定メッシュと三角スープを形成する手法を提案する。 これにより、シーンを構成する3Dオブジェクトに対して、別々に新しいトラジェクトリを構築することができる。 したがって、シーンの動的編集を時間や部分的ダイナミクスを維持しながら行うことができる。

Over the past years, we have observed an abundance of approaches for modeling dynamic 3D scenes using Gaussian Splatting (GS). Such solutions use GS to represent the scene's structure and the neural network to model dynamics. Such approaches allow fast rendering and extracting each element of such a dynamic scene. However, modifying such objects over time is challenging. SC-GS (Sparse Controlled Gaussian Splatting) enhanced with Deformed Control Points partially solves this issue. However, this approach necessitates selecting elements that need to be kept fixed, as well as centroids that should be adjusted throughout editing. Moreover, this task poses additional difficulties regarding the re-productivity of such editing. To address this, we propose Dynamic Multi-Gaussian Soup (D-MiSo), which allows us to model the mesh-inspired representation of dynamic GS. Additionally, we propose a strategy of linking parameterized Gaussian splats, forming a Triangle Soup with the estimated mesh. Consequently, we can separately construct new trajectories for the 3D objects composing the scene. Thus, we can make the scene's dynamic editable over time or while maintaining partial dynamics.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 自己回帰画像拡散:画像系列の生成とMRIへの応用

Autoregressive Image Diffusion: Generation of Image Sequence and Application in MRI ( http://arxiv.org/abs/2405.14327v2 )

ライセンス: Link先を確認
Guanxiong Luo, Shoujin Huang, Martin Uecker, (参考訳) MRIは非侵襲的画像モダリティとして広く用いられている。 しかし、永続的な課題は、画像品質と画像の速度のバランスである。 このトレードオフは主にk空間の測定によって制約され、空間フーリエ領域(k空間)の特定の軌道を横切る。 これらの測定はしばしば、取得時間を短縮するためにアンサンプされ、画像のアーティファクトと品質が損なわれる。 生成モデルは画像分布を学習し、アンサンプされたk空間データから高品質な画像の再構成に使用できる。 本稿では,画像系列に対する自己回帰画像拡散(AID)モデルを提案する。 このアルゴリズムは、アンダーサンプリングされたk空間と既存の情報の両方を組み込む。 高速MRIデータセットを用いて訓練したモデルを総合的に評価する。 その結果,AIDモデルは逐次コヒーレントな画像列を確実に生成できることがわかった。 3Dおよび動的MRIでは、AIDは標準的な拡散モデルより優れ、画像間の依存が学習されるため幻覚を減少させることができる。

Magnetic resonance imaging (MRI) is a widely used non-invasive imaging modality. However, a persistent challenge lies in balancing image quality with imaging speed. This trade-off is primarily constrained by k-space measurements, which traverse specific trajectories in the spatial Fourier domain (k-space). These measurements are often undersampled to shorten acquisition times, resulting in image artifacts and compromised quality. Generative models learn image distributions and can be used to reconstruct high-quality images from undersampled k-space data. In this work, we present the autoregressive image diffusion (AID) model for image sequences and use it to sample the posterior for accelerated MRI reconstruction. The algorithm incorporates both undersampled k-space and pre-existing information. Models trained with fastMRI dataset are evaluated comprehensively. The results show that the AID model can robustly generate sequentially coherent image sequences. In 3D and dynamic MRI, the AID can outperform the standard diffusion model and reduce hallucinations, due to the learned inter-image dependencies.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# RoGS:2次元ガウススプレイティングに基づく大規模道路表面再構成

RoGS: Large Scale Road Surface Reconstruction based on 2D Gaussian Splatting ( http://arxiv.org/abs/2405.14342v2 )

ライセンス: Link先を確認
Zhiheng Feng, Wenhua Wu, Hesheng Wang, (参考訳) 道路路面の再構築は、道路路面の認識や自動標識作業に使用できる自動運転において重要な役割を担っている。 近年,メッシュを用いた道路表面再構成アルゴリズムは,有望な再建結果を示している。 しかしながら、これらのメッシュベースの手法は、遅いスピードとレンダリング品質の低下に悩まされている。 対照的に、3D Gaussian Splatting (3DGS)はレンダリング速度と品質が優れている。 3DGSはシーンを表現するために明示的なガウス球を用いるが、シーンの幾何学的情報を直接表現する能力は欠如している。 この制限に対処するために,2次元ガウススプラッティング (2DGS) に基づく大規模道路表面再構築手法RoGSを提案する。 道路の幾何学的形状は2Dガウス波で明確に表現され、各波路は色、意味、幾何学的情報を格納する。 ガウスの球と比べれば、ガウスの波は道路の物理的現実とより密接に一致している。 ガウス球面の点雲に依存する従来の初期化法とは違い,ガウス球面の軌道に基づく初期化を導入する。 ガウス波の明示的な表現と優れた初期化により,本手法は再構築品質を向上しつつ,大幅な加速を実現している。 我々は,様々な挑戦的な現実のシーンにおける道路表面の再構築において,優れた成果を上げた。

Road surface reconstruction plays a crucial role in autonomous driving, which can be used for road lane perception and autolabeling tasks. Recently, mesh-based road surface reconstruction algorithms show promising reconstruction results. However, these mesh-based methods suffer from slow speed and poor rendering quality. In contrast, the 3D Gaussian Splatting (3DGS) shows superior rendering speed and quality. Although 3DGS employs explicit Gaussian spheres to represent the scene, it lacks the ability to directly represent the geometric information of the scene. To address this limitation, we propose a novel large-scale road surface reconstruction approach based on 2D Gaussian Splatting (2DGS), named RoGS. The geometric shape of the road is explicitly represented using 2D Gaussian surfels, where each surfel stores color, semantics, and geometric information. Compared to Gaussian spheres, the Gaussian surfels aligns more closely with the physical reality of the road. Distinct from previous initialization methods that rely on point clouds for Gaussian spheres, we introduce a trajectory-based initialization for Gaussian surfels. Thanks to the explicit representation of the Gaussian surfels and a good initialization, our method achieves a significant acceleration while improving reconstruction quality. We achieve excellent results in reconstruction of roads surfaces in a variety of challenging real-world scenes.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 半離散最適輸送:確率的勾配勾配と適応的エントロピー正規化による最小値推定

Semi-Discrete Optimal Transport: Nearly Minimax Estimation With Stochastic Gradient Descent and Adaptive Entropic Regularization ( http://arxiv.org/abs/2405.14459v2 )

ライセンス: Link先を確認
Ferdinand Genans, Antoine Godichon-Baggioni, François-Xavier Vialard, Olivier Wintenberger, (参考訳) OT(Optimal Transport)ベースの距離は、確率測度を比較し、OTマップを使用してそれらを操作するための機械学習の強力なツールである。 この分野では、関心の集合は半離散 OT であり、ソース測度 $\mu$ は連続であり、ターゲット $\nu$ は離散である。 最近の研究は、OT写像のミニマックスレートが$\mathcal{O}(t^{-1/2})$であることを示した。 オープンな問題は、離散測度 $\nu$ の完全な情報が知られているとき(一サンプルの設定)、より良い収束率が達成できるかどうかである。 この研究では、我々はこの質問に対して肯定的に答える。 i) ラゲールセル推定と密度支持推定の類似性を用いて, OTマップに対する$\mathcal{O}(t^{-1})$ローバウンドレートを証明し, (II)適応的なエントロピー正規化と平均加速度を持つ確率勾配 Descent (SGD) アルゴリズムを提案する。 非正則パラメトリック問題の特徴である所望の速さをほぼ達成するために、サンプル数に応じて減少するエントロピー正規化スキームを設計する。 アルゴリズムのもうひとつの重要なステップは、正規化OT問題の局所的な強凸性を活用するプロジェクションステップを使用することである。 我々の収束解析は、OT半双対の特異性によって補完されるオンライン凸最適化と確率勾配手法を統合している。 さらに,バニラSGDほど計算的かつメモリ効率が良く,数値実験において,我々の理論の異常な高速化を実現している。

Optimal Transport (OT) based distances are powerful tools for machine learning to compare probability measures and manipulate them using OT maps. In this field, a setting of interest is semi-discrete OT, where the source measure $\mu$ is continuous, while the target $\nu$ is discrete. Recent works have shown that the minimax rate for the OT map is $\mathcal{O}(t^{-1/2})$ when using $t$ i.i.d. subsamples from each measure (two-sample setting). An open question is whether a better convergence rate can be achieved when the full information of the discrete measure $\nu$ is known (one-sample setting). In this work, we answer positively to this question by (i) proving an $\mathcal{O}(t^{-1})$ lower bound rate for the OT map, using the similarity between Laguerre cells estimation and density support estimation, and (ii) proposing a Stochastic Gradient Descent (SGD) algorithm with adaptive entropic regularization and averaging acceleration. To nearly achieve the desired fast rate, characteristic of non-regular parametric problems, we design an entropic regularization scheme decreasing with the number of samples. Another key step in our algorithm consists of using a projection step that permits to leverage the local strong convexity of the regularized OT problem. Our convergence analysis integrates online convex optimization and stochastic gradient techniques, complemented by the specificities of the OT semi-dual. Moreover, while being as computationally and memory efficient as vanilla SGD, our algorithm achieves the unusual fast rates of our theory in numerical experiments.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# EHRMamba:電子健康記録のための汎用的でスケーラブルな基礎モデルを目指して

EHRMamba: Towards Generalizable and Scalable Foundation Models for Electronic Health Records ( http://arxiv.org/abs/2405.14567v2 )

ライセンス: Link先を確認
Adibvafa Fallahpour, Mahshid Alinoori, Arash Afkanpour, Amrit Krishnan, (参考訳) トランスフォーマーはElectronic Health Records(EHR)のモデリングを大幅に進歩させたが、実際の医療への展開はいくつかの重要な課題によって制限されている。 第一に、これらのモデルの二次計算コストと文脈長の不足は、EHRデータに典型的な広範な医療履歴を処理する際に、病院にとって重大な障害となる。 さらに、既存のモデルでは、医療環境のメンテナンスを複雑にすることで、それぞれの臨床タスクに個別の微調整が採用されている。 さらに、これらのモデルは、臨床予測またはEHR予測にのみ焦点をあてており、両方でうまく機能する柔軟性が欠如している。 これらの制限を克服するために,我々は,Mambaアーキテクチャ上に構築された堅牢な基盤モデルであるEHRMambaを紹介した。 EHRMambaは、線形計算コストのために、以前のモデルよりも最大4倍長いシーケンスを処理できる。 EHRデータに対するMTF(Multitask Prompted Finetuning)の新たなアプローチを導入することで,EHRMambaは単一ファインチューニングフェーズで複数の臨床タスクを同時に学習し,デプロイメントとクロスタスクの一般化を著しく向上する。 さらに,既存の病院システムへの統合を容易にするため,HL7 FHIRデータ標準を活用している。 EHRMambaとともに、EHRファウンデーションモデルの開発とデプロイをサポートするために設計されたツールキットであるOdysseyをオープンソースとして公開しました。 MIMIC-IVデータセットを用いて評価したところ, EHRMambaは6つの主要な臨床課題にまたがって最先端の成績を向上し, EHR予測に優れており, この分野における飛躍的な進歩を示している。

Transformers have significantly advanced the modeling of Electronic Health Records (EHR), yet their deployment in real-world healthcare is limited by several key challenges. Firstly, the quadratic computational cost and insufficient context length of these models pose significant obstacles for hospitals in processing the extensive medical histories typical in EHR data. Additionally, existing models employ separate finetuning for each clinical task, complicating maintenance in healthcare environments. Moreover, these models focus exclusively on either clinical prediction or EHR forecasting, lacking the flexibility to perform well across both. To overcome these limitations, we introduce EHRMamba, a robust foundation model built on the Mamba architecture. EHRMamba can process sequences up to four times longer than previous models due to its linear computational cost. We also introduce a novel approach to Multitask Prompted Finetuning (MTF) for EHR data, which enables EHRMamba to simultaneously learn multiple clinical tasks in a single finetuning phase, significantly enhancing deployment and cross-task generalization. Furthermore, our model leverages the HL7 FHIR data standard to simplify integration into existing hospital systems. Alongside EHRMamba, we open-source Odyssey, a toolkit designed to support the development and deployment of EHR foundation models, with an emphasis on data standardization and interpretability. Our evaluations on the MIMIC-IV dataset demonstrate that EHRMamba advances state-of-the-art performance across 6 major clinical tasks and excels in EHR forecasting, marking a significant leap forward in the field.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# PoseCrafter: フレキシブルなPoseコントロールによるワンショットパーソナライズされたビデオ合成

PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control ( http://arxiv.org/abs/2405.14582v2 )

ライセンス: Link先を確認
Yong Zhong, Min Zhao, Zebin You, Xiaofeng Yu, Changwang Zhang, Chongxuan Li, (参考訳) 本稿では、フレキシブルポーズの制御に追随したパーソナライズされたビデオ生成のためのワンショット手法であるPoseCrafterを紹介する。 安定拡散と制御ネットを基盤として,高画質なビデオを生成するための推論プロセスを慎重に設計する。 まず、トレーニングビデオから適切な参照フレームを選択し、それを逆転して潜在変数を初期化して生成する。 そして、トレーニングされた時間的注意モジュールを通して忠実度を高めるために、対応するトレーニングポーズをターゲットポーズシーケンスに挿入する。 さらに、トレーニングビデオのポーズと推論ポーズの相違による顔と手の劣化を軽減するため、顔と手のランドマークを含むアフィン変換マトリクスを用いて簡易な潜時編集を行う。 複数のデータセットに対する大規模な実験により、PoseCrafterは8つの一般的なメトリクスの下で大量のビデオのコレクションに基づいて事前トレーニングされたベースラインに対して、優れた結果が得られることが示された。 さらに、PoseCrafterは、異なる個人や人工的な編集のポーズをフォローでき、オープンドメインのトレーニングビデオで人間のアイデンティティを同時に保持できる。 私たちのプロジェクトページはhttps://ml-gsai.github.io/PoseCrafter-demo/で公開されています。

In this paper, we introduce PoseCrafter, a one-shot method for personalized video generation following the control of flexible poses. Built upon Stable Diffusion and ControlNet, we carefully design an inference process to produce high-quality videos without the corresponding ground-truth frames. First, we select an appropriate reference frame from the training video and invert it to initialize all latent variables for generation. Then, we insert the corresponding training pose into the target pose sequences to enhance faithfulness through a trained temporal attention module. Furthermore, to alleviate the face and hand degradation resulting from discrepancies between poses of training videos and inference poses, we implement simple latent editing through an affine transformation matrix involving facial and hand landmarks. Extensive experiments on several datasets demonstrate that PoseCrafter achieves superior results to baselines pre-trained on a vast collection of videos under 8 commonly used metrics. Besides, PoseCrafter can follow poses from different individuals or artificial edits and simultaneously retain the human identity in an open-domain training video. Our project page is available at https://ml-gsai.github.io/PoseCrafter-demo/.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# Visual Echoes:オーディオ・ビジュアル・ジェネレーションのためのシンプルな統一変換器

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation ( http://arxiv.org/abs/2405.14598v2 )

ライセンス: Link先を確認
Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, (参考訳) 近年、現実的な生成結果と幅広いパーソナライズされた応用により、拡散に基づく生成モデルは、視覚と音声の両方の領域で大きな注目を集めている。 text2image や text2audio 生成の大幅な進歩と比較すると、オーディオ2visual や visual2audio 生成の研究は比較的遅かった。 最近の音声視覚生成法は通常、巨大な言語モデルや構成可能な拡散モデルを利用する。 本稿では,音声・視覚生成のための新たな巨大モデルを設計する代わりに,マルチモーダル生成において十分に研究されていないシンプルで軽量な生成変換器を,画像2オーディオ生成において優れた結果が得られることを示す。 トランスは離散オーディオおよび視覚ベクトル量子化GAN空間で動作し、マスクを装飾的に訓練する。 訓練後、分類器なしのガイダンスは、追加の訓練や修正なしに、より良い性能を達成するために棚から展開できる。 トランスモデルはモダリティ対称であるため、オーディオ2画像生成とコジェネレーションのために直接デプロイすることもできる。 実験の結果,本手法は最新の画像2audio 生成法を超越していることがわかった。 生成されたオーディオサンプルはhttps://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ/で見ることができる。

In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ/
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 拡張大言語モデルによる例外行動テストの生成

Generating Exceptional Behavior Tests with Reasoning Augmented Large Language Models ( http://arxiv.org/abs/2405.14619v2 )

ライセンス: Link先を確認
Jiyang Zhang, Yu Liu, Pengyu Nie, Junyi Jessy Li, Milos Gligoric, (参考訳) C#、Java、Pythonを含む多くの人気のあるプログラミング言語は例外をサポートしている。 不要なイベントが発生した場合、例えば不正な引数値でメソッドが呼び出されると、プログラム実行中に例外がスローされる。 ソフトウェア開発者は例外的な振る舞いテスト(EBT)を書き、コードが不要なイベントを検出し、適切な例外を投げることをチェックする。 以前の研究では、EBTの重要性が示されていたが、これらの研究は、開発者が望ましくないイベントのないパスなど、"幸せなパス"に多くの努力を注いでいることも強調した。 このギャップを埋めるために、私たちはexLongと呼ばれるEBTを自動生成する最初のフレームワークを提示します。 exLongは、CodeLlamaからチューニングされた大きな言語モデルで、スローステートメントにつながるトレース、スローステートメントを保護する条件式、同様のトレースを実行する例外的でない動作テストに関する推論を埋め込んでいる。 我々はexLongをテスト生成のための最先端モデル(CAT-LM)と最強基盤モデル(GPT3.5)、およびテスト生成のための分析ツール(RandoopとEvoSuite)と比較した。 この結果、exLongは既存のモデルやツールよりも優れています。 さらに、オープンソースプロジェクトにいくつかのプルリクエストを提供し、exLongが生成した23のEBTはすでに受け入れられています。

Many popular programming languages, including C#, Java, and Python, support exceptions. Exceptions are thrown during program execution if an unwanted event happens, e.g., a method is invoked with an illegal argument value. Software developers write exceptional behavior tests (EBTs) to check that their code detects unwanted events and throws appropriate exceptions. Prior research studies have shown the importance of EBTs, but those studies also highlighted that developers put most of their efforts on "happy paths", e.g., paths without unwanted events. To help developers fill the gap, we present the first framework, dubbed exLong, that automatically generates EBTs. exLong is a large language model instruction-tuned from CodeLlama and embeds reasoning about traces that lead to throw statements, conditional expressions that guard throw statements, and non-exceptional behavior tests that execute similar traces. We compare exLong with the state-of-the-art models for test generation (CAT-LM) and one of the strongest foundation models (GPT3.5), as well as with analysis-based tools for test generation (Randoop and EvoSuite). Our results show that exLong outperforms existing models and tools. Furthermore, we contributed several pull requests to open-source projects and 23 EBTs generated by exLong were already accepted.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# HTNベースのチュータ:階層型タスクネットワークに基づく新しいインテリジェントチュータフレームワーク

HTN-Based Tutors: A New Intelligent Tutoring Framework Based on Hierarchical Task Networks ( http://arxiv.org/abs/2405.14716v2 )

ライセンス: Link先を確認
Momin N. Siddiqui, Adit Gupta, Jennifer M. Reddig, Christopher J. MacLellan, (参考訳) インテリジェントな家庭教師は、パーソナライズされた適応的な学習体験を提供することに成功した。 しかし、既存のフレームワークにおける知識の粒度と、それらが提供するインストラクションに関する課題がある。 これらの課題に対処するために,階層型タスクネットワーク(HTN)を用いたエキスパートモデルを表現するインテリジェントなチュータフレームワークであるHTNベースのチュータを提案する。 他のチューターフレームワークと同様に、さまざまな問題解決戦略の柔軟なエンコーディングを可能にし、階層的な知識組織によるさらなるメリットを提供する。 私たちは後者を活用して、足場の粒度に適応できるチューターを作成します。 この組織は、スキルの構成的性質ともよく一致している。

Intelligent tutors have shown success in delivering a personalized and adaptive learning experience. However, there exist challenges regarding the granularity of knowledge in existing frameworks and the resulting instructions they can provide. To address these issues, we propose HTN-based tutors, a new intelligent tutoring framework that represents expert models using Hierarchical Task Networks (HTNs). Like other tutoring frameworks, it allows flexible encoding of different problem-solving strategies while providing the additional benefit of a hierarchical knowledge organization. We leverage the latter to create tutors that can adapt the granularity of their scaffolding. This organization also aligns well with the compositional nature of skills.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# Fast-DDPM:医療画像から画像への高速拡散確率モデル

Fast-DDPM: Fast Denoising Diffusion Probabilistic Models for Medical Image-to-Image Generation ( http://arxiv.org/abs/2405.14802v2 )

ライセンス: Link先を確認
Hongxu Jiang, Muhammad Imran, Linhai Ma, Teng Zhang, Yuyin Zhou, Muxuan Liang, Kuang Gong, Wei Shao, (参考訳) 拡散確率モデル(DDPM)はコンピュータビジョンにおいて前例のない成功を収めた。 しかし、病気の診断と治療計画に不可欠な分野である医用画像の分野では未利用のままである。 これは主に、(1)拡散過程における大量の時間ステップ(例えば1,000)の使用、(2)医療画像の次元性の増大によるものであり、これはしばしば3Dまたは4Dである。 医療画像上の拡散モデルのトレーニングは通常数日から数週間かかるが、各画像量をサンプリングするには数分から数時間かかる。 この課題に対処するために,トレーニング速度,サンプリング速度,生成品質を同時に向上する,シンプルかつ効果的なアプローチであるFast-DDPMを導入する。 1000のタイムステップでイメージデノイザを訓練するDDPMとは異なり、Fast-DDPMは10のタイムステップのみを使用する。 提案手法の鍵は,時間段階の利用を最適化するためにトレーニングとサンプリングの手順を整列することにある。 具体的には、時間ステップが10の2つの効率的なノイズスケジューラを導入し、その1つは時間ステップを均一にサンプリングし、もう1つは一様でないサンプリングを行った。 マルチイメージ・スーパーレゾリューション,イメージデノイング,イメージ・ツー・イメージ翻訳という3つの医療画像・画像生成タスクにおけるFast-DDPMの評価を行った。 高速DDPMはDDPMよりも優れており、全てのタスクにおける畳み込みネットワークと生成的敵ネットワークに基づく最先端の手法である。 さらに、Fast-DDPMはトレーニング時間を0.2倍に、サンプリング時間をDDPMと比べて0.01倍に短縮した。 私たちのコードは、https://github.com/mirthAI/Fast-DDPM.comで公開されています。

Denoising diffusion probabilistic models (DDPMs) have achieved unprecedented success in computer vision. However, they remain underutilized in medical imaging, a field crucial for disease diagnosis and treatment planning. This is primarily due to the high computational cost associated with (1) the use of large number of time steps (e.g., 1,000) in diffusion processes and (2) the increased dimensionality of medical images, which are often 3D or 4D. Training a diffusion model on medical images typically takes days to weeks, while sampling each image volume takes minutes to hours. To address this challenge, we introduce Fast-DDPM, a simple yet effective approach capable of improving training speed, sampling speed, and generation quality simultaneously. Unlike DDPM, which trains the image denoiser across 1,000 time steps, Fast-DDPM trains and samples using only 10 time steps. The key to our method lies in aligning the training and sampling procedures to optimize time-step utilization. Specifically, we introduced two efficient noise schedulers with 10 time steps: one with uniform time step sampling and another with non-uniform sampling. We evaluated Fast-DDPM across three medical image-to-image generation tasks: multi-image super-resolution, image denoising, and image-to-image translation. Fast-DDPM outperformed DDPM and current state-of-the-art methods based on convolutional networks and generative adversarial networks in all tasks. Additionally, Fast-DDPM reduced the training time to 0.2x and the sampling time to 0.01x compared to DDPM. Our code is publicly available at: https://github.com/mirthAI/Fast-DDPM.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24
# 高速画像合成のための分散マッチング蒸留の改良

Improved Distribution Matching Distillation for Fast Image Synthesis ( http://arxiv.org/abs/2405.14867v2 )

ライセンス: Link先を確認
Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, (参考訳) 近年のアプローチでは、効率的な1段階生成器への拡散モデルの蒸留が約束されている。 このうち、DMDは教師のサンプリング軌跡と1対1の対応を強制することなく、教師の分布に一致する1ステップのジェネレータを生成する。 しかし、安定したトレーニングを確保するために、DMDは、教師が多くのステップを決定論的サンプリング器で生成した大量のノイズ像ペアを用いて計算されたさらなる回帰損失を必要とする。 これは、大規模なテキストと画像の合成に費用がかかり、生徒の質を制限し、教師のオリジナルのサンプリングパスに近づきすぎている。 この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。 まず、回帰損失と高価なデータセット構築の必要性を排除します。 結果, 結果の不安定性は, 生成したサンプルの分布を正確に推定しない偽の批判によるものであり, 2つの時間スケール更新規則を治療として提案する。 第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。 これにより、実際のデータに基づいて学生モデルをトレーニングし、教師モデルから不完全な実点推定を緩和し、品質を向上させることができる。 最後に,マルチステップサンプリングを可能にするためにトレーニング手順を変更した。 この設定では、トレーニング時間中の推論時間生成サンプルをシミュレートすることにより、トレーニング-推論入力ミスマッチ問題を特定し、対処する。 FIDスコアはImageNet-64x64で1.28、ゼロショットCOCO 2014で8.35で、500倍の推論コストの削減にもかかわらず、元の教師を上回った。 さらに,SDXLを蒸留してメガピクセル画像を生成する手法を提案する。

Recent approaches have shown promises distilling diffusion models into efficient one-step generators. Among them, Distribution Matching Distillation (DMD) produces one-step generators that match their teacher in distribution, without enforcing a one-to-one correspondence with the sampling trajectories of their teachers. However, to ensure stable training, DMD requires an additional regression loss computed using a large set of noise-image pairs generated by the teacher with many steps of a deterministic sampler. This is costly for large-scale text-to-image synthesis and limits the student's quality, tying it too closely to the teacher's original sampling paths. We introduce DMD2, a set of techniques that lift this limitation and improve DMD training. First, we eliminate the regression loss and the need for expensive dataset construction. We show that the resulting instability is due to the fake critic not estimating the distribution of generated samples accurately and propose a two time-scale update rule as a remedy. Second, we integrate a GAN loss into the distillation procedure, discriminating between generated samples and real images. This lets us train the student model on real data, mitigating the imperfect real score estimation from the teacher model, and enhancing quality. Lastly, we modify the training procedure to enable multi-step sampling. We identify and address the training-inference input mismatch problem in this setting, by simulating inference-time generator samples during training time. Taken together, our improvements set new benchmarks in one-step image generation, with FID scores of 1.28 on ImageNet-64x64 and 8.35 on zero-shot COCO 2014, surpassing the original teacher despite a 500X reduction in inference cost. Further, we show our approach can generate megapixel images by distilling SDXL, demonstrating exceptional visual quality among few-step methods.
翻訳日:2024-05-27 12:41:46 公開日:2024-05-24