このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240715となっている論文です。

PDF登録状況(公開日: 20240715)

TitleAuthorsAbstract論文公表日・翻訳日
# 確率微分方程式を持たない離散生成拡散モデル:テンソルネットワークアプローチ

Discrete generative diffusion models without stochastic differential equations: a tensor network approach ( http://arxiv.org/abs/2407.11133v1 )

ライセンス: Link先を確認
Luke Causer, Grant M. Rotskoff, Juan P. Garrahan, (参考訳) 拡散モデル (DMs) は、学習確率微分方程式を用いて自明な(しばしばガウス的な)分布のサンプルを変換することにより、対象分布をサンプリングする生成機械学習手法のクラスである。 標準的なDMでは、関心の分布に拡散ノイズを加える効果を反転させる ''スコア関数'' を学習することでこれを実現できる。 ここでは、DMの離散的な自由度を持つ格子系への一般化と、マルコフ連鎖ジャンプダイナミクスによるノイズの追加について考察する。 確率微分方程式を明示的に解くことなく、テンソルネットワーク(TN)を用いて「離散拡散モデル」 (DDM) を効率的に定義し、サンプリングする方法を示す。 以下に示す。 (i)データと進化演算子をTNとしてパラメトリすることで、退化ダイナミクスを正確に表現することができる。 (II)TNの自己回帰特性は、試料を効率よく、バイアスなく生成することができる。 三) ボルツマン分布をサンプリングするために、TNはモンテカルロとうまく統合した効率的な学習スキームを構築することができる。 非自明な熱力学を持つ2つのモデルの平衡、$d=1$制約されたフレドキン鎖、および$d=2$イジングモデルについて考察する。

Diffusion models (DMs) are a class of generative machine learning methods that sample a target distribution by transforming samples of a trivial (often Gaussian) distribution using a learned stochastic differential equation. In standard DMs, this is done by learning a ``score function'' that reverses the effect of adding diffusive noise to the distribution of interest. Here we consider the generalisation of DMs to lattice systems with discrete degrees of freedom, and where noise is added via Markov chain jump dynamics. We show how to use tensor networks (TNs) to efficiently define and sample such ``discrete diffusion models'' (DDMs) without explicitly having to solve a stochastic differential equation. We show the following: (i) by parametrising the data and evolution operators as TNs, the denoising dynamics can be represented exactly; (ii) the auto-regressive nature of TNs allows to generate samples efficiently and without bias; (iii) for sampling Boltzmann-like distributions, TNs allow to construct an efficient learning scheme that integrates well with Monte Carlo. We illustrate this approach to study the equilibrium of two models with non-trivial thermodynamics, the $d=1$ constrained Fredkin chain and the $d=2$ Ising model.
翻訳日:2024-08-19 05:35:40 公開日:2024-07-15
# M2Mセマンティック通信における理解の度合いの定量化と検証

Quantification and Validation for Degree of Understanding in M2M Semantic Communications ( http://arxiv.org/abs/2408.00767v1 )

ライセンス: Link先を確認
Linhan Xia, Jiaxin Cai, Ricky Yuen-Tan Hou, Seon-Phil Jeong, (参考訳) 人工知能(AI)とモノのインターネット(IoT)技術の発展により、シャノン=ニキストの定理に基づくネットワーク通信は、送信されたコンテンツにおける意味情報の無視により、その限界を徐々に明らかにする。 セマンティックコミュニケーション(SemCom)は、送信されたコンテンツから情報の意味を抽出するソリューションを提供する。 セマンティック情報は、共有知識ベース(KB)の助けを借りて受信者によってうまく解釈できる。 本稿では,自然言語に基づくマシン・ツー・マシン(M2M)SemComの2段階階層的検証モデルを提案する。 このアプローチは、自律運転やエッジコンピューティングなど、さまざまなアプリケーションに適用することができる。 提案モデルでは,単語と文レベルでの2つのコミュニケーション相手間の理解度(DoU)を定量的に測定する。 DoUは検証され、次のステップに移行する前に各レベルで保証される。 モデルの有効性を一連の実験により検証し,本論文で提案した定量化および検証手法は,マシン間セムコムのDoUを大幅に改善できることを示す。

With the development of Artificial Intelligence (AI) and Internet of Things (IoT) technologies, network communications based on the Shannon-Nyquist theorem gradually reveal their limitations due to the neglect of semantic information in the transmitted content. Semantic communication (SemCom) provides a solution for extracting information meanings from the transmitted content. The semantic information can be successfully interpreted by a receiver with the help of a shared knowledge base (KB). This paper proposes a two-stage hierarchical qualification and validation model for natural language-based machine-to-machine (M2M) SemCom. The approach can be applied in various applications, such as autonomous driving and edge computing. In the proposed model, we quantitatively measure the degree of understanding (DoU) between two communication parties at the word and sentence levels. The DoU is validated and ensured at each level before moving to the next step. The model's effectiveness is verified through a series of experiments, and the results show that the quantification and validation method proposed in this paper can significantly improve the DoU of inter-machine SemCom.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-15
# 光フローと深層学習を比較して空間充足曲線による効率的な交通事象検出を可能にする

Comparing Optical Flow and Deep Learning to Enable Computationally Efficient Traffic Event Detection with Space-Filling Curves ( http://arxiv.org/abs/2408.00768v1 )

ライセンス: Link先を確認
Tayssir Bouraffa, Elias Kjellberg Carlson, Erik Wessman, Ali Nouri, Pierre Lamart, Christian Berger, (参考訳) 各種交通状況におけるデータ収集やイベントの特定は,認識システムの性能評価において重要な課題である。 ビデオ、レーダー、LiDARから得られた大規模な、通常は構造化されていない、マルチモーダルな時系列データを解析することは、特にメタ情報やアノテーションが欠落している場合に、計算的に要求される。 我々は,OF(Optical Flow)とDL(Deep Learning)を比較し,前方の車載カメラからの映像データに対して,空間充填曲線による計算効率の高いイベント検出を行う。 第1のアプローチは、ドライバーの視線を予測し、潜在的な事象の場所を特定するために、人間の視覚的注意に基づいて訓練されたDLモデルである。 我々はこれらの結果を空間充填曲線に供給し、次元を小さくし、計算効率の良いイベント検索を実現する。 大規模仮想データセット(SMIRK)から両方のアプローチの特徴パターンを抽出し,その特徴パターンを大規模マルチモーダルで実世界の大規模データセットであるZendeact Open Dataset(ZOD)に適用し,14カ国で2年間にわたって収集した。 以上の結果から,OFアプローチは特異性に優れ,偽陽性を低減し,DLアプローチは優れた感度を示した。 どちらのアプローチも処理速度が同等であり、リアルタイムアプリケーションに適している。

Gathering data and identifying events in various traffic situations remains an essential challenge for the systematic evaluation of a perception system's performance. Analyzing large-scale, typically unstructured, multi-modal, time series data obtained from video, radar, and LiDAR is computationally demanding, particularly when meta-information or annotations are missing. We compare Optical Flow (OF) and Deep Learning (DL) to feed computationally efficient event detection via space-filling curves on video data from a forward-facing, in-vehicle camera. Our first approach leverages unexpected disturbances in the OF field from vehicle surroundings; the second approach is a DL model trained on human visual attention to predict a driver's gaze to spot potential event locations. We feed these results to a space-filling curve to reduce dimensionality and achieve computationally efficient event retrieval. We systematically evaluate our concept by obtaining characteristic patterns for both approaches from a large-scale virtual dataset (SMIRK) and applied our findings to the Zenseact Open Dataset (ZOD), a large multi-modal, real-world dataset, collected over two years in 14 different European countries. Our results yield that the OF approach excels in specificity and reduces false positives, while the DL approach demonstrates superior sensitivity. Both approaches offer comparable processing speed, making them suitable for real-time applications.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-15
# AIと人間のオーサシップをデコードする - NLPと統計分析から明らかになったニュアンス

Decoding AI and Human Authorship: Nuances Revealed Through NLP and Statistical Analysis ( http://arxiv.org/abs/2408.00769v1 )

ライセンス: Link先を確認
Mayowa Akinwande, Oluwaseyi Adeliyi, Toyyibat Yussuph, (参考訳) 本研究では、AIが生成したテキストと人間によって書かれたテキストの微妙な違いを調査し、AIと人間によって言語がどのように異なるかを理解することを目的とする。 包括的な統計データ分析を通じて、人間の書き起こしやAIが生成するテキストに固有の様々な言語特性、創造性のパターン、潜在的なバイアスを調査する。 この研究の意義は、AIの創造的能力と、文学、コミュニケーション、社会的なフレームワークへの影響を理解することにある。 さまざまなトピックやジャンルにまたがる500Kのエッセイ、LLM、あるいは人間によって書かれたエッセイからなる精巧にキュレートされたデータセットを調べることで、この研究は言語表現の深い層を明らかにし、AIと人間主導のテキスト合成の基礎となる認知過程に関する洞察を提供する。 この分析によると、人間によるエッセイはAI生成エッセイよりも平均語数が高い傾向にあるが、AI生成エッセイよりも平均語長が短い傾向があり、どちらのグループも高い流布度を示す一方で、人間によるエッセイの語彙の多様性はAI生成エッセイよりも高い傾向を示した。 しかし、AIによって生成されたエッセイは、わずかに高度なノベルティを示しており、AIシステムを通じてよりオリジナルコンテンツを生成する可能性を示唆している。 論文は、AIモデルの言語生成能力を評価する上での課題に対処し、人間とAIの共同執筆の複雑さを反映したデータセットの重要性を強調する。 体系的な事前処理と厳密な統計分析を通じて、AI生成コンテンツの進化する景観に関する貴重な洞察を提供し、自然言語処理(NLP)における今後の発展を知らせる。

This research explores the nuanced differences in texts produced by AI and those written by humans, aiming to elucidate how language is expressed differently by AI and humans. Through comprehensive statistical data analysis, the study investigates various linguistic traits, patterns of creativity, and potential biases inherent in human-written and AI- generated texts. The significance of this research lies in its contribution to understanding AI's creative capabilities and its impact on literature, communication, and societal frameworks. By examining a meticulously curated dataset comprising 500K essays spanning diverse topics and genres, generated by LLMs, or written by humans, the study uncovers the deeper layers of linguistic expression and provides insights into the cognitive processes underlying both AI and human-driven textual compositions. The analysis revealed that human-authored essays tend to have a higher total word count on average than AI-generated essays but have a shorter average word length compared to AI- generated essays, and while both groups exhibit high levels of fluency, the vocabulary diversity of Human authored content is higher than AI generated content. However, AI- generated essays show a slightly higher level of novelty, suggesting the potential for generating more original content through AI systems. The paper addresses challenges in assessing the language generation capabilities of AI models and emphasizes the importance of datasets that reflect the complexities of human-AI collaborative writing. Through systematic preprocessing and rigorous statistical analysis, this study offers valuable insights into the evolving landscape of AI-generated content and informs future developments in natural language processing (NLP).
翻訳日:2024-08-19 05:28:21 公開日:2024-07-15
# 学習した不連続性を持つ2次元ニューラルネットワーク

2D Neural Fields with Learned Discontinuities ( http://arxiv.org/abs/2408.00771v1 )

ライセンス: Link先を確認
Chenxi Liu, Siqi Wang, Matthew Fisher, Deepali Aneja, Alec Jacobson, (参考訳) 2次元画像の効果的な表現は、ラスタやベクトルグラフィックスといった従来の手法がそれぞれシャープさとテクスチャの複雑さに苦しむデジタル画像処理において基本となる。 現在のニューラルネットワークは、高忠実度と解像度の独立性を提供するが、既知の不連続性を持つ事前定義されたメッシュを必要とし、その実用性を制限する。 すべてのメッシュエッジを潜在的な不連続性として扱うことで、連続変数による不連続性の規模を表現し、最適化することができる。 そこで,本研究では,対象画像と協調的に近似し,不連続性を回復する新たな不連続性ニューラルネットワークモデルを提案する。 InstantNGPと比較して,本研究の脳野は,5dB以上と10dB以上の改善を実現した。 我々のモデルはムンフォード・シャー法を上回り、不連続性を正確に把握し、チャンファー距離は地上の真理に3.5倍近い。 さらに,本手法は複雑な芸術的図面や自然画像を扱う際,顕著な能力を示す。

Effective representation of 2D images is fundamental in digital image processing, where traditional methods like raster and vector graphics struggle with sharpness and textural complexity respectively. Current neural fields offer high-fidelity and resolution independence but require predefined meshes with known discontinuities, restricting their utility. We observe that by treating all mesh edges as potential discontinuities, we can represent the magnitude of discontinuities with continuous variables and optimize. Based on this observation, we introduce a novel discontinuous neural field model that jointly approximate the target image and recovers discontinuities. Through systematic evaluations, our neural field demonstrates superior performance in denoising and super-resolution tasks compared to InstantNGP, achieving improvements of over 5dB and 10dB, respectively. Our model also outperforms Mumford-Shah-based methods in accurately capturing discontinuities, with Chamfer distances 3.5x closer to the ground truth. Additionally, our approach shows remarkable capability in handling complex artistic drawings and natural images.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-15
# タンパク質-リガンド結合親和性予測のための機械学習手法について

On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction ( http://arxiv.org/abs/2407.19073v1 )

ライセンス: Link先を確認
Nikolai Schapin, Carles Navarro, Albert Bou, Gianni De Fabritiis, (参考訳) 結合親和性最適化は、早期の薬物発見において重要である。 リガンド作用を予測するための多くの機械学習手法が存在するが、それらの比較効果はいまだに不明である。 本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。 包括的なベンチマークでは、リガンドのみのRDKit埋め込みとLarge Language Model(LLM)リガンド表現を利用した2次元モデルと、有界なタンパク質-リガンドコンフォメーションを組み込んだ3次元ニューラルネットワークを含む。 我々はこれらのモデルを複数の標準データセットにわたって評価し、分類、ランク付け、回帰、アクティブラーニングなど様々な予測シナリオを調査した。 結果は、より単純なモデルが特定のタスクにおいてより複雑なモデルを上回る可能性があることを示し、一方、構造情報を活用する3Dモデルは、ラベル付き親和性データを含むより大きなトレーニングデータセットと、複数のターゲットに対して競合するようになることを示唆している。 タンパク質ポケット環境を取り入れた事前学習された3Dモデルは、特定の結合ポケットに対するデータスカースシナリオにおいて大きな利点を示す。 さらに、2Dリガンドデータに対するLLM事前トレーニングにより、複雑なモデル性能が向上し、計算効率において従来のRDKit機能より優れた汎用的な埋め込みを提供する。 最後に,2次元モデルと3次元モデルを組み合わせることで,現在の最先端アプローチを超えて,アクティブな学習結果が向上することを示す。 これらの発見は、薬物発見パイプラインにおける機械学習戦略を最適化するための貴重な洞察を提供する。

Binding affinity optimization is crucial in early-stage drug discovery. While numerous machine learning methods exist for predicting ligand potency, their comparative efficacy remains unclear. This study evaluates the performance of classical tree-based models and advanced neural networks in protein-ligand binding affinity prediction. Our comprehensive benchmarking encompasses 2D models utilizing ligand-only RDKit embeddings and Large Language Model (LLM) ligand representations, as well as 3D neural networks incorporating bound protein-ligand conformations. We assess these models across multiple standard datasets, examining various predictive scenarios including classification, ranking, regression, and active learning. Results indicate that simpler models can surpass more complex ones in specific tasks, while 3D models leveraging structural information become increasingly competitive with larger training datasets containing compounds with labelled affinity data against multiple targets. Pre-trained 3D models, by incorporating protein pocket environments, demonstrate significant advantages in data-scarce scenarios for specific binding pockets. Additionally, LLM pretraining on 2D ligand data enhances complex model performance, providing versatile embeddings that outperform traditional RDKit features in computational efficiency. Finally, we show that combining 2D and 3D model strengths improves active learning outcomes beyond current state-of-the-art approaches. These findings offer valuable insights for optimizing machine learning strategies in drug discovery pipelines.
翻訳日:2024-08-05 01:06:22 公開日:2024-07-15
# バングラデシュの大学生の食事習慣と生活習慣の変化に及ぼす新型コロナウイルスポストロックダウンの影響:ウェブを用いた横断的研究

Impact of COVID-19 post lockdown on eating habits and lifestyle changes among university students in Bangladesh: a web based cross sectional study ( http://arxiv.org/abs/2407.20238v1 )

ライセンス: Link先を確認
Faysal Ahmed Imran, Mst Eshita Khatun, (参考訳) 背景】ロックダウンの停止後、大学は感染予防のため、オンライン上での授業と学習活動を全面的に移行した。 本研究は, 学生の食習慣, 身体活動, 睡眠時間, 買い物習慣, インターネット利用時間, 精神状態の有意な変化を把握し, 変数間の関連について検討することを目的とした。 方法】対象は大学生307名(18歳から25歳)で,2022年1月3日から2022年2月13日までの構造化アンケートを完了した。 調査対象は、学生の人口統計情報、食事パターン、身体活動、睡眠の質指標、ショッピングの実践、インターネット利用時間などであった。 その結果、回答者の21.5%が体重を、23.8%が体重を減らし、41.7%が体重をコントロールしたことがわかった。 76.5%のロックダウンと23.5%のロックダウン以降、自家製食品の食生活は減少した。 61.9%のロックダウンで1日3.4食が減った。 ロックダウン後の運動量は有意に増加した(p=0.001)。 ロックダウン後の1日あたりの睡眠時間は有意に減少した(p=0.001)。 応答者は60.9%のロックダウン後に精神的に疲れたと感じた。 チャットルームでのインターネット利用時間は88.3%だった。 結論: 本研究は, 食事習慣, メンタルヘルス, 学生のロックダウン後の日常行動に有意な影響を与え, バランスの取れた食事, 身体運動, 睡眠品質, メンタルヘルスを維持する必要があることを示唆した。

Background:Since the confinement of the lockdown, universities transferred their teaching and learning activities in online as an all-out intention to prevent the transmission of the infection. This study aimed to determine the significant changes in food habits, physical activity, sleeping hours, shopping habits, Internet use time and mental status of the students and investigate the associations between variables. Methods:The study participants were 307 Undergraduate students, between 18 and 25 years of age completed a structured questionnaire from January 3, 2022 to February 13, 2022. The questionnaire included demographic information of the students, questionnaire of dietary pattern, physical activity, sleep quality index, Shopping practice and Internet use time.Chi-square tests were used to associate the baseline information with lifestyle changes in post lockdown. Results:The study reveals that 21.5% of respondents gained weight, 23.8% lost their weight and 41.7% controlled their weight. Eating of homemade food decreased after lockdown 76.5% and eating of restaurant food increased after lockdown 23.5%. A number of major meals 3-4 meals per day decreased after lockdown 61.9%. Physical exercise significantly increased after lockdown (p=0.001). Sleeping hours per day significantly decreased after lockdown (p=0.001), sleep quality was almost the same and energy level increased more in post lockdown. Respondents felt mentally tired after lockdown 60.9%. Respondents spending time on the Internet in chat rooms was 88.3%. Conclusions: This study represents the significant impact on food habits, mental health, and daily routine of students after lockdown, suggesting that we should maintain a balanced diet, physical exercise to sleep quality and mental health.
翻訳日:2024-08-05 00:56:24 公開日:2024-07-15
# 周波数比(FR)モデルを用いた地すべりの脆弱性解析-バングラデシュ・バンダルバン地区を対象として

Landslide vulnerability analysis using frequency ratio (FR) model: a study on Bandarban district, Bangladesh ( http://arxiv.org/abs/2407.20239v1 )

ライセンス: Link先を確認
Nafis Fuad, Javed Meandad, Ashraful Haque, Rukhsar Sultana, Sumaiya Binte Anwar, Sharmin Sultana, (参考訳) 本研究では,南東バングラデシュのバンダルバン地区を中心に,チッタゴンヒルトラクト(CHT)における地すべりの脆弱性を評価する。 地すべりに影響を及ぼす要因として, 地形, 土地利用, 環境変数など13因子について検討した。 FRモデルを用いて,DEM,衛星画像,降雨データなどの各種データセットを統合し,地すべりの感受性マッピングを行った。 その結果, 急傾斜, 高標高, 特異面, 曲率が地すべりの感受性に大きく寄与することが判明した。 浸食、土壌飽和、排水密度、人的活動などの要因も重要な要因として同定された。 この研究は、土地利用の変化の影響を明らかにし、植生被覆の安定化効果を強調した。 その結果、ランドスライダー・サセプティビリティ・マップ (LSM) は、この地域を5つのサセプティビリティ・ゾーンに分類した。 このモデルは76.47%の予測精度を示し、地すべりの発生を予測する効果を示した。 さらに、この研究は30年以上にわたる研究領域の顕著な変化を明らかにし、人間の活動が斜面不安定性に与える影響を強調した。 これらの結果は、政策立案者や土地利用計画者にとって貴重な洞察を与え、地すべりのリスクを軽減し、コミュニティの安全を確保するための積極的措置の重要性を強調している。 これらの洞察を政策枠組みに取り入れる

This study assesses landslide vulnerability in the Chittagong Hill Tracts (CHT), specifically focusing on Bandarban district in Southeast Bangladesh. By employing a multidisciplinary approach, thirteen factors influencing landslides were examined, including terrain features, land use, and environmental variables. Utilizing the FR model and integrating various datasets such as DEM, satellite images, and rainfall data, landslide susceptibility mapping was conducted. The analysis revealed that steep slopes, high elevations, specific aspects, and curvature contribute significantly to landslide susceptibility. Factors like erosion, soil saturation, drainage density, and human activities were also identified as key contributors. The study underscored the impact of land use changes and highlighted the stabilizing effect of vegetation cover. The resulting Landslide Susceptibility Map (LSM) categorized the area into five susceptibility zones. The model demonstrated a prediction accuracy of 76.47%, indicating its effectiveness in forecasting landslide occurrences. Additionally, the study identified significant changes in the study area over three decades, emphasizing the influence of human activities on slope instability. These findings offer valuable insights for policymakers and land-use planners, emphasizing the importance of proactive measures to mitigate landslide risks and ensure community safety. Incorporating these insights into policy frameworks
翻訳日:2024-08-05 00:56:24 公開日:2024-07-15
# カナダにおける新参者の社会的・倫理的リスク

Social and Ethical Risks Posed by General-Purpose LLMs for Settling Newcomers in Canada ( http://arxiv.org/abs/2407.20240v1 )

ライセンス: Link先を確認
Isar Nejadgholi, Maryam Molamohammadi, (参考訳) カナダの非営利の決済部門は、新参者が統合を成功させるために支援している。 このセクターは、移民ターゲットの増加中の運用上のプレッシャーの増大に直面しており、信頼性の高いAIソリューションを通じて、効率性とイノベーションの強化の必要性を強調している。 ChatGPTのような汎用ジェネレーティブAIのアドホックな使用は、このニーズに対処するための新参者やサービス提供者の間で一般的な実践になるかもしれない。 しかし、これらの道具は入植地に適したものではなく、移民や難民に有害な影響を及ぼす可能性がある。 われわれは、これらのツールが初心者に悪影響を及ぼすリスクを探求し、生成AIの非防衛的使用に対して警告し、そして第二に、AIリテラシープログラムの作成におけるさらなる研究と開発を奨励し、影響したコミュニティの好みに合わせたカスタマイズされたLLMも検討する。 重要なことは、そのような技術は、決済部門の既存のワークフローにシームレスに統合し、人間の監視、信頼性、説明責任を保証するよう設計されるべきである。

The non-profit settlement sector in Canada supports newcomers in achieving successful integration. This sector faces increasing operational pressures amidst rising immigration targets, which highlights a need for enhanced efficiency and innovation, potentially through reliable AI solutions. The ad-hoc use of general-purpose generative AI, such as ChatGPT, might become a common practice among newcomers and service providers to address this need. However, these tools are not tailored for the settlement domain and can have detrimental implications for immigrants and refugees. We explore the risks that these tools might pose on newcomers to first, warn against the unguarded use of generative AI, and second, to incentivize further research and development in creating AI literacy programs as well as customized LLMs that are aligned with the preferences of the impacted communities. Crucially, such technologies should be designed to integrate seamlessly into the existing workflow of the settlement sector, ensuring human oversight, trustworthiness, and accountability.
翻訳日:2024-08-05 00:56:24 公開日:2024-07-15
# マルチビューイメージングにおける成功確率

Success Probability in Multi-View Imaging ( http://arxiv.org/abs/2407.21027v1 )

ライセンス: Link先を確認
Vadim Holodovsky, Masada Tzabari, Yoav Schechner, Alex Frid, Klaus Schilling, (参考訳) ロボット、防犯カメラ、ドローン、衛星などのプラットフォームは立体視やトモグラフィーによって3次元のリカバリのために多視点イメージングに使用される。 設定中の各カメラは視野(FOV)を有する。 マルチビュー分析では、全カメラのFOVの重複、またはそのかなりのサブセットが必要である。 しかし、FOVは十分に重複しないため、そのような手法の成功は保証されていない。 理由は、マウントやプラットフォームからカメラを向けることには、不正確なプラットフォーム制御、典型的な機械系、特に衛星などの移動系によるランダム性(ノイズ)があるからである。 したがって、成功は確率的です。 本稿は、この側面を分析するためのフレームワークを作成する。 これは、解像度(ピクセルフットプリント)、FOV、キャプチャ可能なドメインのサイズ、効率といった、イメージングシステムの能力の制限を設定するために重要である。 このフレームワークは、ペアビューとビューの十分な視覚的類似性の間に十分な重複があることを前提として、不正確なポインティングを自己校正によって緩和できるという事実を使用している。 雲の3次元再構成を求めるナノサテライトの設計例を示す。

Platforms such as robots, security cameras, drones and satellites are used in multi-view imaging for three-dimensional (3D) recovery by stereoscopy or tomography. Each camera in the setup has a field of view (FOV). Multi-view analysis requires overlap of the FOVs of all cameras, or a significant subset of them. However, the success of such methods is not guaranteed, because the FOVs may not sufficiently overlap. The reason is that pointing of a camera from a mount or platform has some randomness (noise), due to imprecise platform control, typical to mechanical systems, and particularly moving systems such as satellites. So, success is probabilistic. This paper creates a framework to analyze this aspect. This is critical for setting limitations on the capabilities of imaging systems, such as resolution (pixel footprint), FOV, the size of domains that can be captured, and efficiency. The framework uses the fact that imprecise pointing can be mitigated by self-calibration - provided that there is sufficient overlap between pairs of views and sufficient visual similarity of views. We show an example considering the design of a formation of nanosatellites that seek 3D reconstruction of clouds.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-15
# 抗体ドメインベッド:治療タンパク質設計におけるアウト・オブ・ディストリビューションの一般化

Antibody DomainBed: Out-of-Distribution Generalization in Therapeutic Protein Design ( http://arxiv.org/abs/2407.21028v1 )

ライセンス: Link先を確認
Nataša Tagasovska, Ji Won Park, Matthieu Kirchmeyer, Nathan C. Frey, Andrew Martin Watkins, Aya Abdelsalam Ismail, Arian Rokkum Jamasb, Edith Lee, Tyler Bryson, Stephen Ra, Kyunghyun Cho, (参考訳) 機械学習(ML)は、薬物設計を加速する上で大きな可能性を証明している。 治療分子のアクティブML誘導最適化は、通常、関心の標的特性を予測する代理モデルに依存している。 モデル予測は、実験室でどの設計を評価するかを決定するために使用され、モデルは、次のサイクルを決定するために、新しい測定値に基づいて更新される。 重要な課題は、各サイクルからの実験的なフィードバックが、次のサイクルの候補提案や実験的なプロトコルの変更を誘発し、分散シフトにつながることである。 これらのシフトに対する堅牢性を促進するためには、モデルトレーニングで明確にそれらを説明する必要があります。 設計サイクルによって定義された5つのドメインにわたる抗体と抗原の相互作用の安定性を分類するためにドメイン一般化(DG)法を適用した。 以上の結果から,基礎モデルとアンサンブルは,アウト・オブ・ディストリビューション領域における予測性能を向上させることが示唆された。 DGベンチマーク ``DomainBed,'' を拡張したコードベースと、関連する抗体配列のデータセットと、設計サイクル間の分散シフトをエミュレートする構造を公開しています。

Machine learning (ML) has demonstrated significant promise in accelerating drug design. Active ML-guided optimization of therapeutic molecules typically relies on a surrogate model predicting the target property of interest. The model predictions are used to determine which designs to evaluate in the lab, and the model is updated on the new measurements to inform the next cycle of decisions. A key challenge is that the experimental feedback from each cycle inspires changes in the candidate proposal or experimental protocol for the next cycle, which lead to distribution shifts. To promote robustness to these shifts, we must account for them explicitly in the model training. We apply domain generalization (DG) methods to classify the stability of interactions between an antibody and antigen across five domains defined by design cycles. Our results suggest that foundational models and ensembling improve predictive performance on out-of-distribution domains. We publicly release our codebase extending the DG benchmark ``DomainBed,'' and the associated dataset of antibody sequences and structures emulating distribution shifts across design cycles.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-15
# 形式検証のためのバイナリ・トレー・ガウスプロセスによるデータ駆動抽象化

Data-Driven Abstractions via Binary-Tree Gaussian Processes for Formal Verification ( http://arxiv.org/abs/2407.21029v1 )

ライセンス: Link先を確認
Oliver Schön, Shammakh Naseer, Ben Wooding, Sadegh Soudjani, (参考訳) 未知のダイナミクスを扱うための時間論理的要求に対する確率システムの形式的検証を進めるために、研究者たちは、基礎となる機械学習技術のブレークスルーにインスパイアされたデータ駆動アプローチを設計してきた。 1つの有望な研究方向として、ガウス過程(GP)回帰に基づく抽象化ベースのソリューションは、量子化された誤差を持つデータから潜在システムの表現を学習する能力で人気を博している。 このモデルに基づいて得られた結果は、様々な方法で実際のシステムに変換される。 最近の出版物では、いわゆるバイナリツリーカーネルを用いたGPは、バニラバージョンと比較してデータのサイズが多項式スピードアップすることを示した。 ちなみに、結果として生じる二分木ガウス過程(BTGP)は、その断片的に一貫した後続平均と共分散関数の特徴であり、入力空間を離散分割に自然に抽象化する。 本稿では,BTGPのこの自然な抽象化を形式的検証に活用し,煩雑な抽象化や誤り量化処理の不要さを解消する。 BTGPは未知系のインターバルマルコフ連鎖モデルを構築することができることを示す。 BTGPの関数空間に真の力学が存在しない場合でも、統一公式による非局在誤差量子化を提供する。 これにより、アレタリックおよびエピステマティックな不確実性の両方に対して堅牢な到達可能性仕様を満たす確率の上限と下限を計算することができる。

To advance formal verification of stochastic systems against temporal logic requirements for handling unknown dynamics, researchers have been designing data-driven approaches inspired by breakthroughs in the underlying machine learning techniques. As one promising research direction, abstraction-based solutions based on Gaussian process (GP) regression have become popular for their ability to learn a representation of the latent system from data with a quantified error. Results obtained based on this model are then translated to the true system via various methods. In a recent publication, GPs using a so-called binary-tree kernel have demonstrated a polynomial speedup w.r.t. the size of the data compared to their vanilla version, outcompeting all existing sparse GP approximations. Incidentally, the resulting binary-tree Gaussian process (BTGP) is characteristic for its piecewise-constant posterior mean and covariance functions, naturally abstracting the input space into discrete partitions. In this paper, we leverage this natural abstraction of the BTGP for formal verification, eliminating the need for cumbersome abstraction and error quantification procedures. We show that the BTGP allows us to construct an interval Markov chain model of the unknown system with a speedup that is polynomial w.r.t. the size of the abstraction compared to alternative approaches. We provide a delocalized error quantification via a unified formula even when the true dynamics do not live in the function space of the BTGP. This allows us to compute upper and lower bounds on the probability of satisfying reachability specifications that are robust to both aleatoric and epistemic uncertainties.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-15
# クラスタと分離:スコア彫刻における音声とスタッフ予測へのGNNアプローチ

Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving ( http://arxiv.org/abs/2407.21030v1 )

ライセンス: Link先を確認
Francesco Foscarin, Emmanouil Karystinaios, Eita Nakamura, Gerhard Widmer, (参考訳) 本稿では,音符を量子化された記号楽曲(例:MIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。 これは、人間の演奏者のための可読性のある楽譜を作成することを目的とした、より大きな楽譜エングレービング(あるいは楽譜タイプセット)の作業の基本的な部分である。 我々はピアノ音楽に焦点を合わせ、ホモフォニックな声、すなわちコードを含む声、クロススタッフの声をサポートする。 本稿では,同じ和音に属する音符をクラスタ化し,音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。 その結果,従来の2つのスタイルのデータセットに対するアプローチよりも明確で一貫した改善が得られた。 結果の質的分析を支援するため,記号的な音楽フォーマットのエクスポートをサポートし,楽譜上の出力グラフを直接可視化する。 すべてのコードと事前訓練されたモデルはhttps://github.com/CPJKU/piano_svsepで入手できる。

This paper approaches the problem of separating the notes from a quantized symbolic music piece (e.g., a MIDI file) into multiple voices and staves. This is a fundamental part of the larger task of music score engraving (or score typesetting), which aims to produce readable musical scores for human performers. We focus on piano music and support homophonic voices, i.e., voices that can contain chords, and cross-staff voices, which are notably difficult tasks that have often been overlooked in previous research. We propose an end-to-end system based on graph neural networks that clusters notes that belong to the same chord and connects them with edges if they are part of a voice. Our results show clear and consistent improvements over a previous approach on two datasets of different styles. To aid the qualitative analysis of our results, we support the export in symbolic music formats and provide a direct visualization of our outputs graph over the musical score. All code and pre-trained models are available at https://github.com/CPJKU/piano_svsep
翻訳日:2024-08-05 00:46:38 公開日:2024-07-15
# 学生は、異なる教育環境下でLLMを利用した仮想教科アシスタントとどのように相互作用するか?

How Do Students Interact with an LLM-powered Virtual Teaching Assistant in Different Educational Settings? ( http://arxiv.org/abs/2407.17429v1 )

ライセンス: Link先を確認
Pratyusha Maiti, Ashok K. Goel, (参考訳) LLMを利用したバーチャル教育アシスタントであるJill Watson氏は、学生の質問に答えて、インストラクターが提供するコースウェア上での会話を延長する。 本稿では,ブルームの改訂分類法とツール利用パターンに基づいて,複数の科目や大学におけるジルとの相互作用を分析し,学生の質問のタイプと複雑さに着目した。 幅広い認知的要求をサポートすることで、ジルは生徒に高度な高次認知的質問への参加を促している。 しかし、利用頻度はデプロイメント毎に大きく異なり、質問の種類はコース固有のコンテキストに依存します。 これらの知見は、個別の学習スタイルとコース構造に合わせたAI駆動型教育ツールの今後の研究の道を開くもので、教室での教育と学習経験の両方を強化する可能性がある。

Jill Watson, a virtual teaching assistant powered by LLMs, answers student questions and engages them in extended conversations on courseware provided by the instructors. In this paper, we analyze student interactions with Jill across multiple courses and colleges, focusing on the types and complexity of student questions based on Bloom's Revised Taxonomy and tool usage patterns. We find that, by supporting a wide range of cognitive demands, Jill encourages students to engage in sophisticated, higher-order cognitive questions. However, the frequency of usage varies significantly across deployments, and the types of questions asked depend on course-specific contexts. These findings pave the way for future work on AI-driven educational tools tailored to individual learning styles and course structure, potentially enhancing both the teaching and learning experience in classrooms.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-15
# 西洋ポピュラー音楽のためのギターコードダイアグラムの提案

Guitar Chord Diagram Suggestion for Western Popular Music ( http://arxiv.org/abs/2407.14260v1 )

ライセンス: Link先を確認
Alexandre d'Hooge, Louis Bigo, Ken Déguernel, Nicolas Martin, (参考訳) コードダイアグラムは、ギター奏者がフレットボードでコードを演奏する場所と方法を示すために使用される。 本論文では、DadaGPとmySongBookのデータセットの統計分析に基づいて、一部のコード図が西欧のポピュラー音楽において過剰に表現されていること、また、いくつかのコード図が20種類以上の方法で演奏可能であること、また、文脈を考慮すれば、コード図の多様性と質を向上させることができること、そして、このアプローチを、現在のコード図のみをコーディネートに含めるモデルと比較し、前回のF1のタスクを27%の精度で改善すること、そして、このモデルにより、標準的テクスチャのテクスチャのテクスチャとテクスチャの質を改善できることを示す。

Chord diagrams are used by guitar players to show where and how to play a chord on the fretboard. They are useful to beginners learning chords or for sharing the hand positions required to play a song.However, the diagrams presented on guitar learning toolsare usually selected from an existing databaseand rarely represent the actual positions used by performers.In this paper, we propose a tool which suggests a chord diagram for achord label,taking into account the diagram of the previous chord.Based on statistical analysis of the DadaGP and mySongBook datasets, we show that some chord diagrams are over-represented in western popular musicand that some chords can be played in more than 20 different ways.We argue that taking context into account can improve the variety and the quality of chord diagram suggestion, and compare this approach with a model taking only the current chord label into account.We show that adding previous context improves the F1-score on this task by up to 27% and reduces the propensity of the model to suggest standard open chords.We also define the notion of texture in the context of chord diagrams andshow through a variety of metrics that our model improves textureconsistencywith the previous diagram.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-15
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク

Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v6 )

ライセンス: Link先を確認
Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song, (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。 低分解能画像から高分解能画像を合成することにより、深層学習に基づく単一画像の超解像技術がこの問題の解決に有効な方法である。 しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。 暗黙的な神経表現に基づく手法は、自然画像の任意のスケールの超解像において有望な結果を示しているが、それを病理画像に直接適用することは、自然画像とは異なる独特の微細な画像テクスチャを持つため、不十分である。 そこで本研究では,この課題に対処するために,任意の規模の病理像の超解像を実現するためのImplicit Self-Texture Enhancement-based dual-branch framework (ISTE)を提案する。 ISTEには、まずピクセルの特徴とテクスチャの特徴を学習するテクスチャ学習ブランチと、画素学習ブランチが含まれている。 そして、2段階のテクスチャ強化戦略を設計し、2段階のテクスチャを融合させて超解像結果を得る。 3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。 我々の知る限りでは、病理画像における任意のスケールの超解像を実現するための最初の試みである。 コードは利用可能。

High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available.
翻訳日:2024-07-19 21:41:25 公開日:2024-07-15
# MetaTool: メタタスク拡張による大規模言語モデルをマスタツールにファシリテート

MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation ( http://arxiv.org/abs/2407.12871v1 )

ライセンス: Link先を確認
Xiaohan Wang, Dian Li, Yilin Zhao, Sinbadliu, Hui Wang, (参考訳) LLM(Large Language Models)による複雑なツールの利用は、さまざまな現実のシナリオにおいてAIエージェントを接地するための重要なコンポーネントである。 ツールを操作する上での課題は、ツールの使用状況と機能を理解することだ。 一般的なアプローチでは、デモや専門家の軌道の微調整によって、ほとんどショットを起こさない。 しかし、複雑なツールやタスクでは、単にコンテキスト内デモでは十分な知識をカバーできない可能性がある。 トレーニングベースの手法は、データセット構築の高コストと限定的な一般化性によって制約される。 本稿では,再利用可能なツールセットを習得する上で汎用的な新しいツール学習手法(MetaTool)を提案する。 我々のアプローチには、LLMが様々なツールを包括的に理解し、効率的にタスクを完了する能力を向上できる自己教師型データ拡張技術が含まれている。 我々は,ツール実行のマスキング要因を予測するメタタスクを開発した。 これらの自己教師型タスクは、ツール理解に関する高品質なQAデータの自動生成を可能にする。 メタタスクデータを命令チューニングプロセスに組み込むことにより,提案したMetaToolモデルは,オープンソースのモデルよりも大幅に優れ,複数のツール指向タスクにおいてGPT-4/GPT-3.5に匹敵する。

Utilizing complex tools with Large Language Models (LLMs) is a critical component for grounding AI agents in various real-world scenarios. The core challenge of manipulating tools lies in understanding their usage and functionality. The prevailing approach involves few-shot prompting with demonstrations or fine-tuning on expert trajectories. However, for complex tools and tasks, mere in-context demonstrations may fail to cover sufficient knowledge. Training-based methods are also constrained by the high cost of dataset construction and limited generalizability. In this paper, we introduce a new tool learning methodology (MetaTool) that is generalizable for mastering any reusable toolset. Our approach includes a self-supervised data augmentation technique that enables LLMs to gain a comprehensive understanding of various tools, thereby improving their ability to complete tasks effectively. We develop a series of meta-tasks that involve predicting masked factors of tool execution. These self-supervised tasks enable the automatic generation of high-quality QA data concerning tool comprehension. By incorporating meta-task data into the instruction tuning process, the proposed MetaTool model achieves significant superiority to open-source models and is comparable to GPT-4/GPT-3.5 on multiple tool-oriented tasks.
翻訳日:2024-07-19 20:02:37 公開日:2024-07-15
# fmevalによる大規模言語モデルの評価

Evaluating Large Language Models with fmeval ( http://arxiv.org/abs/2407.12872v1 )

ライセンス: Link先を確認
Pola Schwöbel, Luca Franceschi, Muhammad Bilal Zafar, Keerthan Vasist, Aman Malhotra, Tomer Shenhar, Pinal Tailor, Pinar Yilmaz, Michael Diamond, Michele Donini, (参考訳) fmevalは大規模な言語モデル(LLM)をさまざまなタスクで評価するオープンソースライブラリである。 実践者は、タスクパフォーマンスのモデルと、複数の責任あるAI次元を評価するのに役立ちます。 本稿では,ライブラリを提示し,その基本となる設計原則である単純さ,包括性,拡張性,性能を明らかにする。 次に、これらがFmevalを開発する際の科学的および工学的な選択にどのように実装されたかを示す。 ケーススタディでは、質問応答タスクに適したモデルを選択するという、ライブラリの典型的なユースケースを示している。 制限について議論し、ライブラリの開発にさらに取り組みます。 fmevalはhttps://github.com/aws/fmevalで見ることができる。

fmeval is an open source library to evaluate large language models (LLMs) in a range of tasks. It helps practitioners evaluate their model for task performance and along multiple responsible AI dimensions. This paper presents the library and exposes its underlying design principles: simplicity, coverage, extensibility and performance. We then present how these were implemented in the scientific and engineering choices taken when developing fmeval. A case study demonstrates a typical use case for the library: picking a suitable model for a question answering task. We close by discussing limitations and further work in the development of the library. fmeval can be found at https://github.com/aws/fmeval.
翻訳日:2024-07-19 20:02:37 公開日:2024-07-15
# テレコム領域における質問応答のためのRAG尺度の評価

Evaluation of RAG Metrics for Question Answering in the Telecom Domain ( http://arxiv.org/abs/2407.12873v1 )

ライセンス: Link先を確認
Sujoy Roychowdhury, Sumit Soman, H G Ranjani, Neeraj Gunda, Vansh Chhabra, Sai Krishna Bala, (参考訳) Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が様々なドメインで質問応答(QA)タスクを実行できるようにするために広く利用されている。 しかし、特殊なドメインに対するオープンソースのLLMに基づくRAGには、生成した応答を評価するという課題がある。 この文献で人気のあるフレームワークはRAG Assessment (RAGAS) である。 RAGASの欠点の1つは、評価指標の数値の導出の詳細の欠如である。 この研究の結果の1つは、このパッケージの修正版であり、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実的正当性)に対して、任意のLCMを用いてプロンプトの中間出力を提供する。 次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。 また, 正解と誤解の相関関係について検討し, 正解に対して高い値を持つ指標がほとんどないことを示した。 また、ベース埋め込みと、事前トレーニングと微調整によって適応したドメイン間のメトリクスの違いについても検討する。 最後に、Wild テレコム QA タスクにこれらのメトリクスを使用する際の適合性と課題について述べる。

Retrieval Augmented Generation (RAG) is widely used to enable Large Language Models (LLMs) perform Question Answering (QA) tasks in various domains. However, RAG based on open-source LLM for specialized domains has challenges of evaluating generated responses. A popular framework in the literature is the RAG Assessment (RAGAS), a publicly available library which uses LLMs for evaluation. One disadvantage of RAGAS is the lack of details of derivation of numerical value of the evaluation metrics. One of the outcomes of this work is a modified version of this package for few metrics (faithfulness, context relevance, answer relevance, answer correctness, answer similarity and factual correctness) through which we provide the intermediate outputs of the prompts by using any LLMs. Next, we analyse the expert evaluations of the output of the modified RAGAS package and observe the challenges of using it in the telecom domain. We also study the effect of the metrics under correct vs. wrong retrieval and observe that few of the metrics have higher values for correct retrieval. We also study for differences in metrics between base embeddings and those domain adapted via pre-training and fine-tuning. Finally, we comment on the suitability and challenges of using these metrics for in-the-wild telecom QA task.
翻訳日:2024-07-19 20:02:37 公開日:2024-07-15
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v8 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのか、また、一般論として障害とのフェルミオン相互作用に対してどのように達成されるのかを、いくつかの解析計算で明らかにする。 これを実現するために、私たちは単純な相互作用のモデル化を行います。 特に、$q$-point rescaled sparse SYK 相互作用の場合、量子優位性は$\Gamma\sim N^{\frac {\alpha-q}{2}+1}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{1-\frac {\alpha}{2}}$ for $q/2>\alpha\geq 0$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions and in general for fermionic interactions with disorder. To do this we perform a simple modelization of the interactions. In particular, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+1}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{1-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-15
# 訳語 次に来る;次なる;次なる

Situated Instruction Following ( http://arxiv.org/abs/2407.12061v1 )

ライセンス: Link先を確認
So Yeon Min, Xavi Puig, Devendra Singh Chaplot, Tsung-Yen Yang, Akshara Rai, Priyam Parashar, Ruslan Salakhutdinov, Yonatan Bisk, Roozbeh Mottaghi, (参考訳) 言語は決して真空の中で話されることはない。 話者の歴史、行動、環境の全体的背景の中で表現され、解釈され、文脈化される。 人間は、位置する言語と効率的にコミュニケーションするために使用されるため、ロボットアシスタントの実用性は、暗黙的かつ位置した指示に対して理解し、行動する能力に依存している。 伝統的な指示では、エージェントは空の家で単独で働き、単純化され、人工的に「完全」な言語の使用につながる。 対照的に、人間の話者の物理的存在と現実世界のコミュニケーションの本質的不明瞭さとあいまいさを取り入れた位置指示法を提案する。 位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。 具体的には,(1)は曖昧に特定され,(2)は時間的に進化する意図を持ち,(3)はエージェントの動的動作とより正確に解釈することができる。 我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。

Language is never spoken in a vacuum. It is expressed, comprehended, and contextualized within the holistic backdrop of the speaker's history, actions, and environment. Since humans are used to communicating efficiently with situated language, the practicality of robotic assistants hinge on their ability to understand and act upon implicit and situated instructions. In traditional instruction following paradigms, the agent acts alone in an empty house, leading to language use that is both simplified and artificially "complete." In contrast, we propose situated instruction following, which embraces the inherent underspecification and ambiguity of real-world communication with the physical presence of a human speaker. The meaning of situated instructions naturally unfold through the past actions and the expected future behaviors of the human involved. Specifically, within our settings we have instructions that (1) are ambiguously specified, (2) have temporally evolving intent, (3) can be interpreted more precisely with the agent's dynamic actions. Our experiments indicate that state-of-the-art Embodied Instruction Following (EIF) models lack holistic understanding of situated human intention.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-15
# 多視点メタヒューリスティック最適化アプローチと深層学習モデルによる多段階ブレント原油価格予測の強化

Enhancing Multistep Brent Oil Price Forecasting with a Multi-Aspect Metaheuristic Optimization Approach and Ensemble Deep Learning Models ( http://arxiv.org/abs/2407.12062v1 )

ライセンス: Link先を確認
Mohammed Alruqimi, Luca Di Persio, (参考訳) 原油価格の正確な予測はエネルギー取引、リスク管理、投資計画など様々な経済活動に不可欠である。 原油価格予測のための強力なツールとしてディープラーニングモデルが登場したが、正確な予測を達成することは依然として難しい。 ディープラーニングモデルの性能はハイパーパラメータチューニングの影響を強く受けており、様々な状況下で異なるパフォーマンスが期待できる。 さらに、価格のボラティリティは、世界イベントのような外部要因にも敏感である。 これらの制約に対処するために,メタヒューリスティックな最適化と時系列予測に使用される5つのニューラルネットワークアーキテクチャのアンサンブルを組み合わせたハイブリッドアプローチを提案する。 ニューラルネットワークアーキテクチャ内のハイパーパラメータを最適化するためにメタヒューリスティックスを適用する既存の方法とは異なり、GWOメタヒューリスティックオプティマイザを特徴選択、データ準備、モデルトレーニング、予測ブレンディングの4つのレベルで活用する。 提案手法は実世界のブレント原油価格データを用いて3日前日を予測し, 提案手法が様々なベンチマークを用いて測定した予測性能を改善し, MSEの0.000127を達成していることを示す。

Accurate crude oil price forecasting is crucial for various economic activities, including energy trading, risk management, and investment planning. Although deep learning models have emerged as powerful tools for crude oil price forecasting, achieving accurate forecasts remains challenging. Deep learning models' performance is heavily influenced by hyperparameters tuning, and they are expected to perform differently under various circumstances. Furthermore, price volatility is also sensitive to external factors such as world events. To address these limitations, we propose a hybrid approach combining metaheuristic optimisation and an ensemble of five popular neural network architectures used in time series forecasting. Unlike existing methods that apply metaheuristics to optimise hyperparameters within the neural network architecture, we exploit the GWO metaheuristic optimiser at four levels: feature selection, data preparation, model training, and forecast blending. The proposed approach has been evaluated for forecasting three-ahead days using real-world Brent crude oil price data, and the obtained results demonstrate that the proposed approach improves the forecasting performance measured using various benchmarks, achieving 0.000127 of MSE.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-15
# 公立学校入学者のフィルタリング効果の低減--目標介入に対するバイアス認識分析

Reducing the Filtering Effect in Public School Admissions: A Bias-aware Analysis for Targeted Interventions ( http://arxiv.org/abs/2004.10846v4 )

ライセンス: Link先を確認
Yuri Faenza, Swati Gupta, Aapeli Vuorinen, Xuan Zhang, (参考訳) 問題の定義: 伝統的にニューヨーク市の公立学校上位8校は、特別高校入学試験(SHSAT)の成績に基づいて候補者を選んだ。 これらのスコアは、中学生の社会経済的地位や、中等教育で受けられた試験準備に影響され、教育パイプラインで大規模なフィルタリング効果がもたらされたことが知られている。 学生を学校に割り当てる古典的なメカニズムは、学校分離やクラスの多様性といった問題に自然に対処するものではない。 政策立案者を含む科学コミュニティは、グループ固有の基準と比例制約を混合結果に組み込むことで反応している。 トップノート教育へのアクセスを拡大するための効果的で公平な方法を見つけるという問題は未解決のままである。 方法論/再考:我々は、高経済ニーズの学生に機会を増やすことを目的として、既存の文献とは異なる問題に対する運用アプローチを採っている。 ニューヨーク市の教育省(DOE)のデータから、学生が取得したスコアの分布の変化が「不都合」(主に経済要因に基づく基準に従う)と分類していることが分かる。 我々は、このシフトを、不利な学生の真の可能性の過小評価から生じる「バイアス」としてモデル化する。 この偏見がマーケットにどのような影響を及ぼすかを分析します。 中央計画の介入は、平均成績の悪い学生を対象とする場合、奨学金や研修を通じてバイアスの影響を著しく低減できることを示す。

Problem definition: Traditionally, New York City's top 8 public schools have selected candidates solely based on their scores in the Specialized High School Admissions Test (SHSAT). These scores are known to be impacted by socioeconomic status of students and test preparation received in middle schools, leading to a massive filtering effect in the education pipeline. The classical mechanisms for assigning students to schools do not naturally address problems like school segregation and class diversity, which have worsened over the years. The scientific community, including policymakers, have reacted by incorporating group-specific quotas and proportionality constraints, with mixed results. The problem of finding effective and fair methods for broadening access to top-notch education is still unsolved. Methodology/results: We take an operations approach to the problem different from most established literature, with the goal of increasing opportunities for students with high economic needs. Using data from the Department of Education (DOE) in New York City, we show that there is a shift in the distribution of scores obtained by students that the DOE classifies as "disadvantaged" (following criteria mostly based on economic factors). We model this shift as a "bias" that results from an underestimation of the true potential of disadvantaged students. We analyze the impact this bias has on an assortative matching market. We show that centrally planned interventions can significantly reduce the impact of bias through scholarships or training, when they target the segment of disadvantaged students with average performance.
翻訳日:2024-07-18 00:37:39 公開日:2024-07-15
# 限られた資源を用いた一般測定とその量子的不明確な状態判別への応用

General measurements with limited resources and their application to quantum unambiguous state discrimination ( http://arxiv.org/abs/2009.05276v2 )

ライセンス: Link先を確認
Daniel Reitzner, Jan Bouda, (参考訳) 本稿では,任意の$n$-outcome Generalized quantum Measurement (POVM) を$m$-qubitレジスタ上に実装するためのフレームワークを提案する。 提案手法は,任意のゲートアーキテクチャにおける測定の完全な実装を構成することができる2つのアウトカム部分測定に対して,特定の構成を提供する。 この実装には一般的に古典的なフィードバックが必要です。 この枠組みをあいまいな状態識別に適用し、可能な戦略を分析する。 最も単純な場合、まず決定性の測定を行うことを選ぶと、既知のものと同じ構成を与える。 しかし、これはまた、まず状態結果の1つを計測し、決定性の測定を後回しに残す可能性も提供する。 これは、提示されたフレームワークの柔軟性を示し、さらなる最適化の可能性を開く。 また、偏りのある量子ビットの場合や、高次元における不明瞭な量子状態判別の一般的な場合についても論じる。

In this report, we present a framework for implementing an arbitrary $n$-outcome generalized quantum measurement (POVM) on an $m$-qubit register as a sequence of two-outcome measurements requiring only single ancillary qubit. Our procedure offers a particular construction for the two-outcome partial measurements which can be composed into a full implementation of the measurement on any gate architecture. This implementation in general requires classical feedback; we present specific cases when this is not the case. We apply this framework on the unambiguous state discrimination and analyze possible strategies. In the simplest case, it gives the same construction as is known, if we opt for performing conclusiveness measurement first. However, it also offers possibility of performing measurement for one of the state outcomes first, leaving conclusiveness measurement for later. This shows flexibility of presented framework and opens possibilities for further optimization. We present discussion also on biased qubit case as well as general case of unambiguous quantum state discrimination in higher dimension.
翻訳日:2024-07-18 00:37:39 公開日:2024-07-15
# データに基づく価格差別の限界について

On the limitations of data-based price discrimination ( http://arxiv.org/abs/2204.12723v6 )

ライセンス: Link先を確認
Haitian Xie, Ying Zhu, Denis Shishkin, (参考訳) 古典的な第3級価格差別(3PD)モデルは、買い手の評価値の分布に関する知識と、共変量に条件付けられた価格を設定するための共変量を必要とする。 収益の面では、古典的な結果は3PDは、少なくとも均一な価格と同程度であることを示している。 もし販売者が、基礎となる分布からの観察のサンプルのみに基づいて価格を設定する必要があるとしたらどうだろう? 売り手が3PDに関わるべきなのは、まだ明らかなのだろうか? この論文はこれらの基本的な疑問に光を当てている。 特に3PDと均一価格の収益パフォーマンスの比較は、サンプルに基づいて価格が設定された場合、全体として曖昧である。 この発見は、不確実性の下での統計的学習の本質、つまり次元性の呪いであり、他の小さなサンプルの合併症でもある。

The classic third degree price discrimination (3PD) model requires the knowledge of the distribution of buyer valuations and the covariate to set the price conditioned on the covariate. In terms of generating revenue, the classic result shows that 3PD is at least as good as uniform pricing. What if the seller has to set a price based only on a sample of observations from the underlying distribution? Is it still obvious that the seller should engage in 3PD? This paper sheds light on these fundamental questions. In particular, the comparison of the revenue performance between 3PD and uniform pricing is ambiguous overall when prices are set based on samples. This finding is in the nature of statistical learning under uncertainty: a curse of dimensionality, but also other small sample complications.
翻訳日:2024-07-18 00:37:39 公開日:2024-07-15
# 解釈可能な機械学習による科学的推論:実世界の現象を学習するためのモデルの解析

Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena ( http://arxiv.org/abs/2206.05487v3 )

ライセンス: Link先を確認
Timo Freiesleben, Gunnar König, Christoph Molnar, Alvaro Tejero-Cantero, (参考訳) 現実世界の現象について学ぶために、科学者は伝統的に明確に解釈可能な要素を持つモデルを用いてきた。 しかし、現代の機械学習(ML)モデルは、強力な予測器とは対照的に、この直接的な要素的解釈可能性(例えばニューラルネットワークの重み)を欠いている。 解釈可能な機械学習(IML)は、モデルを論理的に分析して解釈を導出することで解を提供する。 しかし、現在のML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。 私たちの作業は、このギャップを埋め、IMLメソッドが定義した'プロパティ記述子'を設計するためのフレームワークを提示します。 統計的学習理論に基づく特性記述子は,観測データの結合確率分布の関連性を効果的に明らかにできることを実証する。 我々は、科学的推論に適した既存のIML手法を特定し、定量的なてんかん不確実性を持つ新しい記述子を開発するためのガイドを提供する。 我々のフレームワークは,MLモデルを推論に活用し,科学的な理解を支援するための今後のML研究の方向性を提供する。

To learn about real world phenomena, scientists have traditionally used models with clearly interpretable elements. However, modern machine learning (ML) models, while powerful predictors, lack this direct elementwise interpretability (e.g. neural network weights). Interpretable machine learning (IML) offers a solution by analyzing models holistically to derive interpretations. Yet, current IML research is focused on auditing ML models rather than leveraging them for scientific inference. Our work bridges this gap, presenting a framework for designing IML methods-termed 'property descriptors' -- that illuminate not just the model, but also the phenomenon it represents. We demonstrate that property descriptors, grounded in statistical learning theory, can effectively reveal relevant properties of the joint probability distribution of the observational data. We identify existing IML methods suited for scientific inference and provide a guide for developing new descriptors with quantified epistemic uncertainty. Our framework empowers scientists to harness ML models for inference, and provides directions for future IML research to support scientific understanding.
翻訳日:2024-07-18 00:37:39 公開日:2024-07-15
# 勾配に基づく説明のためのマニフォールド仮説

The Manifold Hypothesis for Gradient-Based Explanations ( http://arxiv.org/abs/2206.07387v2 )

ライセンス: Link先を確認
Sebastian Bordt, Uddeshya Upadhyay, Zeynep Akata, Ulrike von Luxburg, (参考訳) 勾配に基づく説明アルゴリズムは知覚に整合した説明を提供するのか? 特徴属性はデータ多様体の接空間と整合する必要がある。 この仮説を実証するために,画像多様体を推定・生成できる変分オートエンコーダに基づくフレームワークを提案する。 さまざまなデータセット(MNIST、EMNIST、CIFAR10、X線肺炎、糖尿病網膜症検出など)にわたる実験を通じて、私たちは、特徴属性がデータの接する空間と一致しているほど、知覚的に整合する傾向にあることを示す。 次に、積分グラディエントやSmoothGradのような一般的なポストホック法によって提供される属性が、生勾配よりもデータ多様体と強く一致していることを示す。 逆トレーニングは、データ多様体とのモデル勾配のアライメントも改善する。 その結果、説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきであると示唆した。 これはCVPRワークショップの論文の拡張版である。 コードはhttps://github.com/tml-tuebingen/explanations-manifold.comで公開されている。

When do gradient-based explanation algorithms provide perceptually-aligned explanations? We propose a criterion: the feature attributions need to be aligned with the tangent space of the data manifold. To provide evidence for this hypothesis, we introduce a framework based on variational autoencoders that allows to estimate and generate image manifolds. Through experiments across a range of different datasets -- MNIST, EMNIST, CIFAR10, X-ray pneumonia and Diabetic Retinopathy detection -- we demonstrate that the more a feature attribution is aligned with the tangent space of the data, the more perceptually-aligned it tends to be. We then show that the attributions provided by popular post-hoc methods such as Integrated Gradients and SmoothGrad are more strongly aligned with the data manifold than the raw gradient. Adversarial training also improves the alignment of model gradients with the data manifold. As a consequence, we suggest that explanation algorithms should actively strive to align their explanations with the data manifold. This is an extended version of a CVPR Workshop paper. Code is available at https://github.com/tml-tuebingen/explanations-manifold.
翻訳日:2024-07-18 00:30:09 公開日:2024-07-15
# 良性、気質、または壊滅性:過度に適合する分類学

Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting ( http://arxiv.org/abs/2207.06569v3 )

ライセンス: Link先を確認
Neil Mallinar, James B. Simon, Amirhesam Abedsoltan, Parthe Pandit, Mikhail Belkin, Preetum Nakkiran, (参考訳) 過度にパラメータ化されたニューラルネットワークの実践的成功は、最近の科学的な補間法の研究の動機となり、それはトレーニングデータに完全に適合している。 ニューラルネットワークを含むある種の補間法は、統計的学習理論からの標準的な直観に反し、破滅的に悪いテスト性能を伴わずにノイズの多いトレーニングデータを適合させることができる。 これを説明するため、近年の研究では、ノイズの存在下でもベイズ最適性に近づく補間手法として、良性過剰適合の研究が行われている。 トレーニングセットの質素なノイズは、テスト時にゼロではない(しかし無限ではない)過剰なリスクを生じさせ、これらのモデルが良性でも破滅的でも無く、中間的な状態に陥ることを意味する。 我々はこの中間体制を過度に適合させ、その体系的研究を開始する。 我々はまず、この現象をカーネル(リッジ)回帰(KR)の文脈で探求し、3つの挙動のそれぞれを示すリッジパラメータとカーネル固有スペクトルの条件を求める。 LaplaceカーネルやReLUニューラルタンジェントカーネルを含むパワーロースペクトルを持つカーネルは、過度なオーバーフィットを示す。 そして、我々の分類学のレンズを通してディープニューラルネットワークを経験的に研究し、補間訓練を受けた人々は誘惑的であり、早期に停止した人は良心的であることを発見した。 私たちの仕事は、現代の学習における過度な適合に対するより洗練された理解につながることを願っています。

The practical success of overparameterized neural networks has motivated the recent scientific study of interpolating methods, which perfectly fit their training data. Certain interpolating methods, including neural networks, can fit noisy training data without catastrophically bad test performance, in defiance of standard intuitions from statistical learning theory. Aiming to explain this, a body of recent work has studied benign overfitting, a phenomenon where some interpolating methods approach Bayes optimality, even in the presence of noise. In this work we argue that while benign overfitting has been instructive and fruitful to study, many real interpolating methods like neural networks do not fit benignly: modest noise in the training set causes nonzero (but non-infinite) excess risk at test time, implying these models are neither benign nor catastrophic but rather fall in an intermediate regime. We call this intermediate regime tempered overfitting, and we initiate its systematic study. We first explore this phenomenon in the context of kernel (ridge) regression (KR) by obtaining conditions on the ridge parameter and kernel eigenspectrum under which KR exhibits each of the three behaviors. We find that kernels with powerlaw spectra, including Laplace kernels and ReLU neural tangent kernels, exhibit tempered overfitting. We then empirically study deep neural networks through the lens of our taxonomy, and find that those trained to interpolation are tempered, while those stopped early are benign. We hope our work leads to a more refined understanding of overfitting in modern learning.
翻訳日:2024-07-18 00:30:09 公開日:2024-07-15
# ラスタライズを学ぶ

Learning to Rasterize Differentiably ( http://arxiv.org/abs/2211.13333v2 )

ライセンス: Link先を確認
Chenghao Wu, Hamila Mailee, Zahra Montazeri, Tobias Ritschel, (参考訳) 異なるラスタライゼーションはプリミティブラスタライゼーションの標準的な定式化を変え、レンダリングの異なる段階における分布関数を使い、元のラスタライザの「ソフト」バージョンを作成する。 しかし、最適な性能と目標への収束を保証する最適な軟化関数を選択するには、試行錯誤が必要である。 これまでの研究は、軟化のいくつかの組み合わせを分析し、比較してきた。 そこで本研究では, ソフト化操作を組み合わせて選択する代わりに, ソフト化操作の連続空間をパラメータ化する手法を提案する。 逆レンダリングタスク(2次元,3次元形状,ポーズ,オクルージョン)の集合上でのメタラーニング可変ソフトネス関数について検討した。

Differentiable rasterization changes the standard formulation of primitive rasterization -- by enabling gradient flow from a pixel to its underlying triangles -- using distribution functions in different stages of rendering, creating a "soft" version of the original rasterizer. However, choosing the optimal softening function that ensures the best performance and convergence to a desired goal requires trial and error. Previous work has analyzed and compared several combinations of softening. In this work, we take it a step further and, instead of making a combinatorial choice of softening operations, parameterize the continuous space of common softening operations. We study meta-learning tunable softness functions over a set of inverse rendering tasks (2D and 3D shape, pose and occlusion) so it generalizes to new and unseen differentiable rendering tasks with optimal softness.
翻訳日:2024-07-18 00:30:09 公開日:2024-07-15
# 多体観測器の深層学習と量子情報スクランブル

Deep learning of many-body observables and quantum information scrambling ( http://arxiv.org/abs/2302.04621v2 )

ライセンス: Link先を確認
Naeimeh Mohseni, Junheng Shi, Tim Byrnes, Michael J. Hartmann, (参考訳) 機械学習は量子科学において重要なブレークスルーを示しており、特にディープニューラルネットワークは量子多体システムのモデリングにおいて顕著な力を示した。 本稿では,物理観測値の力学を学習する際のデータ駆動型ディープニューラルネットワークの容量が,量子情報のスクランブルとどのように相関するかを考察する。 ニューラルネットワークを用いて、モデルのパラメータからランダムな量子回路における可観測物の進化へのマッピングをトレーニングし、未知の回路に適用する際、その \textit{ Generalization} と \textit{extrapolation} の機能をテストする。 以上の結果から,リカレントニューラルネットワークはシステムサイズや時間ウィンドウ内での予測を,局所的,スクランブル型,スクランブル型の両方でトレーニングした上で,極めて強力であることが示唆された。 これらには、古典的な学習アプローチが完全な波動関数の表現からサンプリングする際に失敗することが知られているレギュレーションが含まれる。 さらに、検討されたニューラルネットワークは、ローカライゼーションを示すモデルのためにトレーニングされた時間ウィンドウとシステムサイズを超えた予測をtextit{extrapolating}で成功させる。

Machine learning has shown significant breakthroughs in quantum science, where in particular deep neural networks exhibited remarkable power in modeling quantum many-body systems. Here, we explore how the capacity of data-driven deep neural networks in learning the dynamics of physical observables is correlated with the scrambling of quantum information. We train a neural network to find a mapping from the parameters of a model to the evolution of observables in random quantum circuits for various regimes of quantum scrambling and test its \textit{generalization} and \textit{extrapolation} capabilities in applying it to unseen circuits. Our results show that a particular type of recurrent neural network is extremely powerful in generalizing its predictions within the system size and time window that it has been trained on for both, localized and scrambled regimes. These include regimes where classical learning approaches are known to fail in sampling from a representation of the full wave function. Moreover, the considered neural network succeeds in \textit{extrapolating} its predictions beyond the time window and system size that it has been trained on for models that show localization, but not in scrambled regimes.
翻訳日:2024-07-18 00:30:09 公開日:2024-07-15
# 拡張群の非自明な多様性に量子後弱弱擬似家族は存在しない

There Are No Post-Quantum Weakly Pseudo-Free Families in Any Nontrivial Variety of Expanded Groups ( http://arxiv.org/abs/2302.10847v2 )

ライセンス: Link先を確認
Mikhail Anokhin, (参考訳) Omega$ を有限個の有限操作記号集合とし、$\mathfrak V$ を $\Omega$-代数の非自明な多様体とする。 グループ演算シンボルの集合 $\Gamma\subseteq\Omega$ に対して、$\mathfrak V$ のすべての $\Omega$-algebras は、$\Gamma$ のシンボルに関連する操作の下のグループである。 言い換えれば、$\mathfrak V$ は拡大群の非自明な多様体であると仮定する。 特に、$\mathfrak V$ は群や環の非自明な多様体である。 我々の主な成果は、最悪のケース設定やブラックボックスモデルであっても、$\mathfrak V$に量子後の弱い擬似自由なファミリーが存在しないことです。 本稿では、計算およびブラックボックスの$(H_d\mathbin|d\in D)$の族に制限する(ここでは$D\subseteq\{0,1\}^*$)ので、すべての$d\in D$に対して、$H_d$の各元は$d$の長さ多項式のユニークなビット列で表される。 主な結果では、$\Omega$-algebrasの要素間の非自明な関係を表現するために直線プログラムを使用します。 特定の条件下では、この結果は有限単純群の分類に依存することに注意されたい。 また、計算やブラックボックスの$\Omega$-algebrasの族に対して、いくつかの弱い擬似自由度を定義し、研究する。

Let $\Omega$ be a finite set of finitary operation symbols and let $\mathfrak V$ be a nontrivial variety of $\Omega$-algebras. Assume that for some set $\Gamma\subseteq\Omega$ of group operation symbols, all $\Omega$-algebras in $\mathfrak V$ are groups under the operations associated with the symbols in $\Gamma$. In other words, $\mathfrak V$ is assumed to be a nontrivial variety of expanded groups. In particular, $\mathfrak V$ can be a nontrivial variety of groups or rings. Our main result is that there are no post-quantum weakly pseudo-free families in $\mathfrak V$, even in the worst-case setting and/or the black-box model. In this paper, we restrict ourselves to families $(H_d\mathbin|d\in D)$ of computational and black-box $\Omega$-algebras (where $D\subseteq\{0,1\}^*$) such that for every $d\in D$, each element of $H_d$ is represented by a unique bit string of length polynomial in the length of $d$. In our main result, we use straight-line programs to represent nontrivial relations between elements of $\Omega$-algebras. Note that under certain conditions, this result depends on the classification of finite simple groups. Also, we define and study some types of weak pseudo-freeness for families of computational and black-box $\Omega$-algebras.
翻訳日:2024-07-18 00:30:09 公開日:2024-07-15
# 資産・関税額の最大化をめざす新基準

New Guarantees for Learning Revenue Maximizing Menus of Lotteries and Two-Part Tariffs ( http://arxiv.org/abs/2302.11700v3 )

ライセンス: Link先を確認
Maria-Florina Balcan, Hedyeh Beyhaghi, (参考訳) 我々は、近年、学習理論と計算経済学の共通点において、宝くじのメニューと二分関税という、経済学で顕著な2種類のメカニズムの学習可能性を研究することによって、近年盛んに行われている仕事のラインを推し進める。 前者は、決定論的メカニズムを超えた収益を達成するために知られている複数のアイテムを販売するために設計されたランダム化されたメカニズムのファミリーであり、後者は、1つのアイテムの複数のユニット(コピー)を自動車や自転車シェアリングサービスのような現実のシナリオに適用するように設計されている。 我々は,この形態の高頻度なメカニズムを,購入者の評価データから事前に購入者の評価データにアクセスでき,かつ,購入者が1対1で到着し,その価値について分布的な仮定をしない,より困難で調査の少ないオンライン設定の両方で学習することに注力する。 これら2つのメカニズムのファミリーについて、一連の結果を提供する。 我々は、宝くじのメニューと、後悔の強い保証付き二分関税のための、最初のオンライン学習アルゴリズムを提供する。 パラメータの空間は無限であり、収益関数は不連続であるため、既知の手法は容易には適用できない。 しかし、限られた数の専門家に対して、我々の場合、限られた数のパラメータをオンライン学習に還元することができる。 さらに,リミテッド・バイヤー方式の場合,リミテッド・バイヤー方式では,バーリセントリー・スパンナーに対応するメニューをバイヤーに提示することで,リニア・リニア・オプティベーションの低減を図ることができる。 さらに,分散設定に対する前処理よりも実行時間を短縮するアルゴリズムも提供する。 最後に,データ駆動型アルゴリズム設計における最近の文献からのテクニックが,我々の研究課題に対して不十分であることを示す。

We advance a recently flourishing line of work at the intersection of learning theory and computational economics by studying the learnability of two classes of mechanisms prominent in economics, namely menus of lotteries and two-part tariffs. The former is a family of randomized mechanisms designed for selling multiple items, known to achieve revenue beyond deterministic mechanisms, while the latter is designed for selling multiple units (copies) of a single item with applications in real-world scenarios such as car or bike-sharing services. We focus on learning high-revenue mechanisms of this form from buyer valuation data in both distributional settings, where we have access to buyers' valuation samples up-front, and the more challenging and less-studied online settings, where buyers arrive one-at-a-time and no distributional assumption is made about their values. We provide a suite of results with regard to these two families of mechanisms. We provide the first online learning algorithms for menus of lotteries and two-part tariffs with strong regret-bound guarantees. Since the space of parameters is infinite and the revenue functions have discontinuities, the known techniques do not readily apply. However, we are able to provide a reduction to online learning over a finite number of experts, in our case, a finite number of parameters. Furthermore, in the limited buyers type case, we show a reduction to online linear optimization, which allows us to obtain no-regret guarantees by presenting buyers with menus that correspond to a barycentric spanner. In addition, we provide algorithms with improved running times over prior work for the distributional settings. Finally, we demonstrate how techniques from the recent literature in data-driven algorithm design are insufficient for our studied problems.
翻訳日:2024-07-18 00:20:24 公開日:2024-07-15
# AI規制におけるグローバルディバイドのブリッジ: コンテキスト、コヒーレント、快適なフレームワークの提案

Bridging the Global Divide in AI Regulation: A Proposal for a Contextual, Coherent, and Commensurable Framework ( http://arxiv.org/abs/2303.11196v5 )

ライセンス: Link先を確認
Sangchul Park, (参考訳) 人工知能(AI)による潜在的な社会的害に関する議論が法律や国際的規範で頂点に達しているため、AI規制の枠組みと国際統治構造の両方にグローバルな格差が生まれている。 地域規制の枠組みに関して、欧州連合(EU)、カナダ、ブラジルは、AIの均質性を仮定する水平的または横的アプローチに従い、共通の害原因を特定し、統一的な人間の介入を要求する。 対照的に、米国、イギリス、イスラエル、スイス(そしておそらく中国)は、AIシステムの特定のユースケースに対する規制を調整して、文脈固有の、またはモジュラーなアプローチを追求している。 本稿では, 多様なミッションクリティカルドメインの進化するリスクを効果的に解決する上で, ワンサイズ・オールアプローチによる社会的コストを回避するために, 文脈特異的アプローチを提案する。 しかし,国際標準の体系性と相互運用性を高め,国際調和を加速するために,コンテクスト,コヒーレント,コンメンシュアブル(3C)フレームワークを提案する。 コンテキスト性を確保するために、フレームワーク i)AIライフサイクルを,基礎モデルや汎用モデルを定義するのではなく,特定のタスクの学習と展開という2つのフェーズに分岐させる。 (i)これらのタスクは、その応用と人間との相互作用に基づいて、自律的、差別的(allocative, punitive, Cognitive)、生成的AI(generative AI)に分類される。 一貫性を確保するため、各カテゴリは2010年代のヴィンテージAI倫理を代替する特定の規制目的を割り当てられる。 コンメンサビリティを確保するため、この枠組みはリスクの測定と緩和のための国際標準の採用を促進する。

As debates on potential societal harm from artificial intelligence (AI) culminate in legislation and international norms, a global divide is emerging in both AI regulatory frameworks and international governance structures. In terms of local regulatory frameworks, the European Union (E.U.), Canada, and Brazil follow a horizontal or lateral approach that postulates the homogeneity of AI, seeks to identify common causes of harm, and demands uniform human interventions. In contrast, the United States (U.S.), the United Kingdom (U.K.), Israel, and Switzerland (and potentially China) have pursued a context-specific or modular approach, tailoring regulations to the specific use cases of AI systems. This paper argues for a context-specific approach to effectively address evolving risks in diverse mission-critical domains, while avoiding social costs associated with one-size-fits-all approaches. However, to enhance the systematicity and interoperability of international norms and accelerate global harmonization, this paper proposes an alternative contextual, coherent, and commensurable (3C) framework. To ensure contextuality, the framework (i) bifurcates the AI life cycle into two phases: learning and deployment for specific tasks, instead of defining foundation or general-purpose models; and (ii) categorizes these tasks based on their application and interaction with humans as follows: autonomous, discriminative (allocative, punitive, and cognitive), and generative AI. To ensure coherency, each category is assigned specific regulatory objectives replacing 2010s vintage AI ethics. To ensure commensurability, the framework promotes the adoption of international standards for measuring and mitigating risks.
翻訳日:2024-07-18 00:20:24 公開日:2024-07-15
# ニューラルネットワークはタブラルデータ上で高木を向上するのか?

When Do Neural Nets Outperform Boosted Trees on Tabular Data? ( http://arxiv.org/abs/2305.02997v4 )

ライセンス: Link先を確認
Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, Vishak Prasad C, Benjamin Feuer, Chinmay Hegde, Ganesh Ramakrishnan, Micah Goldblum, Colin White, (参考訳) タブラルデータ(英: Tabular data)は、機械学習において最も一般的に使用されるデータの1つである。 表データに対するニューラルネット(NN)の最近の進歩にもかかわらず、NNが表データ上で一般的に勾配付き決定木(GBDT)を上回っているかどうかについては、活発な議論が続いている。 本稿では、この議論の重要性について、一歩後退して疑問を呈する。 驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンス差は無視可能であるか、GBDTの軽量ハイパーパラメータチューニングの方がNNとGBDTの選択よりも重要である。 最近提案された事前データ対応ネットワークであるTabPFNは、3000のトレーニングセットに事実上制限されているが、3000のトレーニングデータポイントをランダムにサンプリングしても、他のアルゴリズムを平均で上回っている。 次に、数十のメタ機能を分析し、データセットのどの特性がNNやGBDTを適切に動作させるかを決定する。 例えば、GBDTは、スキューやヘビーテールの機能分布やその他のデータセットの不規則性を扱うのに、NNよりもはるかに優れていることが分かりました。 私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。 最後に、表形式のデータ研究を加速することを目的として、TabZilla Benchmark Suiteをリリースした。 ベンチマークスイート、コードベース、およびすべての生の結果はhttps://github.com/naszilla/tabzilla.comで公開されています。

Tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data, there is still an active discussion on whether or not NNs generally outperform gradient-boosted decision trees (GBDTs) on tabular data, with several recent works arguing either that GBDTs consistently outperform NNs on tabular data, or vice versa. In this work, we take a step back and question the importance of this debate. To this end, we conduct the largest tabular data analysis to date, comparing 19 algorithms across 176 datasets, and we find that the 'NN vs. GBDT' debate is overemphasized: for a surprisingly high number of datasets, either the performance difference between GBDTs and NNs is negligible, or light hyperparameter tuning on a GBDT is more important than choosing between NNs and GBDTs. A remarkable exception is the recently-proposed prior-data fitted network, TabPFN: although it is effectively limited to training sets of size 3000, we find that it outperforms all other algorithms on average, even when randomly sampling 3000 training datapoints. Next, we analyze dozens of metafeatures to determine what properties of a dataset make NNs or GBDTs better-suited to perform well. For example, we find that GBDTs are much better than NNs at handling skewed or heavy-tailed feature distributions and other forms of dataset irregularities. Our insights act as a guide for practitioners to determine which techniques may work best on their dataset. Finally, with the goal of accelerating tabular data research, we release the TabZilla Benchmark Suite: a collection of the 36 'hardest' of the datasets we study. Our benchmark suite, codebase, and all raw results are available at https://github.com/naszilla/tabzilla.
翻訳日:2024-07-18 00:20:24 公開日:2024-07-15
# ハイパーキューブ内のボール代替品におけるポアソンデータの均一性試験におけるミニマックスリスク

The Minimax Risk in Testing Uniformity of Poisson Data under Missing Ball Alternatives within a Hypercube ( http://arxiv.org/abs/2305.18111v6 )

ライセンス: Link先を確認
Alon Kipnis, (参考訳) 本研究は,様々なカテゴリーの項目が同一のポアソン分布に収まることの良さを検証することの課題について考察する。 代替仮説のクラスとして、一様ポアソン数列のハイパーキューブから半径$\epsilon$の$\ell_p$ ball, $p \leq 2$の除去を考える。 期待されるサンプル数$n$とカテゴリ数$N$が無限大になり、$\epsilon$が小さければ、ミニマックスのアシャンポテスは$2\Phi(-n N^{2-2/p} \epsilon^2/\sqrt{8N})$; $\Phi(x)$は通常のCDFである。 この結果により、リスクの収束率やサンプルの複雑さのスケーリング順序よりも、この問題に対して以前に提案された多くの推定器を一定レベルで比較することができる。 ミニマックス試験は主に小さなサンプル限界での衝突に依存するが、チフタッド試験のように振る舞う。 様々な問題パラメータに関する実験的な研究により、漸近的リスク推定は有限標本において正確であり、ミニマックステストは衝突のみを用いるチフタッドテストやテストよりもはるかに優れていることが示された。 我々の分析は、非パラメトリック仮説テストの標準アイデアと、ある種のカーネルの凸性や線形テスト統計の中央極限定理を含む、複数のポアソン分布の最小値極限の新しい結果を組み合わせる。

We study the problem of testing the goodness of fit of occurrences of items from many categories to an identical Poisson distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball, $p \leq 2$, of radius $\epsilon$ from a hypercube around the sequence of uniform Poisson rates. When the expected number of samples $n$ and number of categories $N$ go to infinity while $\epsilon$ is small, the minimax risk asymptotes to $2\Phi(-n N^{2-2/p} \epsilon^2/\sqrt{8N})$; $\Phi(x)$ is the normal CDF. This result allows the comparison of the many estimators previously proposed for this problem at the constant level, rather than at the rate of convergence of the risk or the scaling order of the sample complexity. The minimax test mostly relies on collisions in the small sample limit but behaves like the chisquared test. Empirical studies over a range of problem parameters show that the asymptotic risk estimate is accurate in finite samples and that the minimax test is significantly better than the chisquared test or a test that only uses collisions. Our analysis combines standard ideas from non-parametric hypothesis testing with new results in the low count limit of multiple Poisson distributions, including the convexity of certain kernels and a central limit theorem of linear test statistics.
翻訳日:2024-07-18 00:20:24 公開日:2024-07-15
# 反復型マルチユニットペイ・アズ・バイドオークションにおける学習

Learning in Repeated Multi-Unit Pay-As-Bid Auctions ( http://arxiv.org/abs/2307.15193v2 )

ライセンス: Link先を確認
Rigel Galgana, Negin Golrezaei, (参考訳) 同質な複数ユニットの競売を含む、炭素排出取引方式、財務競売、調達競売に動機づけられた我々は、繰り返し行われる複数ユニットのペイ・アズ・バイド競売における入札の仕方を学ぶことの課題を考える。 これらのオークションでは、多数の(同一の)アイテムが最も大きな入札に割り当てられ、それぞれの入札の価格は入札そのものに等しい。 対価入札の入札方法を学ぶという問題は、行動空間の組合せの性質のために難しい。 我々は、入札者が過去の入札にのみアクセスしながら入札のベクターを最適化するオフライン設定に焦点を合わせることで、この課題を克服する。 オフライン問題に対する最適解は多項式時間動的計画法(DP)を用いて得られることを示す。 我々はDPスキームの構造を利用して,全情報と帯域幅のフィードバック設定の下で多項式時間と空間の複雑さを持つオンライン学習アルゴリズムを設計する。 我々は、それぞれ$O(M\sqrt{T\log |\mathcal{B}|})$と$O(M\sqrt{|\mathcal{B}|T\log |\mathcal{B}|})$の後悔に対する上限の上限を達成する。 これらの結果は、M$の線形依存に一致する、後悔の少ない低い境界で付随する。 以上の結果から,提案した後悔学習アルゴリズムに従わずに全てのエージェントが振る舞うと,結果の市場ダイナミクスは,入札者が一様入札を提出する均衡を最大化するための福祉に収束することが示唆された。 最後に、我々の実験により、ペイ・アズ・バイドのオークションは、人気の高い代替品である均一価格のオークションと比較して、一貫して収益が著しく高いことを実証した。

Motivated by Carbon Emissions Trading Schemes, Treasury Auctions, and Procurement Auctions, which all involve the auctioning of homogeneous multiple units, we consider the problem of learning how to bid in repeated multi-unit pay-as-bid auctions. In each of these auctions, a large number of (identical) items are to be allocated to the largest submitted bids, where the price of each of the winning bids is equal to the bid itself. The problem of learning how to bid in pay-as-bid auctions is challenging due to the combinatorial nature of the action space. We overcome this challenge by focusing on the offline setting, where the bidder optimizes their vector of bids while only having access to the past submitted bids by other bidders. We show that the optimal solution to the offline problem can be obtained using a polynomial time dynamic programming (DP) scheme. We leverage the structure of the DP scheme to design online learning algorithms with polynomial time and space complexity under full information and bandit feedback settings. We achieve an upper bound on regret of $O(M\sqrt{T\log |\mathcal{B}|})$ and $O(M\sqrt{|\mathcal{B}|T\log |\mathcal{B}|})$ respectively, where $M$ is the number of units demanded by the bidder, $T$ is the total number of auctions, and $|\mathcal{B}|$ is the size of the discretized bid space. We accompany these results with a regret lower bound, which match the linear dependency in $M$. Our numerical results suggest that when all agents behave according to our proposed no regret learning algorithms, the resulting market dynamics mainly converge to a welfare maximizing equilibrium where bidders submit uniform bids. Lastly, our experiments demonstrate that the pay-as-bid auction consistently generates significantly higher revenue compared to its popular alternative, the uniform price auction.
翻訳日:2024-07-18 00:10:39 公開日:2024-07-15
# SaferAdを用いたEthereumにおける非対称メムプールDoSの定義と防止

Defining and Preventing Asymmetric Mempool DoS in Ethereum with saferAd ( http://arxiv.org/abs/2309.11721v5 )

ライセンス: Link先を確認
Wanning Ding, Yibo Wang, Yuzhe Tang, (参考訳) 本稿では,非対称DoS攻撃下での安全なメムプール設計を提案する。 安全定義を2つの抽象的なDoSe、すなわち退行攻撃とロック攻撃で定式化する。 本稿では,メムプール保護のための安全な取引許可フレームワークであるSaferAdを提案する。 証明されたセキュリティは、DoSeのロックによる攻撃損傷の上限と、DoSeの排除による攻撃コストの下限に起因している。 実際のトランザクショントレースの再生による評価は、SaferAdが無視可能なレイテンシーやバリデータ収益の重要変更を引き起こすことを示している。

This paper presents secure mempool designs under asymmetric DoS attacks. We formulate safety definitions under two abstract DoSes, namely eviction- and locking-based attacks. We propose a safe transaction admission framework for securing mempools, named saferAd, that achieves both eviction- and locking-safety. The proven security stems from an upper bound of the attack damage under locking DoSes and a lower bound of the attack cost under eviction DoSes. The evaluation by replaying real transaction traces shows saferAd incurs negligible latency or insignificant change of validator revenue.
翻訳日:2024-07-18 00:10:39 公開日:2024-07-15
# GPTに基づく知的チュータにおけるドメイン知識ベースインクルージョンの潜伏レベルの影響の検討

Examining the Influence of Varied Levels of Domain Knowledge Base Inclusion in GPT-based Intelligent Tutors ( http://arxiv.org/abs/2309.12367v2 )

ライセンス: Link先を確認
Blake Castleman, Mehmet Kerem Turkcan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、洗練された会話機能を備えたチャットボットの開発を促進する。 しかし、LLMはクエリに対する頻繁な不正確な応答を示し、教育環境における応用を妨げる。 本稿では,知識ベース(KB)をLLM知能チュータと統合して応答信頼性を高める効果について検討する。 そこで我々は,知的学習システムによって自動的に処理される授業カリキュラムのシームレスな統合を実現するための,スケーラブルなKBを設計する。 次に、学生が回答する人工知能カリキュラムに関する質問を参加者に提示する評価について詳述する。 GPT-4はKBアクセスの階層の異なる知的家庭教師と人間のドメインの専門家に応答を評価した。 最後に,知的家庭教師のドメインエキスパートに対する反応を横断的に分析し,その教育的能力について評価した。 その結果、これらの知的チューターはドメインの専門家に比べて依然として精度が低いが、KBへのアクセスが許可されると知的チューターの精度が向上することが示唆された。 また、KBアクセスを持つ知的家庭教師は、教師のように話し、学生を理解する能力が、ドメインエキスパートよりも優れている一方で、学生を支援する能力は、ドメインエキスパートより遅れていることも観察した。

Recent advancements in large language models (LLMs) have facilitated the development of chatbots with sophisticated conversational capabilities. However, LLMs exhibit frequent inaccurate responses to queries, hindering applications in educational settings. In this paper, we investigate the effectiveness of integrating a knowledge base (KB) with LLM intelligent tutors to increase response reliability. To achieve this, we design a scaleable KB that affords educational supervisors seamless integration of lesson curricula, which is automatically processed by the intelligent tutoring system. We then detail an evaluation, where student participants were presented with questions about the artificial intelligence curriculum to respond to. GPT-4 intelligent tutors with varying hierarchies of KB access and human domain experts then assessed these responses. Lastly, students cross-examined the intelligent tutors' responses to the domain experts' and ranked their various pedagogical abilities. Results suggest that, although these intelligent tutors still demonstrate a lower accuracy compared to domain experts, the accuracy of the intelligent tutors increases when access to a KB is granted. We also observe that the intelligent tutors with KB access exhibit better pedagogical abilities to speak like a teacher and understand students than those of domain experts, while their ability to help students remains lagging behind domain experts.
翻訳日:2024-07-18 00:00:40 公開日:2024-07-15
# ニューロンはあなたの本を読みましたか? 大規模言語モデルのための文書レベルのメンバーシップ推論

Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models ( http://arxiv.org/abs/2310.15007v2 )

ライセンス: Link先を確認
Matthieu Meeus, Shubham Jain, Marek Rei, Yves-Alexandre de Montjoye, (参考訳) 大きな言語モデル(LLM)が私たちの日常生活に組み込まれようとしているため、彼らが学んだデータに関する疑問が提起され始めている。 これらの質問は、潜在的なバイアスや誤った情報 LLM がトレーニングデータから人間の生成したテキストの著作権と公正な利用に関する質問まで、さまざまである。 しかし、これらの疑問が浮かび上がっている一方で、最近の最先端のLLMの開発者は、彼らのトレーニングコーパスの詳細を開示することへの消極的になっている。 本稿では,実世界のLCMに対する文書レベルのメンバシップ推論,すなわちLLMがトレーニング中に特定の文書を見たかどうかを推定するタスクを紹介する。 まず、トレーニングによく使われるデータソースとモデルリリース日を利用して、LCMのための文書レベルのメンバシップ推論の開発と評価を行う手法を提案する。 次に,本書と学術論文の両方で,文書レベルのメンバシップを予測し,OpenLLaMA-7B上でインスタンス化する,実用的なブラックボックス手法を提案する。 我々は,本では0.856,論文では0.678のAUCを達成し,その性能を示す。 次に、文書レベルのメンバシップタスクにおいて、プライバシ文献で使用される文レベルのメンバシップ推論攻撃よりも優れる方法を示す。 さらに,より小さなモデルではドキュメントレベルの推論に敏感でない可能性も評価し,OpenLLaMA-3BはOpenLLaMA-7Bと同じくらいの敏感であることを示す。 最後に,2つの緩和戦略を考察し,部分文書のみを考慮した場合のAUCの速度を緩やかに低下させるが,モデル精度が低下した場合の精度は比較的高い。 この結果から,LCMにおいて正確な文書レベルのメンバシップを推定できることが示され,私たちの生活を変えようとしている技術の透明性が向上した。

With large language models (LLMs) poised to become embedded in our daily lives, questions are starting to be raised about the data they learned from. These questions range from potential bias or misinformation LLMs could retain from their training data to questions of copyright and fair use of human-generated text. However, while these questions emerge, developers of the recent state-of-the-art LLMs become increasingly reluctant to disclose details on their training corpus. We here introduce the task of document-level membership inference for real-world LLMs, i.e. inferring whether the LLM has seen a given document during training or not. First, we propose a procedure for the development and evaluation of document-level membership inference for LLMs by leveraging commonly used data sources for training and the model release date. We then propose a practical, black-box method to predict document-level membership and instantiate it on OpenLLaMA-7B with both books and academic papers. We show our methodology to perform very well, reaching an AUC of 0.856 for books and 0.678 for papers. We then show our approach to outperform the sentence-level membership inference attacks used in the privacy literature for the document-level membership task. We further evaluate whether smaller models might be less sensitive to document-level inference and show OpenLLaMA-3B to be approximately as sensitive as OpenLLaMA-7B to our approach. Finally, we consider two mitigation strategies and find the AUC to slowly decrease when only partial documents are considered but to remain fairly high when the model precision is reduced. Taken together, our results show that accurate document-level membership can be inferred for LLMs, increasing the transparency of technology poised to change our lives.
翻訳日:2024-07-18 00:00:40 公開日:2024-07-15
# ChiMed-GPT:フルトレーニングレギュムと人間の嗜好への適応性を備えた中国医学大言語モデル

ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences ( http://arxiv.org/abs/2311.06025v3 )

ライセンス: Link先を確認
Yuanhe Tian, Ruyi Gan, Yan Song, Jiaxing Zhang, Yongdong Zhang, (参考訳) 近年,医療サービスへの需要が高まり,医療インフラの相違が浮き彫りになっている。 ビッグデータ、特にテキストは医療サービスの基盤を形成するため、医療領域に合わせた効果的な自然言語処理(NLP)ソリューションが必要不可欠である。 事前学習モデルを活用する従来のアプローチは、この領域で有望な結果をもたらし、現在の大規模言語モデル(LLM)は、医療テキスト処理の高度な基盤を提供する。 しかし、ほとんどの医療用LDMは、医用指導の理解と対応を効率よく行うが、ドメイン知識の習得や人間の嗜好の整合には効果がないにもかかわらず、教師付き微調整(SFT)でしか訓練されない。 本研究では,中国医学領域向けに明示的に設計された新しいベンチマーク LLM であるChiMed-GPT を提案する。 情報抽出,質問応答,対話生成などのタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。 さらに,ChiMed-GPTに患者の識別に関する態度尺度を実施させ,医療領域におけるLCMのさらなる発展に寄与する可能性が示唆された。 コードとモデルはhttps://github.com/synlp/ChiMed-GPTで公開されている。

Recently, the increasing demand for superior medical services has highlighted the discrepancies in the medical infrastructure. With big data, especially texts, forming the foundation of medical services, there is an exigent need for effective natural language processing (NLP) solutions tailored to the healthcare domain. Conventional approaches leveraging pre-trained models present promising results in this domain and current large language models (LLMs) offer advanced foundation for medical text processing. However, most medical LLMs are trained only with supervised fine-tuning (SFT), even though it efficiently empowers LLMs to understand and respond to medical instructions but is ineffective in learning domain knowledge and aligning with human preference. In this work, we propose ChiMed-GPT, a new benchmark LLM designed explicitly for Chinese medical domain, and undergoes a comprehensive training regime with pre-training, SFT, and RLHF. Evaluations on tasks including information extraction, question answering, and dialogue generation demonstrate ChiMed-GPT's superior performance over general domain LLMs. Furthermore, we analyze possible biases through prompting ChiMed-GPT to perform attitude scales regarding discrimination of patients, so as to contribute to further responsible development of LLMs in the medical domain. The code and model are released at https://github.com/synlp/ChiMed-GPT.
翻訳日:2024-07-17 23:50:29 公開日:2024-07-15
# 異種課題集合における言語モデルの同時ロバスト性の評価

Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets ( http://arxiv.org/abs/2311.08662v2 )

ライセンス: Link先を確認
Vatsal Gupta, Pranshu Pandya, Tushar Kataria, Vivek Gupta, Dan Roth, (参考訳) 言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感で、信頼を心配する。 信頼を高めるためには、モデルの障害モードを包括的に理解し、パフォーマンスを改善する効果的な戦略を開発することが不可欠である。 本研究では,入力摂動が事前学習モデルや大規模言語モデル(LLM)など,様々なスケールの言語モデルにどのように影響するかを検討する手法を提案する。 微調整を利用して、入力摂動に対するモデルの堅牢性を高める。 さらに,1つの摂動に曝露することで,他の摂動に対するモデルの性能が向上するか,低下するかを検討する。 複数の摂動に対する頑健性に対処するため、我々は3つの異なる微調整戦略を示す。 さらに,思考の連鎖(CoT)を活用することで,言語モデル(LLM)を包含する方法論の範囲を広げる。 Tabular-NLIタスクを使用して、提案した戦略が頑健なモデルを十分にトレーニングする方法を示し、元のデータセットの精度を維持しながら、さまざまな摂動に対処できるようにします。

Language models, characterized by their black-box nature, often hallucinate and display sensitivity to input perturbations, causing concerns about trust. To enhance trust, it is imperative to gain a comprehensive understanding of the model's failure modes and develop effective strategies to improve their performance. In this study, we introduce a methodology designed to examine how input perturbations affect language models across various scales, including pre-trained models and large language models (LLMs). Utilizing fine-tuning, we enhance the model's robustness to input perturbations. Additionally, we investigate whether exposure to one perturbation enhances or diminishes the model's performance with respect to other perturbations. To address robustness against multiple perturbations, we present three distinct fine-tuning strategies. Furthermore, we broaden the scope of our methodology to encompass large language models (LLMs) by leveraging a chain of thought (CoT) prompting approach augmented with exemplars. We employ the Tabular-NLI task to showcase how our proposed strategies adeptly train a robust model, enabling it to address diverse perturbations while maintaining accuracy on the original dataset.
翻訳日:2024-07-17 23:50:29 公開日:2024-07-15
# 多変量時系列予測のための局所・季節適応型スパース変圧器

Sparse Transformer with Local and Seasonal Adaptation for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2312.06874v2 )

ライセンス: Link先を確認
Yifan Zhang, Rui Wu, Sergiu M. Dascalu, Frederick C. Harris Jr, (参考訳) 多変量時系列(MTS)予測では,長期依存関係をキャプチャする能力により,トランスフォーマーの性能が著しく向上した。 しかしながら、標準的注意機構には、(1)その2次時間複雑性がシーケンスの長さを制限し、(2)歴史的シーケンス全体から将来の値を生成するという2つの重要な制限がある。 そこで本稿では,(1)ローカルな各クエリは,近隣の時間ステップの局所的なウィンドウ内のキーにのみ依存する,という3つのスパースコンポーネントで構成されるDozer Attention機構を提案する。 2) ストライドにより、各クエリは予め定義された間隔でキーに出席できる。 (3) Varyは、クエリが履歴シーケンスのサブセットから選択的にキーに出席することを可能にする。 特に、この部分集合のサイズは予測地平線が広がるにつれて動的に拡大する。 これら3つのコンポーネントは、局所性、季節性、グローバル時間依存性など、MSSデータの本質的な属性をキャプチャするために設計されている。 さらに,MTS予測タスクに対するDozer Attention機構を取り入れたDozerformer Frameworkを提案する。 提案したDozerformerフレームワークを,9つのベンチマークデータセット上で最新の最先端手法を用いて評価し,その優れた性能を確認した。 実験結果から,時系列予測プロセスから履歴時間ステップのサブセットを除いた場合,精度を損なうことなく,効率を大幅に向上することが示唆された。 コードはhttps://github.com/GRYGY1215/Dozerformer.comで入手できる。

Transformers have achieved remarkable performance in multivariate time series(MTS) forecasting due to their capability to capture long-term dependencies. However, the canonical attention mechanism has two key limitations: (1) its quadratic time complexity limits the sequence length, and (2) it generates future values from the entire historical sequence. To address this, we propose a Dozer Attention mechanism consisting of three sparse components: (1) Local, each query exclusively attends to keys within a localized window of neighboring time steps. (2) Stride, enables each query to attend to keys at predefined intervals. (3) Vary, allows queries to selectively attend to keys from a subset of the historical sequence. Notably, the size of this subset dynamically expands as forecasting horizons extend. Those three components are designed to capture essential attributes of MTS data, including locality, seasonality, and global temporal dependencies. Additionally, we present the Dozerformer Framework, incorporating the Dozer Attention mechanism for the MTS forecasting task. We evaluated the proposed Dozerformer framework with recent state-of-the-art methods on nine benchmark datasets and confirmed its superior performance. The experimental results indicate that excluding a subset of historical time steps from the time series forecasting process does not compromise accuracy while significantly improving efficiency. Code is available at https://github.com/GRYGY1215/Dozerformer.
翻訳日:2024-07-17 23:50:29 公開日:2024-07-15
# TVE:Transferable Vision Explainerのためのメタ属性学習

TVE: Learning Meta-attribution for Transferable Vision Explainer ( http://arxiv.org/abs/2312.15359v2 )

ライセンス: Link先を確認
Guanchu Wang, Yu-Neng Chuang, Fan Yang, Mengnan Du, Chia-Yuan Chang, Shaochen Zhong, Zirui Liu, Zhaozhuo Xu, Kaixiong Zhou, Xuanting Cai, Xia Hu, (参考訳) 説明可能な機械学習は、ディープニューラルネットワークの透明性を大幅に改善する。 しかし、既存の作業は個々のモデル予測の振る舞いを説明することに制約されており、様々なモデルやタスク間で説明を伝達する能力に欠ける。 この制限により、様々なタスクが時間とリソースを要することが説明できる。 この問題を解決するために,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を導入する。 具体的には、TVEの転送性は、大規模データセットの事前学習プロセスを通じてメタ属性の学習に向けて実現される。 このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEはタスク固有のデータをトレーニングすることなく、様々な下流タスクをシームレスに説明できる。 実証的研究は、3つの異なる下流データセットにわたるビジョンモデルの3つの異なるアーキテクチャを説明することを含む。 実験の結果,TVEは下流データに対する追加トレーニングを必要とせず,これらの課題を説明するのに有効であることが示唆された。

Explainable machine learning significantly improves the transparency of deep neural networks. However, existing work is constrained to explaining the behavior of individual model predictions, and lacks the ability to transfer the explanation across various models and tasks. This limitation results in explaining various tasks being time- and resource-consuming. To address this problem, we introduce a Transferable Vision Explainer (TVE) that can effectively explain various vision models in downstream tasks. Specifically, the transferability of TVE is realized through a pre-training process on large-scale datasets towards learning the meta-attribution. This meta-attribution leverages the versatility of generic backbone encoders to comprehensively encode the attribution knowledge for the input instance, which enables TVE to seamlessly transfer to explain various downstream tasks, without the need for training on task-specific data. Empirical studies involve explaining three different architectures of vision models across three diverse downstream datasets. The experimental results indicate TVE is effective in explaining these tasks without the need for additional training on downstream data.
翻訳日:2024-07-17 23:40:44 公開日:2024-07-15
# 干渉を考慮したマルチアーマッドバンド

Multi-Armed Bandits with Interference ( http://arxiv.org/abs/2402.01845v2 )

ライセンス: Link先を確認
Su Jia, Peter Frazier, Nathan Kallus, (参考訳) 干渉による実験は、現代のオンラインプラットフォームにおいて重要な課題となっている。 干渉による実験に関する以前の研究は、政策の最終出力に集中している。 累積的なパフォーマンスは、等しく重要なものの、あまり理解されていない。 このギャップに対処するために、学習者がT$ラウンドの時間的地平線上でN$の実験ユニットにアームを割り当てるMABI ( {\em Multi-armed Bandits with Interference) を導入する。 各ラウンドにおける各ユニットの報酬は、単位間の空間距離で単位の影響が減衰するような、全ての単位の処理に依存する。 さらに、報奨関数が敵によって選択され、ラウンドやユニットごとに任意に変化するような一般的な設定を用いる。 まず、スイッチバックポリシーが最適に期待された後悔の$\tilde O(\sqrt T)$を最良の固定アームポリシーに対して達成することを示す。 それでも、スイッチバックポリシーに対する後悔(ランダム変数として)は、$N$を考慮しないため、高いばらつきを被る。 後悔するクラスタランダム化ポリシーを提案する。 i)は予想において最適であり、かつ (ii)$N$で消える高い確率境界を認める。

Experimentation with interference poses a significant challenge in contemporary online platforms. Prior research on experimentation with interference has concentrated on the final output of a policy. The cumulative performance, while equally crucial, is less well understood. To address this gap, we introduce the problem of {\em Multi-armed Bandits with Interference} (MABI), where the learner assigns an arm to each of $N$ experimental units over a time horizon of $T$ rounds. The reward of each unit in each round depends on the treatments of {\em all} units, where the influence of a unit decays in the spatial distance between units. Furthermore, we employ a general setup wherein the reward functions are chosen by an adversary and may vary arbitrarily across rounds and units. We first show that switchback policies achieve an optimal {\em expected} regret $\tilde O(\sqrt T)$ against the best fixed-arm policy. Nonetheless, the regret (as a random variable) for any switchback policy suffers a high variance, as it does not account for $N$. We propose a cluster randomization policy whose regret (i) is optimal in {\em expectation} and (ii) admits a high probability bound that vanishes in $N$.
翻訳日:2024-07-17 23:30:59 公開日:2024-07-15
# 遅延可変ガウス過程による多ソースデータ融合の解釈

Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process ( http://arxiv.org/abs/2402.04146v3 )

ライセンス: Link先を確認
Sandipp Krishnan Ravi, Yigitcan Comlek, Wei Chen, Arjun Pathak, Vipul Gupta, Rajnikant Umretiya, Andrew Hoffman, Ghanshyam Pilania, Piyush Pandita, Sayan Ghosh, Nathaniel Mckeever, Liping Wang, (参考訳) 人工知能(AI)と機械学習(ML)の出現により、科学と工学の様々な分野のコミュートは、データ駆動サロゲートを利用して、多くの情報ソース(データ)から複雑なシステムをモデル化した。 この増殖により、特定の機能を実行するように設計された優れたシステムの開発に要するコストと時間の大幅な削減につながった。 このようなサロゲートの高い命題は、論文、特許、オープンレポジトリ、その他のリソースなど、複数のデータソースを広範囲に融合して構築されている。 しかし、システム最適化中に下流に影響を及ぼす可能性のある情報ソースの既知のおよび未知の物理パラメータの品質と包括性の違いにはあまり注意が払われていない。 この問題を解決するために,LVGP(Latent Variable Gaussian Process)に基づくマルチソースデータ融合フレームワークを提案する。 個々のデータソースは、物理的に解釈可能な潜在空間にマッピングされる特徴的なカテゴリ変数としてタグ付けされ、ソース認識データ融合モデリングの開発を可能にする。 さらに、LVGPの潜伏変数に基づく相似性尺度を導入し、データソースの違いを研究し、理解する。 提案手法は、2つの数学的(表現パラボラ問題、2D Ackley関数)と2つの材料科学(FeCrAlおよびSmCoFe合金の設計)のケーススタディを用いて実証および解析を行った。 ケーススタディから,シングルソースおよびソースを意識しないMLモデルと比較して,提案したマルチソースデータ融合フレームワークは,スパースデータ問題に対するより良い予測,ソースに対する解釈可能性,異なるソース間の相関や関係を利用してモデリング能力を向上させることができることがわかった。

With the advent of artificial intelligence (AI) and machine learning (ML), various domains of science and engineering communites has leveraged data-driven surrogates to model complex systems from numerous sources of information (data). The proliferation has led to significant reduction in cost and time involved in development of superior systems designed to perform specific functionalities. A high proposition of such surrogates are built extensively fusing multiple sources of data, may it be published papers, patents, open repositories, or other resources. However, not much attention has been paid to the differences in quality and comprehensiveness of the known and unknown underlying physical parameters of the information sources that could have downstream implications during system optimization. Towards resolving this issue, a multi-source data fusion framework based on Latent Variable Gaussian Process (LVGP) is proposed. The individual data sources are tagged as a characteristic categorical variable that are mapped into a physically interpretable latent space, allowing the development of source-aware data fusion modeling. Additionally, a dissimilarity metric based on the latent variables of LVGP is introduced to study and understand the differences in the sources of data. The proposed approach is demonstrated on and analyzed through two mathematical (representative parabola problem, 2D Ackley function) and two materials science (design of FeCrAl and SmCoFe alloys) case studies. From the case studies, it is observed that compared to using single-source and source unaware ML models, the proposed multi-source data fusion framework can provide better predictions for sparse-data problems, interpretability regarding the sources, and enhanced modeling capabilities by taking advantage of the correlations and relationships among different sources.
翻訳日:2024-07-17 23:30:59 公開日:2024-07-15
# 無ラベル公開映像を用いた基礎モデルによる人間の行動認識の促進

Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos ( http://arxiv.org/abs/2402.08875v4 )

ライセンス: Link先を確認
Yang Qian, Yinan Sun, Ali Kargarandehkordi, Parnian Azizian, Onur Cezmi Mutlu, Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter Washington, (参考訳) 様々なオンラインプラットフォーム上でのタグ付けされたマルチメディアコンテンツの多様性と量の増加は、人間の行動認識分野を前進させるユニークな機会を提供する。 本研究では,283,582本のTikTokビデオクリップを386個のハッシュタグに分類し,ドメイン固有の行動認識基盤モデルを訓練する。 我々は、Masked Autoencoders(MAE)とVit(ViT)を統合した高度なモデルであるVideoMAE V2を採用し、この多様な非構造化ビデオのコレクションを事前訓練した。 UCF101 や HMDB51 のような確立された行動認識ベンチマークを微調整し,UCF101 の99.05%,HMDB51 の86.08%,Kineetics-400 の85.51%,ViT-giant のバックボーンを用いた something-Something V2 の74.27% の最先端結果を得た。 これらの結果は、基礎モデルをトレーニングするための多様な動的コンテンツの貴重な情報源として、構造化されていない、ラベルなしのビデオを使用することの可能性を強調している。 予備学習データ量の初期増加はモデル性能を著しく向上させるが,データセットのサイズが拡大し続ければ増加は減少することを確認した。 コンピュータビジョンのための自己教師型学習における2つの重要な公理は,(1)追加の事前学習データにより,いくつかのデータセットに対する便益が減少しうること,(2)自己教師型学習において,特に基礎モデルの構築において,品質が重要であること,である。

The increasing variety and quantity of tagged multimedia content on a variety of online platforms offer a unique opportunity to advance the field of human action recognition. In this study, we utilize 283,582 unique, unlabeled TikTok video clips, categorized into 386 hashtags, to train a domain-specific foundation model for action recognition. We employ VideoMAE V2, an advanced model integrating Masked Autoencoders (MAE) with Vision Transformers (ViT), pre-trained on this diverse collection of unstructured videos. Our model, fine-tuned on established action recognition benchmarks such as UCF101 and HMDB51, achieves state-of-the-art results: 99.05% on UCF101, 86.08% on HMDB51, 85.51% on Kinetics-400, and 74.27% on Something-Something V2 using the ViT-giant backbone. These results highlight the potential of using unstructured and unlabeled videos as a valuable source of diverse and dynamic content for training foundation models. Our investigation confirms that while initial increases in pre-training data volume significantly enhance model performance, the gains diminish as the dataset size continues to expand. Our findings emphasize two critical axioms in self-supervised learning for computer vision: (1) additional pre-training data can yield diminishing benefits for some datasets and (2) quality is more important than quantity in self-supervised learning, especially when building foundation models.
翻訳日:2024-07-17 21:30:11 公開日:2024-07-15
# YIG/Permalloy界面における反強磁性結合の起源の解明

Unraveling the origin of antiferromagnetic coupling at YIG/permalloy interface ( http://arxiv.org/abs/2402.14553v4 )

ライセンス: Link先を確認
Jiangchao Qian, Yi Li, Zhihao Jiang, Robert Busch, Hsu-Chih Ni, Tzu-Hsiang Lo, Axel Hoffmann, André Schleife, Jian-Min Zuo, (参考訳) イットリウム鉄ガーネット(YIG)とパーマロイ(Py)の原子準位における反強磁性(AFM)カップリングの構造と電子的起源について検討した。 強磁性共鳴(FMR)は、YIG/Py界面における反強磁性交換結合を示す表面イオンミリング法を用いて作製した試料に独自のハイブリッドモードを示す。 原子分解能走査透過電子顕微鏡 (STEM) を用いて, イオンミリングにより形成された四面体YIG表面のYIG/Py界面にAFMカップリングが存在することを確認した。 STEM測定は、界面AFMカップリングは酸素を介する超交換結合機構によって主に駆動され、密度汎関数理論(DFT)計算によりエネルギー的に有利であることが確認されたことを示唆している。 したがって,YIG/強磁性体ヘテロ構造における型磁気カップリング決定における界面原子構造の重要性を実験的および理論的に明らかにし,界面構造が表面イオンミリングによって実験的に調整可能であることを証明した。

We investigate the structural and electronic origin of antiferromagnetic (AFM) coupling in the Yttrium iron garnet (YIG) and permalloy (Py) bilayer system at the atomic level. Ferromagnetic Resonance (FMR) reveal unique hybrid modes in samples prepared with surface ion milling, indicative of antiferromagnetic exchange coupling at the YIG/Py interface. Using atomic resolution scanning transmission electron microscopy (STEM), we found that AFM coupling appears at the YIG/Py interface of the tetrahedral YIG surface formed with ion milling. The STEM measurements suggest that the interfacial AFM coupling is predominantly driven by an oxygen-mediated super-exchange coupling mechanism, which is confirmed by the density functional theory (DFT) calculations to be energetically favorable. Thus, the combined experimental and theoretical results reveal the critical role of interfacial atomic structure in determining the type magnetic coupling in a YIG/ferromagnet heterostructure, and prove that the interfacial structure can be experimentally tuned by surface ion-milling.
翻訳日:2024-07-17 21:30:11 公開日:2024-07-15
# Ecological Networks におけるサンプルバイアスを考慮した2部グラフ変分自動エンコーダ

Bipartite Graph Variational Auto-Encoder with Fair Latent Representation to Account for Sampling Bias in Ecological Networks ( http://arxiv.org/abs/2403.02011v2 )

ライセンス: Link先を確認
Emre Anakok, Pierre Barbillon, Colin Fontaine, Elisa Thebault, (参考訳) 植物や受粉者をリンクするような生態ネットワーク研究の課題に対処するためのグラフ埋め込みを用いた二部ネットワーク表現法を提案する。 そこで,2組のノードが接続の確率に基づいて位置付けられた潜在空間に埋め込みを生成することが可能となる。 生態学におけるサンプリングバイアスに対処するために,社会学で一般的に考慮される公平性フレームワークを翻訳する。 最適化した損失に対して、ヒルベルト・シュミット独立基準(HSIC)を付加的なペナルティ項として組み込むことにより、潜伏空間の構造がサンプリング過程に関連する連続変数とは独立であることを保証する。 最後に、多くの観察者が貢献する植物-受粉者相互作用の市民科学モニタリングプログラムであるSpikepollデータセットに適用した場合、我々のアプローチが生態ネットワークの理解をどう変えるかを示し、バイアスをサンプリングする傾向がある。

We propose a method to represent bipartite networks using graph embeddings tailored to tackle the challenges of studying ecological networks, such as the ones linking plants and pollinators, where many covariates need to be accounted for, in particular to control for sampling bias. We adapt the variational graph auto-encoder approach to the bipartite case, which enables us to generate embeddings in a latent space where the two sets of nodes are positioned based on their probability of connection. We translate the fairness framework commonly considered in sociology in order to address sampling bias in ecology. By incorporating the Hilbert-Schmidt independence criterion (HSIC) as an additional penalty term in the loss we optimize, we ensure that the structure of the latent space is independent of continuous variables, which are related to the sampling process. Finally, we show how our approach can change our understanding of ecological networks when applied to the Spipoll data set, a citizen science monitoring program of plant-pollinator interactions to which many observers contribute, making it prone to sampling bias.
翻訳日:2024-07-17 21:30:11 公開日:2024-07-15
# MeanCache: 大規模言語モデルベースのWebサービスのためのユーザ中心のセマンティックキャッシュ

MeanCache: User-Centric Semantic Cache for Large Language Model Based Web Services ( http://arxiv.org/abs/2403.02694v3 )

ライセンス: Link先を確認
Waris Gill, Mohamed Elidrisi, Pallavi Kalapatapu, Ammar Ahmed, Ali Anwar, Muhammad Ali Gulzar, (参考訳) ChatGPTやLlamaのような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。 しかし、これらのモデルは非常に高い計算コストがかかる。 例えば、GPT-3は1750億のパラメータで構成され、推論は何十億もの浮動小数点演算を必要とする。 キャッシングは、繰り返しクエリのLSM推論コストを削減するための自然なソリューションであり、総クエリの約31%を構成している。 しかし、既存のキャッシュ手法では、LLMクエリ間のセマンティックな類似性を見つけることができず、文脈的なクエリでは動作しないため、受け入れがたい偽のヒットアンドミスレートが発生する。 本稿では,LLMベースのサービスを対象としたユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。 MeanCacheはFederated Learning(FL)を活用して、ユーザのプライバシを侵害することなく、クエリ類似性を協調的にトレーニングする。 各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。 MeanCacheはまた、キャッシュされたクエリ毎にコンテキストチェーンをエンコードし、スタンドアローンからコンテキストクエリ応答を識別するためのシンプルで高効率なメカニズムを提供する。 我々の実験は、最先端のキャッシュ手法と比較し、MeanCacheは、コンテキストクエリをより良く実行しながら、セマンティックキャッシュのヒット・アンド・ミス決定において、約17%のFスコア、20%の精度向上を実現していることを示した。 また、ストレージ要求を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化する。

Large Language Models (LLMs) like ChatGPT and Llama have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational costs. For instance, GPT-3 consists of 175 billion parameters, where inference demands billions of floating-point operations. Caching is a natural solution to reduce LLM inference costs on repeated queries, which constitute about 31% of the total queries. However, existing caching methods are incapable of finding semantic similarities among LLM queries nor do they operate on contextual queries, leading to unacceptable false hit-and-miss rates. This paper introduces MeanCache, a user-centric semantic cache for LLM-based services that identifies semantically similar queries to determine cache hit or miss. Using MeanCache, the response to a user's semantically similar query can be retrieved from a local cache rather than re-querying the LLM, thus reducing costs, service provider load, and environmental impact. MeanCache leverages Federated Learning (FL) to collaboratively train a query similarity model without violating user privacy. By placing a local cache in each user's device and using FL, MeanCache reduces the latency and costs and enhances model performance, resulting in lower false hit rates. MeanCache also encodes context chains for every cached query, offering a simple yet highly effective mechanism to discern contextual query responses from standalone. Our experiments benchmarked against the state-of-the-art caching method, reveal that MeanCache attains an approximately 17% higher F-score and a 20% increase in precision during semantic cache hit-and-miss decisions while performing even better on contextual queries. It also reduces the storage requirement by 83% and accelerates semantic cache hit-and-miss decisions by 11%.
翻訳日:2024-07-17 21:30:11 公開日:2024-07-15
# ペアワイズ比較は必要なものすべて

Pairwise Comparisons Are All You Need ( http://arxiv.org/abs/2403.09746v2 )

ライセンス: Link先を確認
Nicolas Chahine, Sira Ferradans, Jean Ponce, (参考訳) ブラインド画像品質評価(BIQA)アプローチは、画像品質評価の自動化を約束する一方で、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。 このワンサイズフィットのアプローチは、画像の内容と品質の間の重要な知覚的関係を見落とし、単一の品質基準が様々なコンテンツタイプを不十分に表現する'ドメインシフト'の課題に繋がる。 さらに、BIQA技術は一般的に、異なる観察者間での人間の視覚システム固有の違いを見落としている。 PICNIQは,従来のBIQAの限界を回避し,絶対的品質評価よりも相対的品質評価を重視した一対比較フレームワークである。 PICNIQは、画像ペア間の品質の好みの確率を推定するように設計されている。 PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。 提案フレームワークは,個別の損失関数と組み合わせたディープラーニングアーキテクチャと,疎対比較設定に最適化されたトレーニング戦略を実装した。 本稿では,PIQ23データセットから得られた比較行列を用いて本研究を行う。 我々の広範な実験分析は、PICNIQの幅広い適用性と競争性能を示し、BIQAの分野で新しい標準を設定する可能性を示している。

Blind image quality assessment (BIQA) approaches, while promising for automating image quality evaluation, often fall short in real-world scenarios due to their reliance on a generic quality standard applied uniformly across diverse images. This one-size-fits-all approach overlooks the crucial perceptual relationship between image content and quality, leading to a 'domain shift' challenge where a single quality metric inadequately represents various content types. Furthermore, BIQA techniques typically overlook the inherent differences in the human visual system among different observers. In response to these challenges, this paper introduces PICNIQ, a pairwise comparison framework designed to bypass the limitations of conventional BIQA by emphasizing relative, rather than absolute, quality assessment. PICNIQ is specifically designed to estimate the preference likelihood of quality between image pairs. By employing psychometric scaling algorithms, PICNIQ transforms pairwise comparisons into just-objectionable-difference (JOD) quality scores, offering a granular and interpretable measure of image quality. The proposed framework implements a deep learning architecture in combination with a specialized loss function, and a training strategy optimized for sparse pairwise comparison settings. We conduct our research using comparison matrices from the PIQ23 dataset, which are published in this paper. Our extensive experimental analysis showcases PICNIQ's broad applicability and competitive performance, highlighting its potential to set new standards in the field of BIQA.
翻訳日:2024-07-17 21:18:43 公開日:2024-07-15
# シネCMRセグメンテーションの確率的SAMエンハンス精度と一般化可能性の時空間適応

Temporal-spatial Adaptation of Promptable SAM Enhance Accuracy and Generalizability of cine CMR Segmentation ( http://arxiv.org/abs/2403.10009v2 )

ライセンス: Link先を確認
Zhennong Chen, Sekeun Kim, Hui Ren, Quanzheng Li, Xiang Li, (参考訳) 心臓磁気共鳴(CMR)スキャンでは,全期にわたる正確な心筋セグメンテーションが心機能解析に不可欠である。 自動シネCMRセグメンテーションのためのディープラーニング(DL)の進歩にもかかわらず、目に見えないデータの一般化は依然として大きな課題である。 近年、セグメンテーション基礎モデル(SAM)が発明され、その正確なセグメンテーションと、より重要なゼロショット一般化が知られている。 SAMは2次元(2次元)の自然画像に基づいて訓練され,それを包括的シネCMRセグメンテーションに適用するために,時間的・空間的な情報を含むcineCMR-SAMを提案する。 従来のSOTA法と比較すると,このデータセットを微調整したSTACOM2011では,データ固有モデルのセグメンテーション精度が優れており,また,他の2つの大規模公開データセット(ACDC,M&Ms)ではゼロショットの一般化に優れていた。 さらに、cineCMR-SAMにテキストプロンプト機能を導入し、入力スライス(短軸または長軸)のビュータイプを指定することで、すべてのビュータイプのパフォーマンスを向上させる。

Accurate myocardium segmentation across all phases in one cardiac cycle in cine cardiac magnetic resonance (CMR) scans is crucial for comprehensively cardiac function analysis. Despite advancements in deep learning (DL) for automatic cine CMR segmentation, generalizability on unseen data remains a significant challenge. Recently, the segment-anything-model (SAM) has been invented as a segmentation foundation model, known for its accurate segmentation and more importantly, zero-shot generalization. SAM was trained on two-dimensional (2D) natural images; to adapt it for comprehensive cine CMR segmentation, we propose cineCMR-SAM which incorporates both temporal and spatial information through a modified model architecture. Compared to other state-of-the-art (SOTA) methods, our model achieved superior data-specific model segmentation accuracy on the STACOM2011 when fine-tuned on this dataset and demonstrated superior zero-shot generalization on two other large public datasets (ACDC and M&Ms) unseen during fine-tuning. Additionally, we introduced a text prompt feature in cineCMR-SAM to specify the view type of input slices (short-axis or long-axis), enhancing performance across all view types.
翻訳日:2024-07-17 21:18:43 公開日:2024-07-15
# Open Stamped Parts Dataset

Open Stamped Parts Dataset ( http://arxiv.org/abs/2403.10369v3 )

ライセンス: Link先を確認
Sarah Antiles, Sachin S. Talathi, (参考訳) 自動車製造用の切削金属シートの合成および実像を特徴とするオープンスタンプ部品データセット(OSPD)について述べる。 実際の写真は7台のカメラから撮影され、7,980枚の未ラベル画像と1,680枚のラベル画像で構成されている。 さらに, ホールの10%に合成マスクをオーバーレイすることで, 欠陥データセットをコンパイルした。 合成データセットは、実際の製造環境を、カメラに対する照明と部分配置の観点から再現する。 合成データは、訓練用画像7,980枚、検証用画像1,680枚、テスト用画像1,680枚を含む。 合成データのホールの10%は、実際の画像データセットで生成された欠陥を模倣している。 我々は,合成OSPDのホール検出モデルを訓練し,67.2\%のリコールスコアと94.4\%の精度を得た。 我々は, 金属板切削工程における切削孔の欠陥検出の最先端化に向けて, OSPD を用いた自動車製造の研究者を期待する。 データセットは、https://tinyurl.com/hm6xatd7.comからダウンロードできる。

We present the Open Stamped Parts Dataset (OSPD), featuring synthetic and real images of stamped metal sheets for auto manufacturing. The real part images, captured from 7 cameras, consist of 7,980 unlabeled images and 1,680 labeled images. In addition, we have compiled a defect dataset by overlaying synthetically generated masks on 10\% of the holes. The synthetic dataset replicates the real manufacturing environment in terms of lighting and part placement relative to the cameras. The synthetic data includes 7,980 training images, 1,680 validation images and 1,680 test images, each with bounding box and segmentation mask annotations around all holes. 10\% of the holes in the synthetic data mimic defects generated in the real image dataset. We trained a hole-detection model on the synthetic-OSPD, achieving a modified recall score of 67.2\% and a precision of 94.4\% . We anticipate researchers in auto manufacturing use OSPD to advance the state of the art in defect detection of stamped holes in the metal-sheet stamping process. The dataset is available for download at: https://tinyurl.com/hm6xatd7.
翻訳日:2024-07-17 21:18:43 公開日:2024-07-15
# GLAD:単純な量子化による遅延グラフ生成モデルの改善

GLAD: Improving Latent Graph Generative Modeling with Simple Quantization ( http://arxiv.org/abs/2403.16883v3 )

ライセンス: Link先を確認
Van Khoa Nguyen, Yoann Boget, Frantzeska Lavda, Alexandros Kalousis, (参考訳) グラフ潜在構造を探索することは、グラフ生成研究分野ではあまり注目を集めていない。 しかし、潜在空間を活用することは、グラフのような離散データのためのデータ空間に取り組むのと同じくらい重要である。 しかし、従来の手法ではグラフの置換対称性の保存に失敗したり、潜在空間内で適切にモデル化するための効果的なアプローチが欠如していた。 これらの問題を緩和するために、単純で効果的な離散潜在グラフ拡散生成モデルを提案する。 我々のモデル、すなわちGLADは、既存の潜伏アプローチの欠点を克服するだけでなく、グラフ空間に適用される拡散法に固有の問題を緩和する。 分子ベンチマークデータセット上で生成モデルを検証し、最先端のベースラインと比較して競合性能を示す。

Exploring the graph latent structures has not garnered much attention in the graph generative research field. Yet, exploiting the latent space is as crucial as working on the data space for discrete data such as graphs. However, previous methods either failed to preserve the permutation symmetry of graphs or lacked an effective approaches to model appropriately within the latent space. To mitigate those issues, we propose a simple, yet effective discrete latent graph diffusion generative model. Our model, namely GLAD, not only overcomes the drawbacks of existing latent approaches, but also alleviates inherent issues present in diffusion methods applied on the graph space. We validate our generative model on the molecular benchmark datasets, on which it demonstrates competitive performance compared with the state-of-the-art baselines.
翻訳日:2024-07-17 21:18:43 公開日:2024-07-15
# Graph Chain-of-Thought:グラフ上の推論による大規模言語モデルの強化

Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs ( http://arxiv.org/abs/2404.07103v2 )

ライセンス: Link先を確認
Bowen Jin, Chulin Xie, Jiawei Zhang, Kashob Kumar Roy, Yu Zhang, Zheng Li, Ruirui Li, Xianfeng Tang, Suhang Wang, Yu Meng, Jiawei Han, (参考訳) 大きな言語モデル(LLM)は、例外的なパフォーマンスを示す一方で、特に知識集約的なタスクにおいて幻覚に悩まされる。 既存の研究は、問題を緩和するために、外部知識コーパスから取得した個々のテキスト単位でLSMを拡張することを提案する。 しかし、多くの分野において、テキストは相互接続(例えば、書誌グラフの学術論文は引用と共著者によってリンクされる)され、(テキスト対応の)グラフを形成する。 このようなグラフの知識は、単一のテキスト/ノードだけでなく、関連する接続でも符号化される。 グラフを用いたLLMの拡張の研究を容易にするため,我々はGRBenchと呼ばれるグラフ推論データセットを手作業で構築した。 そこで我々は,グラフを反復的に理性化することで,LLMをグラフで拡張する,Graph Chain-of- Thought (Graph-CoT) という,シンプルで効果的なフレームワークを提案する。 各Graph-CoTイテレーションは、LLM推論、LLM-graphインタラクション、グラフ実行の3つのサブステップで構成されている。 GRBench上で3つのLLMバックボーンを用いて系統的な実験を行い、Graph-CoTはベースラインを一貫して上回る。 コードはhttps://github.com/PeterGriffinJin/Graph-CoT.comで公開されている。

Large language models (LLMs), while exhibiting exceptional performance, suffer from hallucinations, especially on knowledge-intensive tasks. Existing works propose to augment LLMs with individual text units retrieved from external knowledge corpora to alleviate the issue. However, in many domains, texts are interconnected (e.g., academic papers in a bibliographic graph are linked by citations and co-authorships) which form a (text-attributed) graph. The knowledge in such graphs is encoded not only in single texts/nodes but also in their associated connections. To facilitate the research of augmenting LLMs with graphs, we manually construct a Graph Reasoning Benchmark dataset called GRBench, containing 1,740 questions that can be answered with the knowledge from 10 domain graphs. Then, we propose a simple and effective framework called Graph Chain-of-thought (Graph-CoT) to augment LLMs with graphs by encouraging LLMs to reason on the graph iteratively. Each Graph-CoT iteration consists of three sub-steps: LLM reasoning, LLM-graph interaction, and graph execution. We conduct systematic experiments with three LLM backbones on GRBench, where Graph-CoT outperforms the baselines consistently. The code is available at https://github.com/PeterGriffinJin/Graph-CoT.
翻訳日:2024-07-17 21:08:58 公開日:2024-07-15
# 周期および準周期磁性超格子における二層グラフェン

Bilayer graphene in periodic and quasiperiodic magnetic superlattices ( http://arxiv.org/abs/2404.19106v2 )

ライセンス: Link先を確認
David J. Fernández C., O. Pavón-Torres, (参考訳) 強結合モデルから生じる有効ハミルトニアンは, 周期的外磁場中に置かれた二層グラフェンの低層励起の挙動を, 既約二階超対称性変換を用いて検討した。 これらの励起を記述する方程式の結合系は、二階微分作用素によって交叉される周期的なシュリンガー・ハミルトン多様体の対に還元される。 より一般的な2階超対称性変換の直接的な実装により、周期性欠陥と禁止バンドに埋め込まれた有界状態を持つ非特異なシュリンガーポテンシャルを生成でき、これは準周期的磁気超格子に関連付けられる。 量子メタマテリアルの応用は、近い将来、その対象の急速な発展につながるような境界状態の設計と制御能力に起因している。

Starting from the effective Hamiltonian arising from the tight binding model, we study the behaviour of low-lying excitations for bilayer graphene placed in periodic external magnetic fields by using irreducible second order supersymmetry transformations. The coupled system of equations describing these excitations is reduced to a pair of periodic Schr\"odinger Hamiltonians intertwined by a second order differential operator. The direct implementation of more general second-order supersymmetry transformations allows to create nonsingular Schr\"odinger potentials with periodicity defects and bound states embedded in the forbidden bands, which turn out to be associated to quasiperiodic magnetic superlattices. Applications in quantum metamaterials stem from the ability to engineer and control such bound states which could lead to a fast development of the subject in the near future.
翻訳日:2024-07-17 20:59:06 公開日:2024-07-15
# 共鳴蛍光のマルチモードアレイフィルタ

Multi-Mode Array Filtering of Resonance Fluorescence ( http://arxiv.org/abs/2405.03900v3 )

ライセンス: Link先を確認
Jacob Ngaha, Scott Parkins, Howard J. Carmichael, (参考訳) 本稿では,周波数フィルタによる光子相関の測定と計算のための新しい周波数フィルタ法を提案する。 本手法は共振器を多モードアレイフィルタと呼ぶ空洞型システムであり,周波数が等間隔である可変単一モードキャビティのアレイで構成されている。 モード依存位相変調を導入することで、周波数分離を犠牲にすることなく、ほぼ長方形の周波数応答を生成する。 フィルタのバックアクションを完全に無視するカスケード量子オープンシステムアプローチを用いて周波数フィルタリングをモデル化する。 これにより、ソースおよびフィルタ系演算子に対する閉作用素モーメント方程式の導出が可能となり、周波数フィルタリングされた1次および2次相関関数を計算するための極めて効率的な方法が提供される。 共振駆動2レベル原子に印加することで, この新しいフィルタ法を実証する。 単一モードフィルタ上でのマルチモードアレイフィルタの周波数分離を改良した周波数フィルタパワースペクトルの例を示す。 次に、単モードおよび多モードアレイフィルタによる2階自動・相互相関関数の結果を示す。 これらは俗的な近似から派生した表現と比較される。 マルチモードアレイフィルタの周波数分離の改善により、2光子跳躍過程のような周波数フィルタリング光子相関の新たな状態と、フィルタされた自己相関関数に対する帯域幅の消滅の影響を解明することができる。

We present a novel frequency-filtering method for measuring and calculating frequency-filtered photon-correlations. This novel method is a cavity-based system we call the multi-mode array filter, which consists of an array of tunable single-mode cavities that are equally spaced in frequency. By introducing a mode-dependent phase modulation, we produce a near rectangular frequency response, allowing us to increase the filter bandwidth -- and thus the temporal response -- without sacrificing frequency isolation. We model the frequency filtering using a cascaded quantum open systems approach which completely neglects any back-action of the filter onto the source system. This allows us to derive a closed set of operator moment equations for source and filter system operators, thus providing an extremely efficient method to calculate frequency-filtered first- and second-order correlation functions. We demonstrate this novel filtering method by applying it to a resonantly driven two-level atom. We present examples of frequency-filtered power spectra to demonstrate the improved frequency isolation of the multi-mode array filter over the single-mode filter. We then present results for the single-mode and multi-mode-array filtered second-order auto- and cross-correlation functions. These are compared against expressions derived in the secular approximation. The improved frequency isolation of the multi-mode array filter allows us to investigate new regimes of frequency-filtered photon correlations, such as two-photon leapfrog processes, and the effect of vanishing bandwidth on filtered auto-correlation functions.
翻訳日:2024-07-17 20:59:06 公開日:2024-07-15
# 3次元医用画像セグメンテーションのためのトポロジーと空間性を考慮したマスケードオートエンコーダによる自己事前学習

Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation ( http://arxiv.org/abs/2406.10519v2 )

ライセンス: Link先を確認
Pengfei Gu, Yejia Zhang, Huimin Li, Chaoli Wang, Danny Z. Chen, (参考訳) Masked Autoencoders (MAEs) は、自然および医学的な画像解析問題に対する事前訓練型ビジョントランスフォーマー (ViTs) に有効であることが示されている。 見えないピクセル/ボクセル情報を可視パッチで再構築することにより、ViTエンコーダは下流タスクのコンテキスト情報を集約することができる。 しかし、ViTアーキテクチャで特別に開発された既存のMAE事前学習手法では、医用画像分割作業において重要な幾何学的形状や空間情報をキャプチャする能力が欠如している。 本稿では、3次元医用画像セグメンテーションのための自己事前トレーニング(すなわち、同じターゲットデータセット上で事前トレーニングされたモデル)のための既知のMAEの新たな拡張を提案する。 1) 入力および再構成ボリュームのトポロジ的シグネチャを計算し, 幾何学的形状情報を学習することで, 幾何学的形状情報を保存する新しいトポロジ的損失を提案する。 2)3次元作物の中心と8つの角の位置を予測し,空間情報を収集するプリテキストタスクを導入する。 (3) 医用画像分割アーキテクチャ(SOTA)にMAE事前訓練戦略を拡張し,ViTと併用して事前訓練を行う。 (4) 学習済みのVTエンコーダと学習済みのSOTAモデルを補完することにより,下流のセグメンテーションタスクの微調整モデルを開発する。 5つのパブリックな3次元セグメンテーションデータセットに対する大規模な実験は、我々の新しいアプローチの有効性を示している。

Masked Autoencoders (MAEs) have been shown to be effective in pre-training Vision Transformers (ViTs) for natural and medical image analysis problems. By reconstructing missing pixel/voxel information in visible patches, a ViT encoder can aggregate contextual information for downstream tasks. But, existing MAE pre-training methods, which were specifically developed with the ViT architecture, lack the ability to capture geometric shape and spatial information, which is critical for medical image segmentation tasks. In this paper, we propose a novel extension of known MAEs for self pre-training (i.e., models pre-trained on the same target dataset) for 3D medical image segmentation. (1) We propose a new topological loss to preserve geometric shape information by computing topological signatures of both the input and reconstructed volumes, learning geometric shape information. (2) We introduce a pre-text task that predicts the positions of the centers and eight corners of 3D crops, enabling the MAE to aggregate spatial information. (3) We extend the MAE pre-training strategy to a hybrid state-of-the-art (SOTA) medical image segmentation architecture and co-pretrain it alongside the ViT. (4) We develop a fine-tuned model for downstream segmentation tasks by complementing the pre-trained ViT encoder with our pre-trained SOTA model. Extensive experiments on five public 3D segmentation datasets show the effectiveness of our new approach.
翻訳日:2024-07-17 20:39:37 公開日:2024-07-15
# 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル

Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2407.00741v3 )

ライセンス: Link先を確認
Jianuo Huang, (参考訳) 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。 しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。 この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。 このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。 我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。 さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。 DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。 実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。 このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
翻訳日:2024-07-17 20:29:52 公開日:2024-07-15
# 制限ボルツマンマシンによるトーリックコードの任意基底状態の表現

Representing Arbitrary Ground States of Toric Code by Restricted Boltzmann Machine ( http://arxiv.org/abs/2407.01451v2 )

ライセンス: Link先を確認
Penghua Chen, Bowen Yan, Shawn X. Cui, (参考訳) 本研究では,隠蔽ニューロンと可視ニューロンの局所的接続のみを有する制限ボルツマンマシンを用いて,トーリック符号基底状態の表現可能性を体系的に解析する。 この分析は、モデルが様々な基底状態を表現する能力を評価する上で重要である。 その後、制限付きボルツマン機械を改良し、非局所接続を効率的に導入することで任意の基底状態に適応する。 この新しいモデルは解析的に解けるだけでなく、機械学習技術を用いて解決した際の効率と正確な性能も示す。 次に、モデルを$Z_2$から$Z_n$トーリックコードに一般化し、今後の方向性について議論する。

We systematically analyze the representability of toric code ground states by Restricted Boltzmann Machine with only local connections between hidden and visible neurons. This analysis is pivotal for evaluating the model's capability to represent diverse ground states, thus enhancing our understanding of its strengths and weaknesses. Subsequently, we modify the Restricted Boltzmann Machine to accommodate arbitrary ground states by introducing essential non-local connections efficiently. The new model is not only analytically solvable but also demonstrates efficient and accurate performance when solved using machine learning techniques. Then we generalize our the model from $Z_2$ to $Z_n$ toric code and discuss future directions.
翻訳日:2024-07-17 20:29:52 公開日:2024-07-15
# 機械学習は適応学習の課題と学習経路の個別化を解決できるか?オンライン学習プラットフォームにおけるフィールド実験

Can machine learning solve the challenge of adaptive learning and the individualization of learning paths? A field experiment in an online learning platform ( http://arxiv.org/abs/2407.03118v3 )

ライセンス: Link先を確認
Tim Klausmann, Marius Köppel, Daniel Schunk, Isabell Zipperle, (参考訳) デジタル技術に基づく学習内容の個別化は、大きな個人的および社会的利益をもたらす。 しかし、この個別化がどのように実装されるのかは未解決のままである。 この問題に対処するため、我々は大規模なデジタル自己学習プラットフォーム上でランダム化制御試験を実施している。 我々は,2つの畳み込みニューラルネットワークに基づくアルゴリズムを開発し,学習経路に応じて4,365ドルの学習者にタスクを割り当てる。 学習者は、グループベースの適応治療グループと個別適応治療グループという2つの治療グループと、1つのコントロールグループにランダム化される。 本研究は,学習者が提供する努力とプラットフォーム上でのパフォーマンスについて,これら3つのグループの違いを分析した。 我々のヌル結果は、学習経路の個別化に関連する複数の課題に光を当てた。

The individualization of learning contents based on digital technologies promises large individual and social benefits. However, it remains an open question how this individualization can be implemented. To tackle this question we conduct a randomized controlled trial on a large digital self-learning platform. We develop an algorithm based on two convolutional neural networks that assigns tasks to $4,365$ learners according to their learning paths. Learners are randomized into three groups: two treatment groups -- a group-based adaptive treatment group and an individual adaptive treatment group -- and one control group. We analyze the difference between the three groups with respect to effort learners provide and their performance on the platform. Our null results shed light on the multiple challenges associated with the individualization of learning paths.
翻訳日:2024-07-17 20:29:52 公開日:2024-07-15
# LaRa: 高速大線放射界

LaRa: Efficient Large-Baseline Radiance Fields ( http://arxiv.org/abs/2407.04699v2 )

ライセンス: Link先を確認
Anpei Chen, Haofei Xu, Stefano Esposito, Siyu Tang, Andreas Geiger, (参考訳) 放射場法はフォトリアリスティックな新しいビュー合成と幾何再構成を実現している。 しかし、それらは主にシーンごとの最適化や小さなベースライン設定に適用される。 近年,変圧器を用いたフィードフォワード再構築の研究が盛んに行われているが,これらは全て標準的なグローバルアテンション機構で行われており,そのため3次元再構成の局所的性質は無視されている。 本稿では,トランス層における局所的および大域的推論を統一する手法を提案する。 我々のモデルはガウスボリュームとしてシーンを表現し、これを画像エンコーダとグループ注意層と組み合わせて効率的なフィードフォワード再構築を行う。 実験の結果,このモデルは4つのGPUで2日間トレーニングされ,360度領域の放射率場を再構成する際の忠実度が高く,ゼロショットおよびアウトオブドメインテストに対するロバスト性を示した。 プロジェクトページ: https://apchenstu.github.io/LaRa/。

Radiance field methods have achieved photorealistic novel view synthesis and geometry reconstruction. But they are mostly applied in per-scene optimization or small-baseline settings. While several recent works investigate feed-forward reconstruction with large baselines by utilizing transformers, they all operate with a standard global attention mechanism and hence ignore the local nature of 3D reconstruction. We propose a method that unifies local and global reasoning in transformer layers, resulting in improved quality and faster convergence. Our model represents scenes as Gaussian Volumes and combines this with an image encoder and Group Attention Layers for efficient feed-forward reconstruction. Experimental results demonstrate that our model, trained for two days on four GPUs, demonstrates high fidelity in reconstructing 360 deg radiance fields, and robustness to zero-shot and out-of-domain testing. Our project Page: https://apchenstu.github.io/LaRa/.
翻訳日:2024-07-17 20:20:06 公開日:2024-07-15
# JDT3D:LiDARに基づくトラッキング・バイ・アテンションにおけるギャップへの対処

JDT3D: Addressing the Gaps in LiDAR-Based Tracking-by-Attention ( http://arxiv.org/abs/2407.04926v2 )

ライセンス: Link先を確認
Brian Cheong, Jiachen Zhou, Steven Waslander, (参考訳) 自動走行のための3Dトラッキングベンチマークにおいて、トラッキング・バイ・検出(TBD)法は最先端のパフォーマンスを達成する。 一方、トラッキング・バイ・アテンション(TBA)法はTBD法よりも優れている可能性があり、特に長時間の閉塞や検出設定の難しさが高い。 本研究では,LiDARを用いたジョイント検出器とJDT3Dを用いたTBD法におけるTBA法の性能低下について検討した。 本稿では,TBD と TBA のギャップを埋める2つの一般化可能な手法を提案する。 JDT3DはnuScenesデータセットでトレーニングされ評価され、nuScenesテストセットでAMOTAメトリックで0.574を達成し、既存のLiDARベースのTBAアプローチを6%以上上回っている。 この結果に基づき,既存のTBAモデル定式化における潜在的な課題について考察し,TBD手法による性能の相違について述べる。 JDT3Dの実装は以下のリンクで見ることができる。

Tracking-by-detection (TBD) methods achieve state-of-the-art performance on 3D tracking benchmarks for autonomous driving. On the other hand, tracking-by-attention (TBA) methods have the potential to outperform TBD methods, particularly for long occlusions and challenging detection settings. This work investigates why TBA methods continue to lag in performance behind TBD methods using a LiDAR-based joint detector and tracker called JDT3D. Based on this analysis, we propose two generalizable methods to bridge the gap between TBD and TBA methods: track sampling augmentation and confidence-based query propagation. JDT3D is trained and evaluated on the nuScenes dataset, achieving 0.574 on the AMOTA metric on the nuScenes test set, outperforming all existing LiDAR-based TBA approaches by over 6%. Based on our results, we further discuss some potential challenges with the existing TBA model formulation to explain the continued gap in performance with TBD methods. The implementation of JDT3D can be found at the following link: https://github.com/TRAILab/JDT3D.
翻訳日:2024-07-17 20:20:06 公開日:2024-07-15
# MARVEL:双方向LSTMを用いたMRフィンガープリンティング

MARVEL: MR Fingerprinting with Additional micRoVascular Estimates using bidirectional LSTMs ( http://arxiv.org/abs/2407.10512v1 )

ライセンス: Link先を確認
Antoine Barrier, Thomas Coudert, Aurélien Delphin, Benjamin Lemasson, Thomas Christen, (参考訳) Magnetic Resonance Fingerprinting (MRF) アプローチは、1つの高速な取得シーケンスと同時に複数のMRまたは生理的パラメータを推定することを目的としている。 これまで提案されたMRF研究の多くは、緩和時間(T1, T2)を測定するために単純なMRシークエンスタイプを用いてきた。 この場合、ディープラーニングアルゴリズムは再構築プロセスの高速化に成功している。 理論的には、MDFの概念は他の様々なMRシークエンスタイプで使用することができ、組織微細構造についてより多くの情報を提供することができる。 しかし,数値モデルの複雑さを増大させることでシミュレーション時間が制限されることが多く,一列から複数のパラメータを推定することは,標準的なコンピュータやDLアーキテクチャではサイズが大きすぎる新しい辞書次元を示唆する。本稿では,局所脳血流量(CBV)や平均血管ラディウス(R)などの微小血管特性に加えて,複雑な平衡状態自由沈降(bSSFP)型シーケンスを同時に推定するために,定常状態自由沈降(bSSFP)型シーケンスを解析する。 そこで本研究では, 現実的なマイクロ血管ネットワークを含む数値ボクセルから得られるMR信号と, マッチングプロセスに使用される双方向長短期記憶ネットワークを共用する手法を提案する。また, 標準的なMRFマップ上では, 3人のボランティアに対して, 提案手法により, より長い専用配列と造影剤の静脈内注入で得られるマイクロ血管パラメータの高品質な定量的マップを迅速に作成できることが示唆された。 このアプローチは、複数の病理の管理に使用することができ、他の種類のミクロ構造情報を提供するように調整することができる。

The Magnetic Resonance Fingerprinting (MRF) approach aims to estimate multiple MR or physiological parameters simultaneously with a single fast acquisition sequence. Most of the MRF studies proposed so far have used simple MR sequence types to measure relaxation times (T1, T2). In that case, deep learning algorithms have been successfully used to speed up the reconstruction process. In theory, the MRF concept could be used with a variety of other MR sequence types and should be able to provide more information about the tissue microstructures. Yet, increasing the complexity of the numerical models often leads to prohibited simulation times, and estimating multiple parameters from one sequence implies new dictionary dimensions whose sizes become too large for standard computers and DL architectures.In this paper, we propose to analyze the MRF signal coming from a complex balance Steady-state free precession (bSSFP) type sequence to simultaneously estimate relaxometry maps (T1, T2), Field maps (B1, B0) as well as microvascular properties such as the local Cerebral Blood Volume (CBV) or the averaged vessel Radius (R).To bypass the curse of dimensionality, we propose an efficient way to simulate the MR signal coming from numerical voxels containing realistic microvascular networks as well as a Bidirectional Long Short-Term Memory network used for the matching process.On top of standard MRF maps, our results on 3 human volunteers suggest that our approach can quickly produce high-quality quantitative maps of microvascular parameters that are otherwise obtained using longer dedicated sequences and intravenous injection of a contrast agent. This approach could be used for the management of multiple pathologies and could be tuned to provide other types of microstructural information.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-15
# ロバストスコアに基づくクイックチェンジ検出

Robust Score-Based Quickest Change Detection ( http://arxiv.org/abs/2407.11094v1 )

ライセンス: Link先を確認
Sean Moushegian, Suya Wu, Enmao Diao, Jie Ding, Taposh Banerjee, Vahid Tarokh, (参考訳) 最も速い変化検出の分野における手法は、オンラインデータストリームのデータ生成分布の変化をリアルタイムで迅速に検出する。 既存の方法は、前と後の変化分布の密度が分かっているときに、この変化点を検出することができる。 最近の研究は、これらの結果を、前値と後値の分布がスコア関数によってのみ知られているケースにまで拡張している。 この研究は、前値と後値のスコア関数が2つの非随伴集合の分布にしか対応しない場合を考える。 この研究は、既存のスコアベースの素早い変化検出アルゴリズムを強固にするために、二つの「最も好ましくない」分布を用いており、その特性について研究している。 本稿では, 特定のモデルクラスに対する最小値分布を計算し, 共通構成に対する最小値分布を推定する方法を提案する。 頑健な変化検出アルゴリズムの性能を示すシミュレーション結果を提供する。

Methods in the field of quickest change detection rapidly detect in real-time a change in the data-generating distribution of an online data stream. Existing methods have been able to detect this change point when the densities of the pre- and post-change distributions are known. Recent work has extended these results to the case where the pre- and post-change distributions are known only by their score functions. This work considers the case where the pre- and post-change score functions are known only to correspond to distributions in two disjoint sets. This work employs a pair of "least-favorable" distributions to robustify the existing score-based quickest change detection algorithm, the properties of which are studied. This paper calculates the least-favorable distributions for specific model classes and provides methods of estimating the least-favorable distributions for common constructions. Simulation results are provided demonstrating the performance of our robust change detection algorithm.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# DeepGate3: スケーラブルな回路表現学習を目指す

DeepGate3: Towards Scalable Circuit Representation Learning ( http://arxiv.org/abs/2407.11095v1 )

ライセンス: Link先を確認
Zhengyuan Shi, Ziyang Zheng, Sadaf Khan, Jianyuan Zhong, Min Li, Qiang Xu, (参考訳) 回路表現学習は電子設計自動化(Electronic Design Automation, EDA)の分野を前進させる有望な成果を示した。 DeepGate Familyのような既存のモデルは、主にグラフニューラルネットワーク(GNN)を使用して、回路網リストをゲートレベルの埋め込みにエンコードする。 しかし、GNNベースのモデルのスケーラビリティはアーキテクチャ上の制約によって根本的な制約を受けており、多種多様な複雑な回路設計にまたがる一般化能力に影響を及ぼす。 これらの課題に対処するために、最初のGNN処理に続いてTransformerモジュールを統合する拡張アーキテクチャであるDeepGate3を導入する。 この新しいアーキテクチャは、前身であるDeepGate2の堅牢なゲートレベル表現能力を保持するだけでなく、新しいプールトランス機構を通じてサブ回路をモデル化する能力も強化している。 DeepGate3はさらに、複数の革新的な監視タスクによって洗練され、学習プロセスが大幅に強化され、ゲートレベルとサブ回路構造の両方の優れた表現が可能になった。 実験により,従来のGNN手法よりも拡張性と一般化性が向上し,回路表現学習技術の進歩が図られた。

Circuit representation learning has shown promising results in advancing the field of Electronic Design Automation (EDA). Existing models, such as DeepGate Family, primarily utilize Graph Neural Networks (GNNs) to encode circuit netlists into gate-level embeddings. However, the scalability of GNN-based models is fundamentally constrained by architectural limitations, impacting their ability to generalize across diverse and complex circuit designs. To address these challenges, we introduce DeepGate3, an enhanced architecture that integrates Transformer modules following the initial GNN processing. This novel architecture not only retains the robust gate-level representation capabilities of its predecessor, DeepGate2, but also enhances them with the ability to model subcircuits through a novel pooling transformer mechanism. DeepGate3 is further refined with multiple innovative supervision tasks, significantly enhancing its learning process and enabling superior representation of both gate-level and subcircuit structures. Our experiments demonstrate marked improvements in scalability and generalizability over traditional GNN-based approaches, establishing a significant step forward in circuit representation learning technology.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# 可読リスク予測のための静的及び多変量時間減衰核融合変圧器

Static and multivariate-temporal attentive fusion transformer for readmission risk prediction ( http://arxiv.org/abs/2407.11096v1 )

ライセンス: Link先を確認
Zhe Sun, Runzhi Li, Jing Wang, Gang Chen, Siyu Yan, Lihong Ma, (参考訳) 背景: ICU患者の短期的寛容予測の正確性は, 退院決定における医師の支援による資源割当の効率化に重要である。 臨床的には、ICUモニタから収集された静的および多変量時間データの両方が、短時間の読み出し予測において重要な役割を果たす。 Informative static and multivariate temporal feature representation capture and fusion present challenges for accurate readmission prediction。 方法: 人口統計学的および動的時間的データの可能性を完全に活用して, ICU患者の短期的寛解を予測するため, SMTAFormer を新たに提案する。 SMTAFormerでは、まずMLPネットワークと時間変換ネットワークを適用して、それぞれ有用な静的特徴表現と時間的特徴表現を学習する。 次に、多変量時間的特徴間の相関をモデル化し、静的特徴と多変量時間的特徴の相互相関を構築することで、静的特徴と時間的特徴の融合モジュールを融合させる。 結果:MIMIC-IIIデータセットに基づいて,RRAデータセットを構築した。 SMTAFormerは,提案手法の精度を最大86.6%,受信器動作特性曲線(AUC)の面積を最大0.717。 結論:提案するSMTAFormerは,静的かつ多変量な時間的特徴表現を効率的に捕捉・融合することができる。 その結果,SMTAFormerはICU患者の短期寛容予測性能を,強いベースラインと比較して有意に向上させることがわかった。

Background: Accurate short-term readmission prediction of ICU patients is significant in improving the efficiency of resource assignment by assisting physicians in making discharge decisions. Clinically, both individual static static and multivariate temporal data collected from ICU monitors play critical roles in short-term readmission prediction. Informative static and multivariate temporal feature representation capturing and fusion present challenges for accurate readmission prediction. Methods:We propose a novel static and multivariate-temporal attentive fusion transformer (SMTAFormer) to predict short-term readmission of ICU patients by fully leveraging the potential of demographic and dynamic temporal data. In SMTAFormer, we first apply an MLP network and a temporal transformer network to learn useful static and temporal feature representations, respectively. Then, the well-designed static and multivariate temporal feature fusion module is applied to fuse static and temporal feature representations by modeling intra-correlation among multivariate temporal features and constructing inter-correlation between static and multivariate temporal features. Results: We construct a readmission risk assessment (RRA) dataset based on the MIMIC-III dataset. The extensive experiments show that SMTAFormer outperforms advanced methods, in which the accuracy of our proposed method is up to 86.6%, and the area under the receiver operating characteristic curve (AUC) is up to 0.717. Conclusion: Our proposed SMTAFormer can efficiently capture and fuse static and multivariate temporal feature representations. The results show that SMTAFormer significantly improves the short-term readmission prediction performance of ICU patients through comparisons to strong baselines.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# LLMによる慣性閉じ込め核融合予測

Inertial Confinement Fusion Forecasting via LLMs ( http://arxiv.org/abs/2407.11098v1 )

ライセンス: Link先を確認
Mingkai Chen, Taowen Wang, James Chenhao Liang, Chuan Liu, Chunshu Wu, Qifan Wang, Ying Nian Wu, Michael Huang, Chuang Ren, Ang Li, Tong Geng, Dongfang Liu, (参考訳) 制御された核融合エネルギーは、人類の文明の発展の鍵であると考えられている。 本研究では、慣性閉じ込め核融合(\texttt{ICF}$)の課題に対処するために、古典的な貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$\textbf{Fusion-LLM}$を紹介する。 まず、融合特異的なプロンプトを付加した$\textit{LLM-anchored Reservoir}$を提案し、インロジョン中のホット電子力学の正確な予測を可能にする。 次に、時空間的に時間にわたってレーザー強度を記述するために、$\textit{Signal-Digesting Channels}$を開発し、$\textt{ICF}$入力のユニークな特性をキャプチャする。 最後に、予測の信頼性レベルを定量化するために$\textit{Confidence Scanner}$を設計します。 CAE 1.90, 0.14 $\textt{top-1}$ MAE, 0.11 $\textt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies of $\texttt{ICF}$ task。 さらに、物理実験に基づく最初の$\texttt{ICF}$ベンチマークである$\textbf{Fusion4AI}$を提示し、プラズマ物理学研究における新しいアイデアの育成と科学探査におけるLCMの有用性の向上を目的としている。 全体として、我々の研究は核融合エネルギーを推し進めるために、AIとプラズマ科学の革新的なシナジーを築こうとしている。

Controlled fusion energy is deemed pivotal for the advancement of human civilization. In this study, we introduce $\textbf{Fusion-LLM}$, a novel integration of Large Language Models (LLMs) with classical reservoir computing paradigms tailored to address challenges in Inertial Confinement Fusion ($\texttt{ICF}$). Our approach offers several key contributions: Firstly, we propose the $\textit{LLM-anchored Reservoir}$, augmented with a fusion-specific prompt, enabling accurate forecasting of hot electron dynamics during implosion. Secondly, we develop $\textit{Signal-Digesting Channels}$ to temporally and spatially describe the laser intensity across time, capturing the unique characteristics of $\texttt{ICF}$ inputs. Lastly, we design the $\textit{Confidence Scanner}$ to quantify the confidence level in forecasting, providing valuable insights for domain experts to design the $\texttt{ICF}$ process. Extensive experiments demonstrate the superior performance of our method, achieving 1.90 CAE, 0.14 $\texttt{top-1}$ MAE, and 0.11 $\texttt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies of $\texttt{ICF}$ tasks, which presents state-of-the-art comparisons against concurrent best systems. Additionally, we present $\textbf{Fusion4AI}$, the first $\texttt{ICF}$ benchmark based on physical experiments, aimed at fostering novel ideas in plasma physics research and enhancing the utility of LLMs in scientific exploration. Overall, our work strives to forge an innovative synergy between AI and plasma science for advancing fusion energy.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# 大規模言語モデル透かしによるインテリジェンス同定システムの構築

Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond ( http://arxiv.org/abs/2407.11100v1 )

ライセンス: Link先を確認
Xuhong Wang, Haoyu Jiang, Yi Yu, Jingru Yu, Yilun Lin, Ping Yi, Yingchun Wang, Qiao Yu, Li Li, Fei-Yue Wang, (参考訳) 大規模言語モデル(LLM)は多種多様な産業に統合され、不正な複製と誤用により重大なセキュリティリスクが生じる。 これらの懸念を軽減するため、堅牢な識別メカニズムは効果的な戦略として広く認識されている。 LLMの識別システムは、知的財産を管理し保護し、データのセキュリティを確保するための透かし技術に大きく依存している。 しかし、従来の研究は主にアルゴリズムの基本原理に集中しており、知的識別の観点からの透かし理論と実践の包括的な分析を欠いていた。 このギャップを埋めるために、まず、ウォーターマーキング技術を用いて、様々な参加者がLLM内で堅牢なID認識システムを効果的に実装し、管理する方法を検討する。 第2に,より正確でカスタマイズされた透かしを実現するために識別プロセスを体系化する相互情報理論に基づく数学的枠組みを提案する。 さらに,LLM透かしの性能指標を総合的に評価し,選好を反映し,識別アプリケーションに関する議論を進める。 最後に、現在の透かし技術や理論フレームワークにおける既存の課題について概説し、これらの課題に対処するための方向性を示す。 我々の体系的な分類と詳細な展示は、様々な方法の比較と評価を強化し、透明でセキュアで公平なLLMエコシステムに向けたさらなる研究と開発を促進することを目的としている。

Large Large Language Models (LLMs) are increasingly integrated into diverse industries, posing substantial security risks due to unauthorized replication and misuse. To mitigate these concerns, robust identification mechanisms are widely acknowledged as an effective strategy. Identification systems for LLMs now rely heavily on watermarking technology to manage and protect intellectual property and ensure data security. However, previous studies have primarily concentrated on the basic principles of algorithms and lacked a comprehensive analysis of watermarking theory and practice from the perspective of intelligent identification. To bridge this gap, firstly, we explore how a robust identity recognition system can be effectively implemented and managed within LLMs by various participants using watermarking technology. Secondly, we propose a mathematical framework based on mutual information theory, which systematizes the identification process to achieve more precise and customized watermarking. Additionally, we present a comprehensive evaluation of performance metrics for LLM watermarking, reflecting participant preferences and advancing discussions on its identification applications. Lastly, we outline the existing challenges in current watermarking technologies and theoretical frameworks, and provide directional guidance to address these challenges. Our systematic classification and detailed exposition aim to enhance the comparison and evaluation of various methods, fostering further research and development toward a transparent, secure, and equitable LLM ecosystem.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# NLP誘導法による心電図信号解析の強化:埋め込みと自己注意による新しいアプローチ

Enhancing Electrocardiogram Signal Analysis Using NLP-Inspired Techniques: A Novel Approach with Embedding and Self-Attention ( http://arxiv.org/abs/2407.11102v1 )

ライセンス: Link先を確認
Prapti Ganguly, Wazib Ansar, Amlan Chakrabarti, (参考訳) 言語は無限/無限の数の文から成り、その文は複数の単語から成り立っている。 心電図(ECG)は、心臓機能の研究や不整脈の診断において最も一般的な非侵襲的医療ツールである。 ECGの直感的な検査は、ECG信号と音声言語との顕著な類似性を明らかにする。 結果として、ECG信号は一連のハートビート(話し言葉の文に似ている)とみなすことができ、それぞれのハートビートは異なる形態の波の集まり(文中の単語に似ている)で構成されている。 自然言語処理(NLP)が人間の自然言語の理解と解釈を助けるのと同じように、コンピュータが心電図データをより効率的に理解するために、NLPにインスパイアされたアルゴリズムを作成することができる。 本研究では,埋め込みと自己注意に基づく新しい心電図解析手法を提案し,心電図データの空間的および時間的依存性を捉える。 埋め込みを生成するために,ECG信号の時間依存性を捕捉し,データ圧縮を行うエンコーダデコーダネットワークを提案した。 圧縮および符号化されたデータは、その重みとして埋め込み層に供給された。 最後に、提案したCNN-LSTM-Self Attention分類器は埋め込み層上で動作し、信号は正常または異常に分類する。 このアプローチは、非常に不均衡なTB-xlデータセットを用いてテストされた。 本研究の目的は,偽陰性症例の発見を制限するため,少数派の病種を適切に認識することであった。 91%の精度でF1スコアが得られた。 さらに、圧縮によりモデルのサイズが34%削減され、リアルタイムアプリケーションへのデプロイに適している。

A language is made up of an infinite/finite number of sentences, which in turn is composed of a number of words. The Electrocardiogram (ECG) is the most popular noninvasive medical tool for studying heart function and diagnosing various irregular cardiac rhythms. Intuitive inspection of the ECG reveals a marked similarity between ECG signals and the spoken language. As a result, the ECG signal may be thought of as a series of heartbeats (similar to sentences in a spoken language), with each heartbeat consisting of a collection of waves (similar to words in a sentence) with varying morphologies. Just as natural language processing (NLP) is used to help computers comprehend and interpret human natural language, it is conceivable to create NLP-inspired algorithms to help computers comprehend the electrocardiogram data more efficiently. In this study, we propose a novel ECG analysis technique, based on embedding and self attention, to capture the spatial as well as the temporal dependencies of the ECG data. To generate the embedding, an encoder-decoder network was proposed to capture the temporal dependencies of the ECG signal and perform data compression. The compressed and encoded data was fed to the embedding layer as its weights. Finally, the proposed CNN-LSTM-Self Attention classifier works on the embedding layer and classifies the signal as normal or anomalous. The approach was tested using the PTB-xl dataset, which is severely imbalanced. Our emphasis was to appropriately recognise the disease classes present in minority numbers, in order to limit the detection of False Negative cases. An accuracy of 91% was achieved with a good F1-score for all the disease classes. Additionally, the the size of the model was reduced by 34% due to compression, making it suitable for deployment in real time applications
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# PlayMolecule pKAce:等変ニューラルネットワークによる小分子プロトン化

PlayMolecule pKAce: Small Molecule Protonation through Equivariant Neural Networks ( http://arxiv.org/abs/2407.11103v1 )

ライセンス: Link先を確認
Nikolai Schapin, Maciej Majewski, Mariona Torrens-Fontanals, Gianni De Fabritiis, (参考訳) 小分子プロトン化は、様々な種類の計算化学プロトコルのための小分子の調製において重要な部分である。 そのため、分子のプロトン化部位のpKa値を正しく推定する必要がある。 本研究では,分子のプロトン化部位のマイクロpKa値の予測のための新しいWebアプリケーションpKAceを提案する。 我々は、もともと量子力学エネルギーと力による予測のために開発されたTensorNetモデルを、マイクロpKa値の予測に適用する。 このモデルの適応バージョンは、トレーニングデータのごく一部をトレーニングしながら、確立したモデルに匹敵する最先端のパフォーマンスを達成できることを示す。

Small molecule protonation is an important part of the preparation of small molecules for many types of computational chemistry protocols. For this, a correct estimation of the pKa values of the protonation sites of molecules is required. In this work, we present pKAce, a new web application for the prediction of micro-pKa values of the molecules' protonation sites. We adapt the state-of-the-art, equivariant, TensorNet model originally developed for quantum mechanics energy and force predictions to the prediction of micro-pKa values. We show that an adapted version of this model can achieve state-of-the-art performance comparable with established models while trained on just a fraction of their training data.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# 製品デザイン概念における深部生成モデルの可能性と課題

Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception ( http://arxiv.org/abs/2407.11104v1 )

ライセンス: Link先を確認
Phillip Mueller, Lars Mikelsons, (参考訳) 製品設計の概念の合成は、伝統的に複雑な学際的課題を呈する技術製品の初期段階の開発プロセスの要点である。 ディープラーニング手法、特にDeep Generative Models(DGM)の適用は、手動イテレーションの自動化と合理化を約束し、イノベーションと効率の向上をもたらす。 しかし、DGMは製品設計概念の合成に広く採用されていない。 本稿では,この制限されたアプリケーションの背後にある理由を考察し,これらの技術の統合を成功させるために必要な要件を導出することを目的とする。 DGM-families (VAE, GAN, Diffusion, Transformer, Radiance Field) を系統的に解析し, その強度, 弱点, 製品設計概念の適用性について検討した。 我々の目標は、エンジニアが意思決定プロセスを簡単にし、特定の課題に対してどの方法が最も効果的かを決定するのに役立つ洞察を提供することです。 この領域の急速な進化を認識し、我々の分析が根本的な理解に寄与し、実践者が最も有望なアプローチに導くことを願っている。 この作業は、現在の課題を照明するだけでなく、潜在的な解決策を提案することを目的としており、製品デザイン概念の領域でDGMを活用するための明確なロードマップを提供する。

The synthesis of product design concepts stands at the crux of early-phase development processes for technical products, traditionally posing an intricate interdisciplinary challenge. The application of deep learning methods, particularly Deep Generative Models (DGMs), holds the promise of automating and streamlining manual iterations and therefore introducing heightened levels of innovation and efficiency. However, DGMs have yet to be widely adopted into the synthesis of product design concepts. This paper aims to explore the reasons behind this limited application and derive the requirements for successful integration of these technologies. We systematically analyze DGM-families (VAE, GAN, Diffusion, Transformer, Radiance Field), assessing their strengths, weaknesses, and general applicability for product design conception. Our objective is to provide insights that simplify the decision-making process for engineers, helping them determine which method might be most effective for their specific challenges. Recognizing the rapid evolution of this field, we hope that our analysis contributes to a fundamental understanding and guides practitioners towards the most promising approaches. This work seeks not only to illuminate current challenges but also to propose potential solutions, thereby offering a clear roadmap for leveraging DGMs in the realm of product design conception.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# 侵入検知システムに適用した機械学習モデルの性能に及ぼすデータ前処理とハイパーパラメータ最適化の影響

Impacts of Data Preprocessing and Hyperparameter Optimization on the Performance of Machine Learning Models Applied to Intrusion Detection Systems ( http://arxiv.org/abs/2407.11105v1 )

ライセンス: Link先を確認
Mateus Guimarães Lima, Antony Carvalho, João Gabriel Álvares, Clayton Escouper das Chagas, Ronaldo Ribeiro Goldschmidt, (参考訳) 現代の通信ネットワークのサイバーセキュリティの文脈では、侵入検知システム(IDS)が継続的に改善され、脅威を特定するために機械学習(ML)技術が取り入れられている。 IDSに適用されたこれらの技術の研究に焦点をあてた研究もあるが、現状の不足は、脅威識別モデルの構築において、データ前処理動作の影響評価とMLアルゴリズムのハイパーパラメータ値の最適化にのみ集中している。 本稿では,この研究ギャップを埋める研究について述べる。 そのため、2つのデータセットを用いて実験を行い、攻撃シナリオと前処理手法のバリエーションを比較し、ハイパーパラメーターの最適化を行った。 その結果、これらの手法の適切な適用は、一般的に、生成された分類モデルをより堅牢にし、これらのモデルのトレーニングおよびテストプロセスの実行時間を大幅に短縮することを確認した。

In the context of cybersecurity of modern communications networks, Intrusion Detection Systems (IDS) have been continuously improved, many of them incorporating machine learning (ML) techniques to identify threats. Although there are researches focused on the study of these techniques applied to IDS, the state-of-the-art lacks works concentrated exclusively on the evaluation of the impacts of data pre-processing actions and the optimization of the values of the hyperparameters of the ML algorithms in the construction of the models of threat identification. This article aims to present a study that fills this research gap. For that, experiments were carried out with two data sets, comparing attack scenarios with variations of pre-processing techniques and optimization of hyperparameters. The results confirm that the proper application of these techniques, in general, makes the generated classification models more robust and greatly reduces the execution times of these models' training and testing processes.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# ガーバーのソファのグローバル最適性に関する深層学習エビデンス

Deep Learning Evidence for Global Optimality of Gerver's Sofa ( http://arxiv.org/abs/2407.11106v1 )

ライセンス: Link先を確認
Kuangdai Leng, Jia Bi, Jaehoon Cha, Samuel Pinilla, Jeyan Thiyagalingam, (参考訳) 1966年にレオ・モーサー(Leo Moser)によって提唱された移動ソファー問題(Moving Sofa Problem)は、単位幅が$L$の廊下を航行できる2次元形状の最大の領域を決定することを目的としている。 現在の最高下界は約 2.2195 であり、1992年にジョゼフ・ガーバーによって達成されたが、その大域的最適性は証明されていない。 本稿では,ニューラルネットワークの普遍近似強度と計算効率を利用して,この問題を考察する。 我々は2つのアプローチを報告し、どちらもガーバーが彼の形状が一意な大域的最大値であるという予想を支持している。 最初のアプローチは継続的関数学習です。 我々はガーバーの仮定を捨てる 一 回廊の回転が単調で対称であること。 二 回転の関数としての角の軌道が連続的に微分可能であること。 独立系線形ニューラルネットワークによる回転と軌道のパラメータ化を行い(入力は擬似時間)、後方回転や純粋翻訳のようなリッチな動きを可能にする。 そこで我々は,我々の「ウォーターフォール」アルゴリズムを用いて,ソファ領域を回転と軌道の微分可能な関数として計算する。 最終損失関数には差分項と初期条件が含まれており、物理インフォームド機械学習の原理を活用できる。 このような条件下では、多様な関数の初期化とハイパーパラメータから始まる広範なトレーニングが行われ、例外なくガーバーの解への迅速な収束を示す。 第2のアプローチは、回転角が増加するにつれて、上から最大ソファ領域に収束するカラス・ロミク上界の離散的な最適化によるものである。 私たちはこの数字を10000に引き上げて、その漸近的な振る舞いを明らかにします。 モデルによって得られる上限はガーバーの領域に収束する(角度の数が 2100 に達すると誤差は 0.01% になる)。 また、5角上界も2.37から2.3337に改善した。

The Moving Sofa Problem, formally proposed by Leo Moser in 1966, seeks to determine the largest area of a two-dimensional shape that can navigate through an $L$-shaped corridor with unit width. The current best lower bound is about 2.2195, achieved by Joseph Gerver in 1992, though its global optimality remains unproven. In this paper, we investigate this problem by leveraging the universal approximation strength and computational efficiency of neural networks. We report two approaches, both supporting Gerver's conjecture that his shape is the unique global maximum. Our first approach is continuous function learning. We drop Gerver's assumptions that i) the rotation of the corridor is monotonic and symmetric and, ii) the trajectory of its corner as a function of rotation is continuously differentiable. We parameterize rotation and trajectory by independent piecewise linear neural networks (with input being some pseudo time), allowing for rich movements such as backward rotation and pure translation. We then compute the sofa area as a differentiable function of rotation and trajectory using our "waterfall" algorithm. Our final loss function includes differential terms and initial conditions, leveraging the principles of physics-informed machine learning. Under such settings, extensive training starting from diverse function initialization and hyperparameters is conducted, unexceptionally showing rapid convergence to Gerver's solution. Our second approach is via discrete optimization of the Kallus-Romik upper bound, which converges to the maximum sofa area from above as the number of rotation angles increases. We uplift this number to 10000 to reveal its asymptotic behavior. It turns out that the upper bound yielded by our models does converge to Gerver's area (within an error of 0.01% when the number of angles reaches 2100). We also improve their five-angle upper bound from 2.37 to 2.3337.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# ロボット制御作業のための潜在線形二次レギュレータ

Latent Linear Quadratic Regulator for Robotic Control Tasks ( http://arxiv.org/abs/2407.11107v1 )

ライセンス: Link先を確認
Yuan Zhang, Shaohui Yang, Toshiyuki Ohtsuka, Colin Jones, Joschka Boedecker, (参考訳) モデル予測制御(MPC)は、様々なロボット制御タスクにおいてより重要な役割を担っているが、その高い計算要求は特に非線形力学モデルにおいて関係している。 本稿では、状態空間を潜在空間にマッピングする$\textbf{la}$tent $\textbf{l}$inear $\textbf{q}$uadratic $\textbf{r}$egulator (LaLQR)を提案する。 我々は、オリジナルのMPCを模倣して、この代替システムを共同で学習する。 実験では、LaLQRの他のベースラインに比べて効率と一般化が優れていることが示された。

Model predictive control (MPC) has played a more crucial role in various robotic control tasks, but its high computational requirements are concerning, especially for nonlinear dynamical models. This paper presents a $\textbf{la}$tent $\textbf{l}$inear $\textbf{q}$uadratic $\textbf{r}$egulator (LaLQR) that maps the state space into a latent space, on which the dynamical model is linear and the cost function is quadratic, allowing the efficient application of LQR. We jointly learn this alternative system by imitating the original MPC. Experiments show LaLQR's superior efficiency and generalization compared to other baselines.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# SSSD-ECG-nle:ECG生成のための構造化状態空間モデルを用いた新しいラベル埋め込み

SSSD-ECG-nle: New Label Embeddings with Structured State-Space Models for ECG generation ( http://arxiv.org/abs/2407.11108v1 )

ライセンス: Link先を確認
Sergey Skorik, Aram Avetisyan, (参考訳) 心電図(ECG)は、心臓疾患の診断に不可欠であり、心臓の状態を診断し、潜在的な救命治療を知らせるための重要な洞察を提供する。 しかし、他のタイプの医療データと同様に、ECGは分散分析の際にプライバシー上の懸念にさらされる。 拡散モデルは近年大きく進歩し、実際のデータに匹敵するデータを合成し、プライバシの懸念なしに広く採用する可能性を生み出している。 本稿では, 状態空間が構造化された拡散モデルを用いて, ディジタル10秒12リードECG信号を生成する。 本稿では,SSSD-ECGに基づくSSSD-ECG-nleアーキテクチャを提案する。 我々は,収束速度の分析,陽性サンプルの追加の影響,医師の専門知識による評価など,定量的,質的な評価を行う。 最後に, 医師評価の結果を共有し, 実験結果の再現性を確保するために, 合成データを利用できるようにした。

An electrocardiogram (ECG) is vital for identifying cardiac diseases, offering crucial insights for diagnosing heart conditions and informing potentially life-saving treatments. However, like other types of medical data, ECGs are subject to privacy concerns when distributed and analyzed. Diffusion models have made significant progress in recent years, creating the possibility for synthesizing data comparable to the real one and allowing their widespread adoption without privacy concerns. In this paper, we use diffusion models with structured state spaces for generating digital 10-second 12-lead ECG signals. We propose the SSSD-ECG-nle architecture based on SSSD-ECG with a modified conditioning mechanism and demonstrate its efficiency on downstream tasks. We conduct quantitative and qualitative evaluations, including analyzing convergence speed, the impact of adding positive samples, and assessment with physicians' expert knowledge. Finally, we share the results of physician evaluations and also make synthetic data available to ensure the reproducibility of the experiments described.
翻訳日:2024-07-17 19:50:52 公開日:2024-07-15
# ニュートラル原子量子ビットのスケーラブルネットワーク:ナノファイバーによるマルチプロセッサフォールトトレラント量子コンピュータへのアプローチ

Scalable Networking of Neutral-Atom Qubits: Nanofiber-Based Approach for Multiprocessor Fault-Tolerant Quantum Computer ( http://arxiv.org/abs/2407.11111v1 )

ライセンス: Link先を確認
Shinichi Sunami, Shiro Tamiya, Ryotaro Inoue, Hayata Yamasaki, Akihisa Goban, (参考訳) ニュートラル原子は、フォールトトレラント量子計算(FTQC)の実現に向けた主要なプラットフォームの一つである。 しかし、FTQCの要求を満たすために、$\sim 10^4$の原子を超える単一の中性原子デバイスをスケールアップすることは、依然として課題である。 この課題を克服するために、光ネットワークリンクを介して接続された複数の中性原子量子処理ユニット(QPU)に基づいて、さらなるスケーリングの基準と技術要件を明らかにする。 我々の定量分析によると、ナノファイバー光学キャビティは、異なる中性原子モジュール内の原子間の高速な絡み合いを可能とし、計算速度を犠牲にすることなく複数の中性原子QPUを協調的に動作させることができる、効率的な原子-光子界面としての可能性を持っている。 最先端のミリスケールのナノファイバーキャビティと数千の微細さで、100以上の原子を光ツイーザーアレイでキャビティモードに結合することができ、イッテルビウム原子のテレコムバンド遷移には100以上の単原子協調性が期待できる。 これにより、チャネル多重化のための小さなフットプリントを維持しつつ、予測されるベル対生成速度100kHzの効率的な時間多重絡み合わせ生成が可能となる。 これらの提案と結果は、中性原子、ナノファイバー光学キャビティ、光ファイバーネットワークを用いた大規模マルチプロセッサフォールトトレラント量子コンピュータを構築するための有望な経路であることを示している。

Neutral atoms are among the leading platforms toward realizing fault-tolerant quantum computation (FTQC). However, scaling up a single neutral-atom device beyond $\sim 10^4$ atoms to meet the demands of FTQC for practical applications remains a challenge. To overcome this challenge, we clarify the criteria and technological requirements for further scaling based on multiple neutral atom quantum processing units (QPUs) connected through photonic networking links. Our quantitative analysis shows that nanofiber optical cavities have the potential as an efficient atom-photon interface to enable fast entanglement generation between atoms in distinct neutral-atom modules, allowing multiple neutral-atom QPUs to operate cooperatively without sacrificing computational speed. Using state-of-the-art millimeter-scale nanofiber cavities with the finesse of thousands, over a hundred atoms can be coupled to the cavity mode with an optical tweezer array, with expected single-atom cooperativity exceeding 100 for telecom-band transition of ytterbium atoms. This enables efficient time-multiplexed entanglement generation with a predicted Bell pair generation rate of 100 kHz while maintaining a small footprint for channel multiplexing. These proposals and results indicate a promising pathway for building large-scale multiprocessor fault-tolerant quantum computers using neutral atoms, nanofiber optical cavities, and fiber-optic networks.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 原子サブ波長アレイにおける動的光誘起双極子力による不純物の2次元運動

Two-dimensional motion of an impurity under dynamic light-induced dipole forces in an atomic subwavelength array ( http://arxiv.org/abs/2407.11113v1 )

ライセンス: Link先を確認
Samuel Buckley-Bonanno, Stefan Ostermann, Yidan Wang, Susanne F. Yelin, (参考訳) 量子エミッタのサブ波長アレイにおける長距離双極子-双極子相互作用は、光子再コイルによるエミッタへの力を与える仮想光子交換プロセスを含む。 パラメータの異なるサブ波長の原子配列を自由に移動できる不純物の力学を半古典的に解析する。 この系で実現可能な不純物軌道を解明するために、運動度とスピン度を結合した方程式を数値的に解く。 不純物はプラケット内の準安定軌道を長時間維持できる。 これらの軌道が通過する領域は、選択された原子遷移双極子モーメントに強く依存する。 さらに, 格子力学を断熱的に除去する単純化されたモデルに基づいて, 解析結果の直感を与える。 解析の最終点として、格子原子の運動自由度を考慮に入れ、不純物による格子の運動状態に誘起されるポーラロン様励起を研究する。

Long-range dipole-dipole interactions in subwavelength arrays of quantum emitters involve virtual photon exchange processes that impart forces on the emitters due to the imposed photon recoil. We perform a semi-classical analysis of the dynamics of an impurity allowed to freely move through a subwavelength array of atoms in different parameter regimes. We numerically solve the coupled set of equations between motional and spin degrees of freedom to elucidate the possible impurity trajectories realizable in this system. We find that the impurity can maintain quasi-stable orbits within the plaquette for long times. The regions through which these orbits pass are strongly dependent on the chosen atomic transition dipole moment. We further provide intuition for our findings based on a simplified model, where the lattice dynamics is adiabatically eliminated. As a final point of analysis, we also take the motional degrees of freedom of the lattice atoms into account, and study the polaron-like excitation induced in the kinetic state of the lattice by the impurity.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 三角形ビリヤードのカオスと可積分性

Chaos and integrability in triangular billiards ( http://arxiv.org/abs/2407.11114v1 )

ライセンス: Link先を確認
Vijay Balasubramanian, Rathindra Nath Das, Johanna Erdmenger, Zhuo-Yu Xian, (参考訳) 三角ビリヤードにおける量子力学を,(1)レベルスペーシング比(LSR),(2)スペクトル複雑性(SC),(3)ランツォス係数の分散,(4)エネルギー固有状態のKrylov基底での局在,(5)拡散複雑性の動的成長の5つの性質で特徴づける。 私たちが研究したビリヤードは、古典的軌跡の性質と関連する量子スペクトル統計量を決定する内部角度によって、積分可能、擬積分可能、あるいは非可積分に分類される。 積分可能から非可積分三角形への移行時に一貫した図が現れる: (1) LSRs は増加し、(2) スペクトル複雑性の増大は遅くなり、(3) ランチョス係数の分散は減少し、(4) エネルギー固有状態はクリロフ基底で非局在化し、(5) 複雑さが拡大し、繰り返しではなく高原のピークが現れる。 擬可積分三角形は、これらの性質が非可積分なものからわずかに逸脱し、ガウス直交アンサンブル (GOE) から近似モデルが導かれる。 イソスセル擬可積分かつ非可積分三角形は、反射対称性の下で対称で反対称な独立セクターを持つ。 これらのセクターは、ポアソン分布スペクトルと積分可能な理論から期待される特性を近似しながらも、GOEの特性を別々に再現する。

We characterize quantum dynamics in triangular billiards in terms of five properties: (1) the level spacing ratio (LSR), (2) spectral complexity (SC), (3) Lanczos coefficient variance, (4) energy eigenstate localisation in the Krylov basis, and (5) dynamical growth of spread complexity. The billiards we study are classified as integrable, pseudointegrable or non-integrable, depending on their internal angles which determine properties of classical trajectories and associated quantum spectral statistics. A consistent picture emerges when transitioning from integrable to non-integrable triangles: (1) LSRs increase; (2) spectral complexity growth slows down; (3) Lanczos coefficient variances decrease; (4) energy eigenstates delocalize in the Krylov basis; and (5) spread complexity increases, displaying a peak prior to a plateau instead of recurrences. Pseudo-integrable triangles deviate by a small amount in these charactertistics from non-integrable ones, which in turn approximate models from the Gaussian Orthogonal Ensemble (GOE). Isosceles pseudointegrable and non-integrable triangles have independent sectors that are symmetric and antisymmetric under a reflection symmetry. These sectors separately reproduce characteristics of the GOE, even though the combined system approximates characteristics expected from integrable theories with Poisson distributed spectra.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 古典量子チャネルの誤差指数のタイト下界

Tight lower bound on the error exponent of classical-quantum channels ( http://arxiv.org/abs/2407.11118v1 )

ライセンス: Link先を確認
Joseph M. Renes, (参考訳) 古典的あるいは量子的シャノン理論の基本的な関心事は、与えられたチャネル$W$とレート$R$の誤差指数である:定数$E(W,R)$は、与えられたチャネル$W$のより大きい(メモリレス)インスタンスを通信するために、固定レート$R$のより大きい最適なコードを使用するとき、デコードエラーの指数関数的減衰を制御している。 ほぼ一致する下界と上界は古典的なチャンネルでよく知られている。 ここでは、Dalaiの球充填上界(IEEE TIT 59, 8027 (2013))と一致する任意の古典量子チャネル(CQ)上の通信の誤差指数の低い値を示す。 しかし、古典的な場合とは異なり、この議論は適切なデコーダの洗練された分析によって進行せず、代わりに、プライバシー増幅の暗号タスク(CMP 333, 335 (2015))のエラー指数に対する林の制約を利用する。 この境界は、厳密なエントロピー不確実性関係と、任意のチャネルに対するキャパシティチェックコードを構築するギャラガーの方法による符号化問題と関係している。 その過程で、Cheng et al [IEEE TIT 67, 902 (2021)] の球充填上界と一致する量子側情報に対して、古典情報の圧縮タスクの誤差指数の低い値を求める。 逆に、Chengらによって発見された球充填境界に対する多項式プレファクタは、少なくとも線形ランダム性抽出器において、Li、Yao、Haashi(IEEE TIT 69, 1680 (2023))による最近の結果のシャープ化により、プライバシー増幅問題に変換される可能性がある。

A fundamental quantity of interest in Shannon theory, classical or quantum, is the error exponent of a given channel $W$ and rate $R$: the constant $E(W,R)$ which governs the exponential decay of decoding error when using ever larger optimal codes of fixed rate $R$ to communicate over ever more (memoryless) instances of a given channel $W$. Nearly matching lower and upper bounds are well-known for classical channels. Here I show a lower bound on the error exponent of communication over arbitrary classical-quantum (CQ) channels which matches Dalai's sphere-packing upper bound [IEEE TIT 59, 8027 (2013)] for rates above a critical value, exactly analogous to the case of classical channels. Unlike the classical case, however, the argument does not proceed via a refined analysis of a suitable decoder, but instead by leveraging a bound by Hayashi on the error exponent of the cryptographic task of privacy amplification [CMP 333, 335 (2015)]. This bound is then related to the coding problem via tight entropic uncertainty relations and Gallager's method of constructing capacity-achieving parity-check codes for arbitrary channels. Along the way, I find a lower bound on the error exponent of the task of compression of classical information relative to quantum side information that matches the sphere-packing upper bound of Cheng et al. [IEEE TIT 67, 902 (2021)]. In turn, the polynomial prefactors to the sphere-packing bound found by Cheng et al. may be translated to the privacy amplification problem, sharpening a recent result by Li, Yao, and Hayashi [IEEE TIT 69, 1680 (2023)], at least for linear randomness extractors.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 複合フェルミオンの非フェルミ液体におけるエンタンジメントスケーリングと領域-法則電荷ゆらぎの増大

Enhanced entanglement scaling and area-law charge fluctuations in a non-Fermi liquid of composite fermions ( http://arxiv.org/abs/2407.11119v1 )

ライセンス: Link先を確認
Cristian Voinea, Songyang Pu, Ajit C. Balram, Zlatko Papić, (参考訳) ランダウ準位が$\nu{=}1/2$の合成フェルミ液体(CFL)状態は、クーロン相互作用によって純粋に放出される非フェルミ液体のパラダイム的な例である。 しかし、このエキゾチックな物質状態は、フェルミ液体とどう違うのか? CFL状態の絡み合いエントロピーは、自由電子 (Shao et al , Phys. Rev. Lett. 114, 206402 (2015)) と比較して顕著に増強され、格子状CFLアナログ (Mishmash and Motrunich, Phys. B 94, 081110 (2016)) の研究により有限サイズ効果として除外された。 さらに、クーロン基底状態の準1次元極限は、$\nu{=}1/2$[Geraedts et al , Science 352, 197 (2016)]では観測されなかった。 ここでは,2次元連続体システムで実現されたCFL状態における絡み合いスケーリングの問題を再考する。 CFL変動波動関数に対する第二R\enyiエントロピー$S_2$のモンテカルロ評価を用いて、エンタングルメント拡張は、$\nu{=}1/2$だけでなく、$\nu{=}1/4$でもあり、$\nu{=}1$と$\nu{=}1/3$でボソニックCFL状態においても存在することを示す。 いずれの場合も、サブシステムサイズを持つ$S_2$のスケーリングは、非相互作用ケースと比較して拡張され、ローダウレベルへの幾何と射影の選択に敏感である。 また、サブシステムにおける粒子数のばらつきは、自由フェルミオンとは対照的に、普遍的なサブリーディングコーナーコントリビューションによる領域法則スケーリングに従うことを示した。 その結果, CFL状態における非Fermi-液性相関の指紋として, 絡み合いの増大と電荷変動の抑制が確認された。

The composite fermion Fermi liquid (CFL) state at $\nu{=}1/2$ filling of a Landau level is a paradigmatic example of a non-Fermi liquid borne out purely by Coulomb interactions. But in what ways is this exotic state of matter precisely different from a Fermi liquid? The entanglement entropy of the CFL state was indeed found to exhibit a significant enhancement compared to free electrons [Shao et al., Phys. Rev. Lett. 114, 206402 (2015)], which was subsequently ruled out as a finite-size effect by the study of a lattice CFL analogue [Mishmash and Motrunich, Phys. Rev. B 94, 081110 (2016)]. Moreover, the enhancement was not observed in a quasi-one-dimensional limit of the Coulomb ground state at $\nu{=}1/2$ [Geraedts et al., Science 352, 197 (2016)]. Here, we revisit the problem of entanglement scaling in the CFL state realized in a two-dimensional continuum system. Using Monte Carlo evaluation of the second R\'enyi entropy $S_2$ for the CFL variational wave function, we show that the entanglement enhancement is present not only at $\nu{=}1/2$ but also at $\nu{=}1/4$, as well as in bosonic CFL states at $\nu{=}1$ and $\nu{=}1/3$ fillings. In all cases, we find the scaling of $S_2$ with subsystem size to be enhanced compared to the non-interacting case, and insensitive to the choice of geometry and projection to the lowest Landau level. We also demonstrate that the variance of the particle number in a subsystem obeys area-law scaling with a universal subleading corner contribution, in stark contrast with free fermions. Our results establish the enhanced entanglement scaling and suppressed charge fluctuations as fingerprints of non-Fermi-liquid correlations in the CFL state.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 逆ロバスト視覚言語モデルに向けて:デザイン選択とプロンプトフォーマッティング技術から

Towards Adversarially Robust Vision-Language Models: Insights from Design Choices and Prompt Formatting Techniques ( http://arxiv.org/abs/2407.11121v1 )

ライセンス: Link先を確認
Rishika Bhagwatkar, Shravan Nayak, Reza Bayat, Alexis Roger, Daniel Z Kaplan, Pouya Bashivan, Irina Rish, (参考訳) VLM(Vision-Language Models)は、研究と現実世界の両方の応用が急増しているのを目撃している。 しかし、ますます普及するにつれて、敵の攻撃に対する頑強さが最重要視されている。 本研究は,画像ベース攻撃に対するVLMの対角的ロバスト性に対するモデル設計選択の影響を系統的に検討する。 さらに,プロンプトフォーマッティングによるロバスト性向上のための,新規で費用対効果の高いアプローチを提案する。 質問をリフレッシュし、潜在的な敵対的摂動を示唆することにより、Auto-PGDのような強力な画像ベース攻撃に対するモデルロバスト性を大幅に改善することを示す。 本研究は,より堅牢なVLMの開発,特に安全クリティカル環境への展開のための重要なガイドラインを提供する。

Vision-Language Models (VLMs) have witnessed a surge in both research and real-world applications. However, as they are becoming increasingly prevalent, ensuring their robustness against adversarial attacks is paramount. This work systematically investigates the impact of model design choices on the adversarial robustness of VLMs against image-based attacks. Additionally, we introduce novel, cost-effective approaches to enhance robustness through prompt formatting. By rephrasing questions and suggesting potential adversarial perturbations, we demonstrate substantial improvements in model robustness against strong image-based attacks such as Auto-PGD. Our findings provide important guidelines for developing more robust VLMs, particularly for deployment in safety-critical environments.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# ネットワークにおける量子コヒーレンス

Quantum coherence in networks ( http://arxiv.org/abs/2407.11122v1 )

ライセンス: Link先を確認
Fatemeh Bibak, Flavio Del Santo, Borivoje Dakić, (参考訳) 量子情報の観点からは、量子実験における量子コヒーレンスを検証するには、通常、測定設定を調整するか入力を変更する必要がある。 パラダイム的な例として、スクリーン上の干渉パターンを観察する二重スリット実験があり、一方、もう一方、および両方のスリットがあいまいに開き、量子コヒーレンスを証明している。 ここでは、入力を必要とせずに、ネットワークシナリオにおける量子コヒーレンスを検証する必要はないことを示す。 本研究では,従来の資源では再現できない独立した情報源を持つ三角ネットワーク上に,三者共同結果の確率分布が存在することを示す。 さらに、この結果を$n$のパーティネットワークに一般化し、古典的ネットワークと量子的ネットワークの相関関係の相違がパーティ数とともに増加することを示す。 この目的のために、古典的相関によって満たされる非線形不等式を導出し、それらに反する量子状態を見つける。

From a quantum information perspective, verifying quantum coherence in a quantum experiment typically requires adjusting measurement settings or changing inputs. A paradigmatic example is that of a double-slit experiment, where observing the interference pattern on the screen in a series of experimental settings where one, the other, and both slits are open unambiguously proves quantum coherence. Here we show that this is not necessary by verifying quantum coherence in a network scenario without the need for inputs. We show that there exist probability distributions for joint outcomes of three parties in a triangular network with independent sources that cannot be replicated using classical resources. Furthermore, we generalize our results to $n$-party networks and show that the discrepancy between correlations in classical and quantum networks increases with the number of parties. To this end, we derive nonlinear inequalities that are satisfied by classical correlations and find quantum states that violate them.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 開量子系に対する時間対称相関

Time-symmetric correlations for open quantum systems ( http://arxiv.org/abs/2407.11123v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat, James Fullwood, (参考訳) 二コトミック・オブザーバブルの逐次測定の2回の期待値は、閉量子系において時間対称であることが知られている。 すなわち、系が二コトミックオブザーバの逐次測定の間に一元的に進化すると、$\langle\mathscr{O}_{A}\,,\mathscr{O}_{B}\rangle=\langle\mathscr{O}_{B}\,,\mathscr{O}_{B}\,,\mathscr{O}_{A}\rangle$,\mathscr{O}_{A}\,\mathscr{O}_{A}\,\mathscr{O}_{B}\rangle$は、$\mathscr{O}_{B}\,\mathscr{O}_{A}\,\mathscr{O}_{B}\rangle$である。 本研究では,開量子系と関連する2時間予測値に対して,量子ベイズ則が時間対称性を示すことを示す。 このような結果は、オープン量子システムに関連するプロセス -- 環境への情報を失う可能性がある -- が、いかなる操作的意味でも可逆的ではないという見解とは対照的である。 本稿では, 振幅減衰チャネルに対する時間対称相関の例を示すとともに, 実験による理論的予測の妥当性検証のための実験的プロトコルを提案する。

Two-time expectation values of sequential measurements of dichotomic observables are known to be time symmetric for closed quantum systems. Namely, if a system evolves unitarily between sequential measurements of dichotomic observables $\mathscr{O}_{A}$ followed by $\mathscr{O}_{B}$, then it necessarily follows that $\langle\mathscr{O}_{A}\,,\mathscr{O}_{B}\rangle=\langle\mathscr{O}_{B}\,,\mathscr{O}_{A}\rangle$, where $\langle\mathscr{O}_{A}\,,\mathscr{O}_{B}\rangle$ is the two-time expectation value corresponding to the product of the measurement outcomes of $\mathscr{O}_{A}$ followed by $\mathscr{O}_{B}$, and $\langle\mathscr{O}_{B}\,,\mathscr{O}_{A}\rangle$ is the two-time expectation value associated with the time reversal of the unitary dynamics, where a measurement of $\mathscr{O}_{B}$ precedes a measurement of $\mathscr{O}_{A}$. In this work, we show that a quantum Bayes' rule implies a time symmetry for two-time expectation values associated with open quantum systems, which evolve according to a general quantum channel between measurements. Such results are in contrast with the view that processes associated with open quantum systems -- which may lose information to their environment -- are not reversible in any operational sense. We give an example of such time-symmetric correlations for the amplitude-damping channel, and we propose an experimental protocol for the potential verification of the theoretical predictions associated with our results.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 多部交絡用モジュラーコンピュレータの幾何学的付加性

Geometric additivity of modular commutator for multipartite entanglement ( http://arxiv.org/abs/2407.11130v1 )

ライセンス: Link先を確認
Sung-Min Park, Isaac H. Kim, Eun-Gook Moon, (参考訳) 最近の多体量子絡み合いの研究で、量子多体系の興味深い性質が明らかになった。 主な例としてモジュラー可換作用素があり、単一の波動関数から位相不変量を取り出すことができる。 ここでは,2次元ギャップ量子多体系のモジュラー共振器による多体絡みの新たな幾何学的性質を明らかにする。 モジュラー可換器の幾何学的加法性は、多部系に対するモジュラー可換器が三部系に対する可換作用素の整数倍であることを示す。 加法式を用いて、ある種の共形場理論のクラスにおいて、不連結区間を含むモジュラー可換作用素に対して興味深い恒等式を導出する。 さらに、Haldaneモデルと$\pi$-fluxモデルの数値計算を用いて、バルクサブシステムとエッジサブシステムの両方に対してこの幾何学的付加性を説明する。

A recent surge of research in many-body quantum entanglement has uncovered intriguing properties of quantum many-body systems. A prime example is the modular commutator, which can extract a topological invariant from a single wave function. Here, we unveil novel geometric properties of many-body entanglement via a modular commutator of two-dimensional gapped quantum many-body systems. We obtain the geometric additivity of a modular commutator, indicating that modular commutator for a multipartite system may be an integer multiple of the one for tripartite systems. Using our additivity formula, we also derive a curious identity for the modular commutators involving disconnected intervals in a certain class of conformal field theories. We further illustrate this geometric additivity for both bulk and edge subsystems using numerical calculations of the Haldane and $\pi$-flux models.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 量子核幾何学と重力

Quantum Null Geometry and Gravity ( http://arxiv.org/abs/2407.11132v1 )

ライセンス: Link先を確認
Luca Ciambelli, Laurent Freidel, Robert G. Leigh, (参考訳) 本研究では,超曲面上の重力の量子化が,各零線に付随するCFTの出現につながることを示す。 この結果は、ヌル物理学の超局所的な性質に起因し、レイチャウドゥリ方程式の正準解析によって導出され、ヌル時間再パラメトリゼーションを生成する制約として解釈される。 CFTは非ゼロ中心電荷を示し、重力系における時間の量子的出現と関連する真空状態の選択のメカニズムを提供する。 解析の結果、中心電荷は各ヌル線に沿った自由度を定量化することがわかった。 我々の研究を通じて、カットの領域要素は重要な役割を担い、位相空間の動的性質や量子バックリアクションのために量子演算子としての処理を必要とする。 さらに、全中心電荷は、無限個のヌル生成子により摂動解析において分岐することを示す。 この発散は、面積形式作用素に対して離散スペクトルが存在する場合に解決される。 メソスコピック量子重力スケールにおける幾何学の基本構成ブロックである領域の局所化幾何単位を表すために、「エンバドン」の概念を導入する。

In this work, we demonstrate that quantizing gravity on a null hypersurface leads to the emergence of a CFT associated with each null ray. This result stems from the ultralocal nature of null physics and is derived through a canonical analysis of the Raychaudhuri equation, interpreted as a constraint generating null time reparametrizations. The CFT exhibits a non-zero central charge, providing a mechanism for the quantum emergence of time in gravitational systems and an associated choice of vacuum state. Our analysis reveals that the central charge quantifies the degrees of freedom along each null ray. Throughout our investigation, the area element of a cut plays a crucial role, necessitating its treatment as a quantum operator due to its dynamic nature in phase space or because of quantum backreaction. Furthermore, we show that the total central charge diverges in a perturbative analysis due to the infinite number of null generators. This divergence is resolved if there is a discrete spectrum for the area form operator. We introduce the concept of `embadons' to denote these localized geometric units of area, the fundamental building blocks of geometry at a mesoscopic quantum gravity scale.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# $^6$Beからの2陽子放出におけるスピン絡み合い

Spin entanglement in two-proton emission from $^6$Be ( http://arxiv.org/abs/2407.11136v1 )

ライセンス: Link先を確認
Tomohiro Oishi, (参考訳) 本稿では,2陽子(2p$)放射性発光における結合スピンの絡み合いの評価を行う。 実験エネルギー放出を再現するために調整された陽子-陽子相互作用を持つ$^{6}$Beの3体モデルを利用する。 時間依存計算を行い、放出された2つの陽子の結合スピン状態を算出する。 スピン相関関数 $S$ as Clauser-Horne-Shimony-Holt (CHSH) は $\abs{S} \cong 2.72$ として得られる。 すなわち、局所隠れ変数(LHV)理論の極限を超える2p$スピンの絡み合いが結論づけられる。 この絡み合いは陽子-陽子相互作用に敏感である。 短寿命(広幅)の2p$~状態は、より弱いスピン絡みを持つ。 平行して、コア-プロトン相互作用は、時間依存の崩壊過程におけるこの絡み合いに害を与えない。 CHSH測定は、有限系内の効果的な核相互作用の探索である。

This paper presents an evaluation of coupled-spin entanglement in the two-proton ($2p$) radioactive emission. The three-body model of $^{6}$Be with the proton-proton interaction, which is adjusted to reproduce the experimental energy release, is utilized. Time-dependent calculation is performed to compute the coupled-spin state of the emitted two protons. The spin-correlation function $S$ as Clauser-Horne-Shimony-Holt (CHSH) indicator is obtained as $\abs{S} \cong 2.72$. Namely, the $2p$-spin entanglement beyond the limit of local-hidden-variable (LHV) theory is concluded. This entanglement is sensitive to the proton-proton interaction. The short-lived (broad-width) $2p$~state has the weaker spin entanglement. In parallel, the core-proton interactions do not harm this entanglement during the time-dependent decaying process. The CHSH measurement can be a probe into the effective nuclear interaction inside finite systems.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# 量子バンジージャンプ

Quantum bungee jumping ( http://arxiv.org/abs/2407.11137v1 )

ライセンス: Link先を確認
Rodrigo Andrade e Silva, (参考訳) 正の半直線上の至る所でよく定義されるポテンシャルが、$-\infty$ として $x\rightarrow 0^+$ に発散し、粒子を(正の)半直線に動的に閉じ込めることができることを示す。 この効果を量子バンジージャンプ(quantum Bungee jumping)と呼ぶ: よく知られた量子トンネル(quantum tunneling)のシナリオでは、1つは壁に向かって跳ね返るが、代わりに通過する。 この性質を示すポテンシャルの特定の例について論じ、そのエネルギー固有状態とスペクトルについて考察する。

We show how a potential that is well-defined everywhere on the positive half-line, but diverges to $-\infty$ as $x\rightarrow 0^+$, may still be able to dynamically confine a particle to the (positive) half-line. We shall call this effect quantum bungee jumping: in the familiar quantum tunneling scenario one heading towards a wall is expected to bounce off it but instead passes through, while in the present scenario one jumping off a cliff is expected to fall but instead is pulled back. We discuss a particular example of a potential displaying this property, and study its energy eigenstates and spectrum.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# ジョージア・サバンナの空き地・放棄地・荒廃地を識別する人間-ループ型機械学習アプローチからの教訓

Lessons from a human-in-the-loop machine learning approach for identifying vacant, abandoned, and deteriorated properties in Savannah, Georgia ( http://arxiv.org/abs/2407.11138v1 )

ライセンス: Link先を確認
Xiaofan Liang, Brian Brainerd, Tara Hick, Clio Andris, (参考訳) 健全なコミュニティを維持するためには,空き地,放棄地,荒廃地(VAD)の管理戦略が重要である。 しかし、これらの性質を識別する過程は困難である。 そこで我々は、VADecideと呼ばれるHuman-in-the-loop Machine Learning(HITLML)モデルを作成し、ジョージア州サバンナのパーセルレベルのケーススタディに適用する。 その結果,人間の入力を伴わない機械学習モデルを用いた場合よりも,予測精度が高いことがわかった。 HITLMLアプローチはまた、マシンと人為的な結果の違いも明らかにしている。 本研究は,都市計画におけるHITLMLのメリットと課題に関する知見に寄与する。 [『ピアレビュー』誌に掲載される]

Addressing strategies for managing vacant, abandoned, and deteriorated (VAD) properties is important for maintaining healthy communities. Yet, the process of identifying these properties can be difficult. Here, we create a human-in-the-loop machine learning (HITLML) model called VADecide and apply it to a parcel-level case study in Savannah, Georgia. The results show a higher prediction accuracy than was achieved when using a machine learning model without human input in the training. The HITLML approach also reveals differences between machine vs. human-generated results. Our findings contribute to knowledge about the advantages and challenges of HITLML in urban planning. [Accepted for Publication at a Peer Review Journal]
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# UFQA: 実用性指導型指紋品質評価

UFQA: Utility guided Fingerphoto Quality Assessment ( http://arxiv.org/abs/2407.11141v1 )

ライセンス: Link先を確認
Amol S. Joshi, Ali Dabouei, Jeremy Dawson, Nasser Nasrabadi, (参考訳) デジタルカメラとスマートフォンを用いた指紋の品質評価(指紋写真とも呼ばれる)は生体認証システムでは難しい問題である。 接触のないバイオメトリック・モダリティが注目を集めているため、信頼性も向上するはずだ。 指紋取得における照明、画像コントラスト、カメラアングルなどの多くの要因は、サンプルを無駄にする可能性のある様々な種類の歪みをもたらす。 コンタクトセンサを用いて採取した指紋の品質評価法は, 指紋に対して不適切である。 指の画質を評価するための有意義な特徴表現を学習するための自己教師型デュアルエンコーダフレームワークであるUFQA(Utility Guided Fingerphoto Quality Assessment)を提案する。 品質予測モデルを用いて、品質マップのさらなる監視を行い、指の画質を評価する。 品質指標は、一致したシナリオにおける指紋の有用性の予測器である。 そこで本研究では,トレーニングデータのラベル付け時に指写真ユーティリティと局所的品質を組み込むことにより,総合的なアプローチを用いる。 実験結果から,本手法が広く使用されている指紋品質指標であるNFIQ2.2と,公開されている複数の指紋データに対する最先端画像品質評価アルゴリズムよりも優れていることが確認された。

Quality assessment of fingerprints captured using digital cameras and smartphones, also called fingerphotos, is a challenging problem in biometric recognition systems. As contactless biometric modalities are gaining more attention, their reliability should also be improved. Many factors, such as illumination, image contrast, camera angle, etc., in fingerphoto acquisition introduce various types of distortion that may render the samples useless. Current quality estimation methods developed for fingerprints collected using contact-based sensors are inadequate for fingerphotos. We propose Utility guided Fingerphoto Quality Assessment (UFQA), a self-supervised dual encoder framework to learn meaningful feature representations to assess fingerphoto quality. A quality prediction model is trained to assess fingerphoto quality with additional supervision of quality maps. The quality metric is a predictor of the utility of fingerphotos in matching scenarios. Therefore, we use a holistic approach by including fingerphoto utility and local quality when labeling the training data. Experimental results verify that our approach performs better than the widely used fingerprint quality metric NFIQ2.2 and state-of-the-art image quality assessment algorithms on multiple publicly available fingerphoto datasets.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# YouTube-SL-25: 大規模でオープンな多言語対応言語並列コーパス

YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus ( http://arxiv.org/abs/2407.11144v1 )

ライセンス: Link先を確認
Garrett Tanzer, Biao Zhang, (参考訳) American Sign Language (ASL)のような研究の進んだ手話言語であっても、データは機械学習研究のボトルネックとなる。 この状況は、世界中のDeaf/Hard of Hearingコミュニティで使われている多くの手話にとって、いまだに悪化している。 本稿では,手話ビデオの大規模かつオープンな多言語コーパスであるYouTube-SL-25について紹介する。 3000時間以上のビデオが25のサイン言語で視聴されるYouTube-SL-25 a)>YouTube-ASLの3倍の大きさ。 b) これまでで最大の並列手話データセット、及び c) 多くのコンポーネント言語において、最初の、または最大の並列データセット。 我々は,T5に基づく多言語マルチタスクモデルを用いた手話タスクのベースラインと,4つの手話言語を対象としたベンチマーク結果の報告を行う。 以上の結果から,YouTube-SL-25における多言語移動は高次および低次手話言語の両方にメリットがあることが示された。

Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
翻訳日:2024-07-17 19:41:08 公開日:2024-07-15
# BMRとBWR: 現実の非凸制約問題と非制約問題に対する2つの単純なメタファーなし最適化アルゴリズム

BMR and BWR: Two simple metaphor-free optimization algorithms for solving real-life non-convex constrained and unconstrained problems ( http://arxiv.org/abs/2407.11149v1 )

ライセンス: Link先を確認
Ravipudi Venkata Rao, Ravikumar shah, (参考訳) 本稿では,Best-Mean-Random (BMR) とBest-Worst-Randam (BWR) という2つの単純な最適化アルゴリズムを提案する。 これらのアルゴリズムはメタファーやアルゴリズム固有のパラメータを含まない。 BMRアルゴリズムは与えられた問題を解決するために生成される集団の最適、平均、ランダムな解に基づいており、BWRアルゴリズムは最良の、最悪の、ランダムな解に基づいている。 提案した2つのアルゴリズムの性能について,CEC2020コンペティションにおける26個の実時間非凸制約最適化問題を用いて検討し,他の顕著な最適化アルゴリズムとの比較を行った。 さらに、最近開発された5つの異なる特徴を持つベンチマーク問題を含む、30の制約のない標準ベンチマーク最適化問題に対して、計算実験を行う。 その結果、提案した単純アルゴリズムの競争性や優位性が向上した。 最適化研究コミュニティは、これらのアルゴリズムを適用して、様々な科学・工学分野にわたる様々な制約や制約のない実生活最適化問題を解くことで、利点を得ることができる。

This paper presents two simple yet powerful optimization algorithms named Best-Mean-Random (BMR) and Best-Worst-Randam (BWR) algorithms to handle both constrained and unconstrained optimization problems. These algorithms are free of metaphors and algorithm-specific parameters. The BMR algorithm is based on the best, mean, and random solutions of the population generated for solving a given problem; and the BWR algorithm is based on the best, worst, and random solutions. The performances of the proposed two algorithms are investigated by implementing them on 26 real-life non-convex constrained optimization problems given in the Congress on Evolutionary Computation (CEC) 2020 competition and comparisons are made with those of the other prominent optimization algorithms. Furthermore, computational experiments are conducted on 30 unconstrained standard benchmark optimization problems including 5 recently developed benchmark problems having distinct characteristics. The results proved the better competitiveness and superiority of the proposed simple algorithms. The optimization research community may gain an advantage by adapting these algorithms to solve various constrained and unconstrained real-life optimization problems across various scientific and engineering disciplines.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 3Qubit Toffoli-Hadamard回路の音場と完全等式理論

A Sound and Complete Equational Theory for 3-Qubit Toffoli-Hadamard Circuits ( http://arxiv.org/abs/2407.11152v1 )

ライセンス: Link先を確認
Matthew Amy, Neil J. Ross, Scott Wesley, (参考訳) Toffoli-Hadamard ゲート集合 $\{ X, CX, CCX, H \}$ 上の3量子量子回路に対して、音と完全方程式理論を与える。 すなわち、3つの量子ビット上のトフォリ・ハダマール回路間の真の方程式の集まりを導入し、そのような回路間の他の真の方程式を導出するのに十分である。 この方程式論を得るために、まずトフォリ-$K$ゲート集合 $\{ X, CX, CCX, K \}$ 上の回路を考える。 Toffoli-Hadamard と Toffoli-$K$ ゲート集合は似ているが、それらは正確に3つのキュービットで決定的に異なる。 実際、この場合、前者は作用素の無限群を生成し、後者はよく知られた$E_8$格子の自己同型有限群を生成する。 この事実と格子の自己同型群の理論を利用して、トフォリ=K$回路の健全かつ完全な方程式の集合を得る。 次に、この方程式理論をトフォリ・ハダード回路に拡張し、トフォリ・ハダード作用素上のLi と al の以前の仕事を活用する。

We give a sound and complete equational theory for 3-qubit quantum circuits over the Toffoli-Hadamard gate set $\{ X, CX, CCX, H \}$. That is, we introduce a collection of true equations among Toffoli-Hadamard circuits on three qubits that is sufficient to derive any other true equation between such circuits. To obtain this equational theory, we first consider circuits over the Toffoli-$K$ gate set $\{ X, CX, CCX, K \}$, where $K=H\otimes H$. The Toffoli-Hadamard and Toffoli-$K$ gate sets appear similar, but they are crucially different on exactly three qubits. Indeed, in this case, the former generates an infinite group of operators, while the latter generates the finite group of automorphisms of the well-known $E_8$ lattice. We take advantage of this fact, and of the theory of automorphism groups of lattices, to obtain a sound and complete collection of equations for Toffoli-$K$ circuits. We then extend this equational theory to one for Toffoli-Hadamard circuits by leveraging prior work of Li et al. on Toffoli-Hadamard operators.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 偏微分方程式に対する物理埋め込みフーリエニューラルネットワーク

Physics-embedded Fourier Neural Network for Partial Differential Equations ( http://arxiv.org/abs/2407.11158v1 )

ライセンス: Link先を確認
Qingsong Xu, Nils Thuerey, Yilei Shi, Jonathan Bamber, Chaojun Ouyang, Xiao Xiang Zhu, (参考訳) フーリエ・ニューラル演算子のような周波数領域に基づく離散学習手法を用いて、偏微分方程式(PDE)によって支配される複雑な時空間力学系を解くことを検討する。 非線形PDEの近似に広く用いられているにもかかわらず、これらの手法の大半は基本的な物理法則を無視し、解釈可能性に欠ける。 物理埋め込みフーリエニューラルネットワーク(PeFNN)を柔軟かつ説明可能なエラー制御で導入することで,これらの欠点に対処する。 PeFNNは運動量保存を強制するために設計されており、一意のマルチスケール運動量保存フーリエ(MC-Fourier)層と要素単位の積演算を利用して、解釈可能な非線形表現を生成する。 MC-フーリエ層は周波数領域における変換不変および回転不変の設計により、運動量保存の法則に従うプラグ・アンド・プレイモジュールとして機能する。 PeFNNは、広く使われている時空間PDEを解くための新しい最先端技術を確立し、入力解像度にわたってうまく一般化する。 さらに,大規模な洪水シミュレーションのような実世界のアプリケーションに挑戦する上で,優れた性能を示す。

We consider solving complex spatiotemporal dynamical systems governed by partial differential equations (PDEs) using frequency domain-based discrete learning approaches, such as Fourier neural operators. Despite their widespread use for approximating nonlinear PDEs, the majority of these methods neglect fundamental physical laws and lack interpretability. We address these shortcomings by introducing Physics-embedded Fourier Neural Networks (PeFNN) with flexible and explainable error control. PeFNN is designed to enforce momentum conservation and yields interpretable nonlinear expressions by utilizing unique multi-scale momentum-conserving Fourier (MC-Fourier) layers and an element-wise product operation. The MC-Fourier layer is by design translation- and rotation-invariant in the frequency domain, serving as a plug-and-play module that adheres to the laws of momentum conservation. PeFNN establishes a new state-of-the-art in solving widely employed spatiotemporal PDEs and generalizes well across input resolutions. Further, we demonstrate its outstanding performance for challenging real-world applications such as large-scale flood simulations.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 劣化画像からのクリーンな分布学習のための近似推論と拡散モデルの統合

Integrating Amortized Inference with Diffusion Models for Learning Clean Distribution from Corrupted Images ( http://arxiv.org/abs/2407.11162v1 )

ライセンス: Link先を確認
Yifei Wang, Weimin Bai, Weijian Luo, Wenzheng Chen, He Sun, (参考訳) 拡散モデル(DM)は、逆問題を解決するための強力な生成モデルとして登場し、実世界の画像データの事前分布を適切に近似する。 通常、拡散モデルは、地上の真実のクリーンな画像分布のスコア関数を正確に学習するために、大規模なクリーン信号に依存している。 しかし、このような大量のクリーンなデータに対する要求は、現実世界のアプリケーション、特にデータサンプルが入手に費用がかかる分野において、現実的ではないことが多い。 この制限に対処するため,本稿では,条件付き正規化フローモデルを利用して,破損したデータソース上での拡散モデルのトレーニングを容易にする,新しいジョイントトレーニングパラダイムである \emph{FlowDiff} を紹介する。 条件付き正規化フローは、新しい補正推論機構を通じてクリーンな画像の復元を学ぼうとしており、これにより、破損したデータによる拡散モデルのトレーニングを効果的に行うことができる。 一方、拡散モデルは、画像回復の質を向上する強力な先行情報を提供する。 したがって、フローモデルと拡散モデルは互いに促進し、強い経験的性能を示すことができる。 我々の精巧な実験は、FlowDiffがノイズやぼやけた画像など、広範囲の破損したデータソースのクリーンな分布を効果的に学習できることを示しています。 これは、同じ条件下で有意なマージンを持つ既存のベースラインを一貫して上回る。 さらに, 学習した拡散を先行して検討し, インペイント, デノナイジング, デブロワーリングなど, 下流の画像処理タスクにおける優れた性能を観察した。

Diffusion models (DMs) have emerged as powerful generative models for solving inverse problems, offering a good approximation of prior distributions of real-world image data. Typically, diffusion models rely on large-scale clean signals to accurately learn the score functions of ground truth clean image distributions. However, such a requirement for large amounts of clean data is often impractical in real-world applications, especially in fields where data samples are expensive to obtain. To address this limitation, in this work, we introduce \emph{FlowDiff}, a novel joint training paradigm that leverages a conditional normalizing flow model to facilitate the training of diffusion models on corrupted data sources. The conditional normalizing flow try to learn to recover clean images through a novel amortized inference mechanism, and can thus effectively facilitate the diffusion model's training with corrupted data. On the other side, diffusion models provide strong priors which in turn improve the quality of image recovery. The flow model and the diffusion model can therefore promote each other and demonstrate strong empirical performances. Our elaborate experiment shows that FlowDiff can effectively learn clean distributions across a wide range of corrupted data sources, such as noisy and blurry images. It consistently outperforms existing baselines with significant margins under identical conditions. Additionally, we also study the learned diffusion prior, observing its superior performance in downstream computational imaging tasks, including inpainting, denoising, and deblurring.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 明示的クラスタバランシングを用いた教師なし視覚表現学習

Efficient Unsupervised Visual Representation Learning with Explicit Cluster Balancing ( http://arxiv.org/abs/2407.11168v1 )

ライセンス: Link先を確認
Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Ioannis Patras, (参考訳) 自己指導型学習は、近年、モダリティの至る所で重要な事前学習パラダイムとして出現し、顕著な成果を上げている。 特に画像領域では、グループ(またはクラスタ)の識別が最も成功した手法の1つである。 しかし、そのようなフレームワークは、簡単なソリューションの崩壊を防ぐために、非常に不均衡なクラスタ割り当てに対してガードする必要がある。 既存の作業は、バランスを促進するためにクラスタ割り当てを再検討することや、崩壊を防ぐためのオフライン操作(通常の再クラスタ化など)によって、この問題を解決するのが一般的である。 しかしながら、前者は一般的に大きなバッチサイズを必要とするため、リソース要求が増大し、後者は大きなデータセットに関するスケーラビリティの問題を引き起こす。 本研究では,新しいクラスタ分散手法を用いて,この問題に対処するフレームワークであるExCBを提案する。 ExCBはクラスタの相対サイズをバッチ全体にわたって推定し、クラスタ割り当てを調整し、相対サイズに比例し、オンライン的にバランスをとる。 これにより、以前のメソッドの大規模なバッチサイズへの依存を克服し、完全にオンラインであるため、任意のデータセットにスケーラブルになる。 われわれのアプローチを評価するために広範な実験を行い、ExCBを実証する。 a) これまでの作業に比べて資源要件を著しく低減した最先端の結果を達成すること。 b) 完全にオンラインであり、従って大規模なデータセットにスケーラブルであり、 c) 非常に小さなバッチサイズでも安定して有効である。

Self-supervised learning has recently emerged as the preeminent pretraining paradigm across and between modalities, with remarkable results. In the image domain specifically, group (or cluster) discrimination has been one of the most successful methods. However, such frameworks need to guard against heavily imbalanced cluster assignments to prevent collapse to trivial solutions. Existing works typically solve this by reweighing cluster assignments to promote balance, or with offline operations (e.g. regular re-clustering) that prevent collapse. However, the former typically requires large batch sizes, which leads to increased resource requirements, and the latter introduces scalability issues with regard to large datasets. In this work, we propose ExCB, a framework that tackles this problem with a novel cluster balancing method. ExCB estimates the relative size of the clusters across batches and balances them by adjusting cluster assignments, proportionately to their relative size and in an online manner. Thereby, it overcomes previous methods' dependence on large batch sizes and is fully online, and therefore scalable to any dataset. We conduct extensive experiments to evaluate our approach and demonstrate that ExCB: a) achieves state-of-the-art results with significantly reduced resource requirements compared to previous works, b) is fully online, and therefore scalable to large datasets, and c) is stable and effective even with very small batch sizes.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# iHuman:モノクロビデオからインスタントアニメのデジタル人間

iHuman: Instant Animatable Digital Humans From Monocular Videos ( http://arxiv.org/abs/2407.11174v1 )

ライセンス: Link先を確認
Pramish Paudel, Anubhav Khanal, Ajad Chhatkuli, Danda Pani Paudel, Jyoti Tandukar, (参考訳) パーソナライズされた3Dアバターは、デジタル人間のアニマタブルな表現を必要とする。 モノクロビデオから即座に行うことは、幅広い種類のユーザーと広範囲のアプリケーションにスケーラビリティを提供する。 本稿では,モノクロビデオからアニマタブルな3Dデジタル人間を作成するための,高速かつシンプルで効果的な方法を提案する。 本手法は3次元形状と外観の両方をモデル化するためにガウススプラッティングの効率性を利用する。 しかし,ガウスのスプレートを過度に最適化すると不正確な幾何学が得られ,アニメーションが貧弱になることがわかった。 本研究は,ガウススプラットを通したアニマタブルデジタル化のために,人体の正確な3次元メッシュ型モデリングの必要性を実証するものである。 これは、3つの重要な側面から恩恵を受ける新しいパイプラインを開発することで達成される。 a) 表面の変位と色の球面調和を暗黙的にモデル化すること b) 3Dガウスの身体テンプレートの各三角形面への結合 (c) 正常を付与する新しい技法で、その後に補助監督を行う。 3つの異なるベンチマークデータセットに対する徹底的な実験は、限られた時間設定で、我々の手法の最先端の結果を示す。 実際、我々の手法は(トレーニング時間の観点から)最も近い競合相手よりも桁違いに高速である。 同時に、ポーズの変化下でのレンダリングおよび3次元再構成性能を向上する。

Personalized 3D avatars require an animatable representation of digital humans. Doing so instantly from monocular videos offers scalability to broad class of users and wide-scale applications. In this paper, we present a fast, simple, yet effective method for creating animatable 3D digital humans from monocular videos. Our method utilizes the efficiency of Gaussian splatting to model both 3D geometry and appearance. However, we observed that naively optimizing Gaussian splats results in inaccurate geometry, thereby leading to poor animations. This work achieves and illustrates the need of accurate 3D mesh-type modelling of the human body for animatable digitization through Gaussian splats. This is achieved by developing a novel pipeline that benefits from three key aspects: (a) implicit modelling of surface's displacements and the color's spherical harmonics; (b) binding of 3D Gaussians to the respective triangular faces of the body template; (c) a novel technique to render normals followed by their auxiliary supervision. Our exhaustive experiments on three different benchmark datasets demonstrates the state-of-the-art results of our method, in limited time settings. In fact, our method is faster by an order of magnitude (in terms of training time) than its closest competitor. At the same time, we achieve superior rendering and 3D reconstruction performance under the change of poses.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 量子位相推定とアハラノフ・ボーム効果

Quantum Phase Estimation and the Aharonov-Bohm effect ( http://arxiv.org/abs/2407.11179v1 )

ライセンス: Link先を確認
K. Splittorff, (参考訳) 長いソレノイドを通した環上の粒子の時間発展を考えると、この系はアハロノフ・ボーム効果により自然に$U(1)$ユニタリ作用素に対する量子位相推定アルゴリズムの物理的実装を構成していることがわかる。 U(N)$ユニタリ作用素による完全量子位相推定アルゴリズムの実装は、非アーベル的アハロノフ・ボーム効果によって実現される。 この実装により、アルゴリズムをより物理的に直感的に理解することができる。 例えば、実装された量子位相推定アルゴリズムの経路積分定式化を用いて、古典的極限$\hbar\to0$を解析する。

We consider the time evolution of a particle on a ring with a long solenoid through and show that due to the Aharonov-Bohm effect this system naturally makes up a physical implementation of the quantum phase estimation algorithm for a $U(1)$ unitary operator. The implementation of the full quantum phase estimation algorithm with a $U(N)$ unitary operator is realised through the non-abelian Aharonov-Bohm effect. The implementation allows for a more physically intuitive understanding of the algorithm. As an example we use the path integral formulation of the implemented quantum phase estimation algorithm to analyse the classical limit $\hbar\to0$.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 多変量間の遅延関係を有するボイラプラントにおける変圧器によるドラムレベル予測

Transformer-based Drum-level Prediction in a Boiler Plant with Delayed Relations among Multivariates ( http://arxiv.org/abs/2407.11180v1 )

ライセンス: Link先を確認
Gang Su, Sun Yang, Zhishuai Li, (参考訳) 蒸気ドラム水位は、発電所の運転の安全性と効率に直接影響を与える重要なパラメータである。 しかし, ボイラのドラム水位予測は, 長時間の遅れや相互関係から生じる複雑な非線形過程のダイナミクスや, 測定ノイズにより困難である。 本稿では, 蒸気ボイラプラントのドラム水位予測におけるトランスフォーマーモデルの適用について検討する。 本研究はトランスフォーマーアーキテクチャの機能を活用し,水位変動を予測し,積極的な制御戦略を促進するための正確で堅牢な予測フレームワークを開発することを目的とする。 この目的のために,慎重なパイプラインが提案されている。 1)データ前処理 2)因果関係分析 3)遅延推論 4)変数拡張、および 5) 予測。 広範囲な実験と解析を通じて,トランスフォーマーを用いた蒸気ドラム水位予測の有効性を評価し,運転安定性の向上とプラント性能の最適化の可能性を強調した。

The steam drum water level is a critical parameter that directly impacts the safety and efficiency of power plant operations. However, predicting the drum water level in boilers is challenging due to complex non-linear process dynamics originating from long-time delays and interrelations, as well as measurement noise. This paper investigates the application of Transformer-based models for predicting drum water levels in a steam boiler plant. Leveraging the capabilities of Transformer architectures, this study aims to develop an accurate and robust predictive framework to anticipate water level fluctuations and facilitate proactive control strategies. To this end, a prudent pipeline is proposed, including 1) data preprocess, 2) causal relation analysis, 3) delay inference, 4) variable augmentation, and 5) prediction. Through extensive experimentation and analysis, the effectiveness of Transformer-based approaches in steam drum water level prediction is evaluated, highlighting their potential to enhance operational stability and optimize plant performance.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 神経型血液型の品質管理のためのエキスパート認識不確実性評価

Expert-aware uncertainty estimation for quality control of neural-based blood typing ( http://arxiv.org/abs/2407.11181v1 )

ライセンス: Link先を確認
Ekaterina Zaychenkova, Dmitrii Iarchuk, Sergey Korchagin, Alexey Zaitsev, Egor Ershov, (参考訳) 医学的診断において、神経モデルに対する正確な不確実性推定は、二次対位法の補完に不可欠である。 この問題におけるニューラルネットワークの習熟度にもかかわらず、実際の不確実性と予測された見積もりの間のギャップは持続する。 ここでの大きな課題は、サンプルの硬さに関するラベルの欠如である。典型的なデータセットは、真実のターゲットラベルのみを含み、不確実性推定問題をほとんど教師なしにする。 我々の新しいアプローチは、ニューラルネットワークの学習プロセスにケース複雑性のエキスパートアセスメントを統合することでこのギャップを狭め、決定的なターゲットラベルと補足的な複雑性評価の両方を活用する。 6名の医療専門家の複雑性スコアとラベル付きリアクション画像の増大に特有なデータセット"BloodyWell"を活用することで,血液型判定の方法論を検証した。 実験では、不確実性予測におけるアプローチの強化、専門家ラベルによる2.5倍の改善、およびニューラルネットワークの専門家コンセンサスの推定によるパフォーマンスの35%向上が示されている。

In medical diagnostics, accurate uncertainty estimation for neural-based models is essential for complementing second-opinion systems. Despite neural network ensembles' proficiency in this problem, a gap persists between actual uncertainties and predicted estimates. A major difficulty here is the lack of labels on the hardness of examples: a typical dataset includes only ground truth target labels, making the uncertainty estimation problem almost unsupervised. Our novel approach narrows this gap by integrating expert assessments of case complexity into the neural network's learning process, utilizing both definitive target labels and supplementary complexity ratings. We validate our methodology for blood typing, leveraging a new dataset "BloodyWell" unique in augmenting labeled reaction images with complexity scores from six medical specialists. Experiments demonstrate enhancement of our approach in uncertainty prediction, achieving a 2.5-fold improvement with expert labels and a 35% increase in performance with estimates of neural-based expert consensus.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 励起状態計算のためのサブスペース探索量子イマジナリー時間進化

Subspace-Search Quantum Imaginary Time Evolution for Excited State Computations ( http://arxiv.org/abs/2407.11182v1 )

ライセンス: Link先を確認
Cameron Cianci, Lea F. Santos, Victor S. Batista, (参考訳) 励起状態の量子システムは、ノイズの多い中間スケール量子(NISQ)装置の出現によって大きな関心を集めている。 小さな分子系の基底状態は、典型的には変分量子固有解法(VQE)のようなハイブリッド変分アルゴリズムを用いて探索されるが、励起状態の研究は効率のよいアルゴリズムが欠如していることもあって、はるかに少ない注意を払っている。 本研究では,サブスペース探索量子固有解法 (SSVQE) と量子虚数時間進化法 (QITE) のキー要素を統合することで,量子デバイスを用いた励起状態の計算を行う,サブスペース探索量子虚数時間進化法 (SSQITE) を提案する。 SSQITEの有効性は、$\text{H}_2$や$\text{LiH}$分子を含むベンチマークモデルの低レベル励起状態の計算によって示される。 SSQITEは局所的な最小値を避けることの堅牢さから、広範囲のアプリケーションにまたがる励起状態の量子計算を推し進めることを約束している。

Quantum systems in excited states are attracting significant interest with the advent of noisy intermediate scale quantum (NISQ) devices. While ground states of small molecular systems are typically explored using hybrid variational algorithms like the variational quantum eigensolver (VQE), the study of excited states has received much less attention, partly due to the absence of efficient algorithms. In this work, we introduce the {\em subspace search quantum imaginary time evolution} (SSQITE) method, which calculates excited states using quantum devices by integrating key elements of the subspace search variational quantum eigensolver (SSVQE) and the quantum imaginary time evolution (QITE) method. The effectiveness of SSQITE is demonstrated through calculations of low-lying excited states of benchmark model systems, including $\text{H}_2$ and $\text{LiH}$ molecules. With its robustness in avoiding local minima, SSQITE shows promise for advancing quantum computations of excited states across a wide range of applications.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 有限ひずみ超弾性のフォワードおよび逆モデリングのための微分可能なニューラルネットワーク付きメッシュフリー法

Differentiable Neural-Integrated Meshfree Method for Forward and Inverse Modeling of Finite Strain Hyperelasticity ( http://arxiv.org/abs/2407.11183v1 )

ライセンス: Link先を確認
Honghui Du, Binyao Guo, QiZhi He, (参考訳) 本研究では,非線形弾性と大変形を特徴とする有限ひずみ問題をモデル化するために,新しい物理インフォームド機械学習手法,特にニューラル積分メッシュフリー(NIM)法を拡張した。 この目的のために、一貫した局所変動定式化を用いて、超弾性材料モデルをNIM法の損失関数に統合する。 本質的に微分可能なプログラミング能力のおかげで、NIMは変分形式と結果として生じる接剛性行列のニュートン・ラフソン線形化の導出の必要性を回避できる。 さらに、NIMはNuroPUと呼ばれる分割ユニティ基底関数を符号化したハイブリッドニューラルネットワーク近似を用いて、この変位を効果的に表現し、トレーニングプロセスを合理化している。 NeuroPUは未知の物質場を近似するためにも使用でき、NIMはフォワードと逆モデリングの両方のための統一されたフレームワークとなる。 そこで本研究では,NuroPU近似に単一カーネル関数をベースとした新しい手法を導入し,その特徴を活かして基底関数をカスタマイズする手法を提案する。 数値実験により, 10^{-3} \sim 10^{-5}$の誤差を, 確立された有限要素解法に匹敵する相対的な$L_2$ノルムで有意な精度で, 前方超弾性モデリングにおけるNIM法の性能を実証した。 さらに, ひずみデータから超弾性材料の不均一力学特性を同定し, 非線形材料の逆モデリングにおけるその有効性を検証した。 GPUアクセラレーションを活用するために、NIMはJAXの深層学習フレームワークに完全に実装されており、JAXが提供するアクセル指向配列計算機能を活用している。

The present study aims to extend the novel physics-informed machine learning approach, specifically the neural-integrated meshfree (NIM) method, to model finite-strain problems characterized by nonlinear elasticity and large deformations. To this end, the hyperelastic material models are integrated into the loss function of the NIM method by employing a consistent local variational formulation. Thanks to the inherent differentiable programming capabilities, NIM can circumvent the need for derivation of Newton-Raphson linearization of the variational form and the resulting tangent stiffness matrix, typically required in traditional numerical methods. Additionally, NIM utilizes a hybrid neural-numerical approximation encoded with partition-of-unity basis functions, coined NeuroPU, to effectively represent the displacement and streamline the training process. NeuroPU can also be used for approximating the unknown material fields, enabling NIM a unified framework for both forward and inverse modeling. For the imposition of displacement boundary conditions, this study introduces a new approach based on singular kernel functions into the NeuroPU approximation, leveraging its unique feature that allows for customized basis functions. Numerical experiments demonstrate the NIM method's capability in forward hyperelasticity modeling, achieving desirable accuracy, with errors among $10^{-3} \sim 10^{-5}$ in the relative $L_2$ norm, comparable to the well-established finite element solvers. Furthermore, NIM is applied to address the complex task of identifying heterogeneous mechanical properties of hyperelastic materials from strain data, validating its effectiveness in the inverse modeling of nonlinear materials. To leverage GPU acceleration, NIM is fully implemented on the JAX deep learning framework in this study, utilizing the accelerator-oriented array computation capabilities offered by JAX.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# FarsInstruct:ペルシャ語指導理解のための大規模言語モデル

FarsInstruct: Empowering Large Language Models for Persian Instruction Understanding ( http://arxiv.org/abs/2407.11186v1 )

ライセンス: Link先を確認
Hojjat Mokhtarabadi, Ziba Zamani, Abbas Maazallahi, Hossein Manshaei, (参考訳) T0のような命令調整型大規模言語モデルは、様々な領域にまたがる命令に従う際、顕著な能力を示している。 しかし、その習熟度は多くの低リソース言語で顕著に不足している。 この課題に対処するために、我々は、ペルシャ語に特化した大規模言語モデルの命令追従能力を高めるために設計された包括的な命令データセットであるFarsInstructを紹介した。 FarsInstructには幅広いタスクタイプとデータセットが含まれており、それぞれが単純で複雑な手書きの命令と、Promptsの公開プールからの翻訳を混在させ、豊かな言語的・文化的表現を保証する。 さらに,LoRA設計モデルのマルチタスク適応性向上を目的としたフレームワークであるCo-CoLAを紹介する。 本研究では,Co-CoLAフレームワークによるトレーニングと組み合わせたFarsInstructデータセットの有効性について検討し,ペルシャの文脈における大規模言語モデルの性能向上について検討した。 現在の執筆時点で、FarsInstructは21の異なるデータセットに200以上のテンプレートで構成されています。

Instruction-tuned large language models, such as T0, have demonstrated remarkable capabilities in following instructions across various domains. However, their proficiency remains notably deficient in many low-resource languages. To address this challenge, we introduce FarsInstruct: a comprehensive instruction dataset designed to enhance the instruction-following ability of large language models specifically for the Persian language, a significant yet underrepresented language globally. FarsInstruct encompasses a wide range of task types and datasets, each containing a mix of straightforward to complex manual written instructions, as well as translations from Public Pool of Prompts, ensuring a rich linguistic and cultural representation. Furthermore, we introduce Co-CoLA, a framework designed to enhance the multi-task adaptability of LoRA-tuned models. Through extensive experimental analyses, our study showcases the effectiveness of FarsInstruct dataset coupled with training by Co-CoLA framework, in improving the performance of large language models within the Persian context. As of the current writing, FarsInstruct comprises more than 200 templates across 21 distinct datasets, and we intend to update it consistently, thus augmenting its applicability.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# メタ駆動型視覚プロンプト選択による高能率インコンテキストメディカルセグメンテーション

Efficient In-Context Medical Segmentation with Meta-driven Visual Prompt Selection ( http://arxiv.org/abs/2407.11188v1 )

ライセンス: Link先を確認
Chenwei Wu, David Restrepo, Zitao Shuai, Zhongming Liu, Liyue Shen, (参考訳) 大規模視覚モデル(LVM)を用いたインコンテキストラーニング(ICL)では,広範囲なラベリングへの依存を軽減し,医用画像のセグメンテーションにおいて有望な道を示す。 しかし、LVMのICL性能は視覚的プロンプトの選択に大きく依存しており、ドメインシフトに悩まされている。 LVMを医療タスクに活用する既存の研究は、主に微調整のようなモデル中心のアプローチに焦点が当てられているが、医療領域への一般化を促進するための優れた視覚的プロンプトの選択方法に関する直交的なデータ中心の視点について研究している。 本稿では,メタラーニングフレームワークから取得したプロンプトレシーバが,モデル性能と一般化性を促進するプロンプトとして最適な画像を積極的に選択する,新しいメタ駆動型ビジュアルプロンプト選択機構(MVPS)を導入することで,ラベル効率のよい医用セグメンテーション手法を提案する。 提案手法は,3つの医用画像モダリティにまたがる8つのデータセットと4つのタスクに基づいて評価し,既存の手法に対して異なるシナリオ下での一貫した利得を示し,計算効率とラベル効率を改善した。 最後に、MVPSは柔軟で微調整のないモジュールであり、異なるバックボーンに簡単にプラグインでき、他のモデル中心のアプローチと組み合わせることができることを示す。

In-context learning (ICL) with Large Vision Models (LVMs) presents a promising avenue in medical image segmentation by reducing the reliance on extensive labeling. However, the ICL performance of LVMs highly depends on the choices of visual prompts and suffers from domain shifts. While existing works leveraging LVMs for medical tasks have focused mainly on model-centric approaches like fine-tuning, we study an orthogonal data-centric perspective on how to select good visual prompts to facilitate generalization to medical domain. In this work, we propose a label-efficient in-context medical segmentation method by introducing a novel Meta-driven Visual Prompt Selection mechanism (MVPS), where a prompt retriever obtained from a meta-learning framework actively selects the optimal images as prompts to promote model performance and generalizability. Evaluated on 8 datasets and 4 tasks across 3 medical imaging modalities, our proposed approach demonstrates consistent gains over existing methods under different scenarios, improving both computational and label efficiency. Finally, we show that MVPS is a flexible, finetuning-free module that could be easily plugged into different backbones and combined with other model-centric approaches.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 圧縮フォック状態の生成のための制御Z動作とビームスプリッタ変換の比較

Comparison of Controlled-Z operation and beam-splitter transformation for generation of squeezed Fock states by measurement ( http://arxiv.org/abs/2407.11193v1 )

ライセンス: Link先を確認
E. N. Bashmakova, S. B. Korolev, T. Yu. Golubeva, (参考訳) ビームスプリッタと制御Z演算を用いた2モード絡み合ったガウス状態からの1つ以上の光子サブトラクションによる圧縮フォック状態の生成に対処する。 2つの異なる観点から、プロトコル内の2つの絡み合い変換を解析した。 分析手法のエネルギーコストと資源要件について検討した。 さらに, 粒子数の測定により生成した非ガウス状態に対する実験欠陥の影響について検討した。 我々は,光子損失と不完全な検出器がFock状態発生プロトコルに及ぼす影響を調べた。

The generation of squeezed Fock states by the one or more photon subtraction from a two-mode entangled Gaussian state using a beam splitter and a controlled-Z operation is addressed. From two different perspectives, we analyzed two entanglement transformations in the protocol. We evaluated the energy costs and resource requirements of the analyzed schemes. Furthermore, we studied the impact of experimental imperfections on the non-Gaussian states generated by measuring the number of particles. We explored the effects of photon loss and imperfect detectors on the squeezed Fock state generation protocol.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# AstroMLab 1: Who Wins Astronomy Jeopardy!

AstroMLab 1: Who Wins Astronomy Jeopardy!? ( http://arxiv.org/abs/2407.11194v1 )

ライセンス: Link先を確認
Yuan-Sen Ting, Tuan Dung Nguyen, Tirthankar Ghosal, Rui Pan, Hardik Arora, Zechang Sun, Tijmen de Haan, Nesar Ramachandra, Azton Wells, Sandeep Madireddy, Alberto Accomazzi, (参考訳) 最初の天文学固有のベンチマークデータセットを用いて,プロプライエタリおよびオープンウェイトな大規模言語モデルの包括的評価を行う。 このデータセットは、天文学と天体物理学の年次レビューから算出された4,425の多重選択質問で構成され、幅広い天体物理学のトピックをカバーしている。 本分析では,各種の天体サブフィールドにおけるモデル性能について検討し,研究環境への展開に欠かせない応答校正の評価を行った。 Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。 プロプライエタリなモデルでは,このベンチマークで同様の結果を得るために,3~12ヶ月毎のコストの普遍的な削減が観察された。 LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。 一般に、外惑星関連分野、恒星天体物理学、計装関連問題で苦戦している非英語モデルを用いて、トピック間のパフォーマンスのバリエーションを同定する。 これらの課題は、少ない訓練データ、限られた歴史的文脈、そしてこれらの領域の急速な発展に起因すると考えられる。 このパターンはオープンウェイトモデルとプロプライエタリモデルの両方で観察され、地域依存は明らかであり、専門的な科学領域におけるモデルパフォーマンスに対するトレーニングデータの多様性の影響を強調している。 トップパフォーマンスモデルでは、信頼性と正確性の間に0.9以上の相関関係があるが、信頼性はわずかに低い傾向にある。 高速で低コストなオープンウェイトモデルの構築は、天文学に手頃な展開の新たな機会をもたらす。 観測された急速な進歩は、天文学におけるLLM駆動の研究が近い将来実現可能であることを示唆している。

We present a comprehensive evaluation of proprietary and open-weights large language models using the first astronomy-specific benchmarking dataset. This dataset comprises 4,425 multiple-choice questions curated from the Annual Review of Astronomy and Astrophysics, covering a broad range of astrophysical topics. Our analysis examines model performance across various astronomical subfields and assesses response calibration, crucial for potential deployment in research environments. Claude-3.5-Sonnet outperforms competitors by up to 4.6 percentage points, achieving 85.0% accuracy. For proprietary models, we observed a universal reduction in cost every 3-to-12 months to achieve similar score in this particular astronomy benchmark. Open-source models have rapidly improved, with LLaMA-3-70b (80.6%) and Qwen-2-72b (77.7%) now competing with some of the best proprietary models. We identify performance variations across topics, with non-English-focused models generally struggling more in exoplanet-related fields, stellar astrophysics, and instrumentation related questions. These challenges likely stem from less abundant training data, limited historical context, and rapid recent developments in these areas. This pattern is observed across both open-weights and proprietary models, with regional dependencies evident, highlighting the impact of training data diversity on model performance in specialized scientific domains. Top-performing models demonstrate well-calibrated confidence, with correlations above 0.9 between confidence and correctness, though they tend to be slightly underconfident. The development for fast, low-cost inference of open-weights models presents new opportunities for affordable deployment in astronomy. The rapid progress observed suggests that LLM-driven research in astronomy may become feasible in the near future.
翻訳日:2024-07-17 19:31:15 公開日:2024-07-15
# 生産バイアスのないアクチュエータ

Actuation without production bias ( http://arxiv.org/abs/2407.11202v1 )

ライセンス: Link先を確認
James Kirby, Morgan Sonderegger, (参考訳) 音素生成バイアス(英: speechtic production bias)は、音響変化の計算モデルにおいて最も一般的に呼び出される外部力である。 さらに、生産バイアスの存在だけでは、変化が言語コミュニティ全体を通してどのように起こるか、あるいは伝播しないかは説明できない。 他の多くの要因は(社会)音声学者によって実行されてきたが、接触(集団間)と社会的評価(変種、グループ、個人)の違いを含むが、これらは典型的には音変化の計算シミュレーションではモデル化されていない。 本稿では,エージェントが複数の教師から学習する環境において,生産バイアスが集団レベルの変化の拡散にどのように影響するかという点において,生産バイアスがユニークなダイナミクスを持つかどうかを検討する。 生産バイアスによって条件付けられたダイナミクスは独特ではないが、全ての摂動力が同じダイナミクスを持つわけではない。特に、社会的重みが個々の教師の機能であり、教師の社会的重みと、生産バイアスが弱いと認識される程度との相関関係が伝播する可能性は低い。 それでも、異なるソースから開始された変更が同様のダイナミクスを示す可能性はある。 個体群構造が個々のバイアスとどのように相互作用するかをより微妙に理解すれば、「非音声化問題」に対する(部分的な)解が得られる。

Phonetic production bias is the external force most commonly invoked in computational models of sound change, despite the fact that it is not responsible for all, or even most, sound changes. Furthermore, the existence of production bias alone cannot account for how changes do or do not propagate throughout a speech community. While many other factors have been invoked by (socio)phoneticians, including but not limited to contact (between subpopulations) and differences in social evaluation (of variants, groups, or individuals), these are not typically modeled in computational simulations of sound change. In this paper, we consider whether production biases have a unique dynamics in terms of how they impact the population-level spread of change in a setting where agents learn from multiple teachers. We show that, while the dynamics conditioned by production bias are not unique, it is not the case that all perturbing forces have the same dynamics: in particular, if social weight is a function of individual teachers and the correlation between a teacher's social weight and the extent to which they realize a production bias is weak, change is unlikely to propagate. Nevertheless, it remains the case that changes initiated from different sources may display a similar dynamics. A more nuanced understanding of how population structure interacts with individual biases can thus provide a (partial) solution to the `non-phonologization problem'.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# EyeDentify:Webカメラ画像に基づく瞳孔径推定用データセット

EyeDentify: A Dataset for Pupil Diameter Estimation based on Webcam Images ( http://arxiv.org/abs/2407.11204v1 )

ライセンス: Link先を確認
Vijul Shah, Ko Watanabe, Brian B. Moser, Andreas Dengel, (参考訳) 本研究では,Webカメラ画像に基づく瞳孔径推定のためのデータセットであるEyeDentifyを紹介する。 EyeDentifyは、トビイのような高度に専門化されたセンサーシステムによって伝統的に支配される生理的および心理的状態を理解するための重要な領域である瞳孔径推定のためのデータセットの欠如に対処している。 これらの先進的なセンサーシステムや関連するコストとは異なり、ウェブカメラ画像は実際より一般的に見られる。 しかし、標準的なウェブカメラデータを用いて瞳孔径を推定できるディープラーニングモデルは少ない。 眼球画像のデータセットとそれに対応する瞳径情報を提供することにより、EyeDentifyは、低装備環境向けに設計されたモデルの開発と改良を可能にし、よりアクセスし、広く適用できるようにすることで、瞳径推定を民主化し、それによって、人間の活動を理解し、医療をサポートする複数の領域に寄与する。 私たちのデータセットはhttps://vijulshah.github.io/eyedentify/で公開されています。

In this work, we introduce EyeDentify, a dataset specifically designed for pupil diameter estimation based on webcam images. EyeDentify addresses the lack of available datasets for pupil diameter estimation, a crucial domain for understanding physiological and psychological states traditionally dominated by highly specialized sensor systems such as Tobii. Unlike these advanced sensor systems and associated costs, webcam images are more commonly found in practice. Yet, deep learning models that can estimate pupil diameters using standard webcam data are scarce. By providing a dataset of cropped eye images alongside corresponding pupil diameter information, EyeDentify enables the development and refinement of models designed specifically for less-equipped environments, democratizing pupil diameter estimation by making it more accessible and broadly applicable, which in turn contributes to multiple domains of understanding human activity and supporting healthcare. Our dataset is available at https://vijulshah.github.io/eyedentify/.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# 制約なしオープン語彙画像分類:CLIPインバージョンによるテキストから画像へのゼロショット転送

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion ( http://arxiv.org/abs/2407.11211v1 )

ライセンス: Link先を確認
Philipp Allgeuer, Kyra Ahrens, Stefan Wermter, (参考訳) 我々は、自動回帰変換器を用いて言語として分類ラベルを生成出力する、革新的なuNconstrained Open Vocabulary Image ClassifierであるNOVICを紹介する。 CLIPモデルの広範な知識を活用して、NOVICは埋め込みスペースを活用して、純粋なテキストからイメージへのゼロショット転送を可能にする。 従来のCLIPモデルは、オープン語彙分類の能力にもかかわらず、潜在的なクラスラベルの徹底的なプロンプトを必要とし、既知のコンテンツやコンテキストの画像への適用を制限する。 そこで本研究では,テンプレート付きオブジェクト名詞セットの大規模92MターゲットデータセットとLCM生成キャプションを用いて学習し,常に対象名詞を出力するオブジェクトデコーダモデルを提案する。 これはCLIPテキストエンコーダを効果的に反転させ、画像の潜在的な内容に関する事前知識を必要とせずに、画像由来の埋め込みベクトルから直接テキストオブジェクトラベルを生成することができる。 トレーニングされたデコーダは、手動とWebで計算されたデータセットと、標準的な画像分類ベンチマークの混合でテストされ、87.5%の詳細なプロンプトフリー予測スコアを達成している。

We introduce NOVIC, an innovative uNconstrained Open Vocabulary Image Classifier that uses an autoregressive transformer to generatively output classification labels as language. Leveraging the extensive knowledge of CLIP models, NOVIC harnesses the embedding space to enable zero-shot transfer from pure text to images. Traditional CLIP models, despite their ability for open vocabulary classification, require an exhaustive prompt of potential class labels, restricting their application to images of known content or context. To address this, we propose an "object decoder" model that is trained on a large-scale 92M-target dataset of templated object noun sets and LLM-generated captions to always output the object noun in question. This effectively inverts the CLIP text encoder and allows textual object labels to be generated directly from image-derived embedding vectors, without requiring any a priori knowledge of the potential content of an image. The trained decoders are tested on a mix of manually and web-curated datasets, as well as standard image classification benchmarks, and achieve fine-grained prompt-free prediction scores of up to 87.5%, a strong result considering the model must work for any conceivable image and without any contextual clues.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# アラビア語におけるエッセイの自動評価 : BERTに基づくシステムのデータセットと分析

Automated essay scoring in Arabic: a dataset and analysis of a BERT-based system ( http://arxiv.org/abs/2407.11212v1 )

ライセンス: Link先を確認
Rayed Ghazawi, Edwin Simpson, (参考訳) AES(Automated Essay Scoring)は、教育分野において大きな可能性を秘めており、教育者がより大きなエッセイをマークし、タイムリーなフィードバックを提供するのに役立つ。 しかし、アラブ首長国連邦の研究は、公的なエッセイデータがないために制限されている。 本研究では,性別情報やスコア,透明なルーリックに基づく評価ガイドラインを含む2046人の学部エッセイからなるアラビアAESベンチマークデータセットであるAR-AESを紹介する。 これらのエッセイは4つの異なるコースから成り、伝統的な試験とオンラインの試験の両方をカバーしている。 さらに、AraBERTをAESに利用し、異なる質問タイプでそのパフォーマンスを探求する先駆者となった。 我々は,特に環境化学と資源依存エッセイに関する質問に対して,奨励的な結果を見出した。 BERTベースのAESシステムによるエラーのスケールを初めて調べ、96.15%のエラーが最初のヒトマーカーの予測の1ポイント以内であり、1から5のスケールで、79.9%が正確に一致していることを観察した。 対照的に、追加のヒトマーカーは最初のマーカーと30%の精度で一致しておらず、62.9%は1つのマーカーで一致した。 これらの知見は、エッセイグレーディングに固有の主観性を強調し、ヒトマーカーを大規模クラスで一貫した格付けに支援する現在のAES技術の可能性を強調した。

Automated Essay Scoring (AES) holds significant promise in the field of education, helping educators to mark larger volumes of essays and provide timely feedback. However, Arabic AES research has been limited by the lack of publicly available essay data. This study introduces AR-AES, an Arabic AES benchmark dataset comprising 2046 undergraduate essays, including gender information, scores, and transparent rubric-based evaluation guidelines, providing comprehensive insights into the scoring process. These essays come from four diverse courses, covering both traditional and online exams. Additionally, we pioneer the use of AraBERT for AES, exploring its performance on different question types. We find encouraging results, particularly for Environmental Chemistry and source-dependent essay questions. For the first time, we examine the scale of errors made by a BERT-based AES system, observing that 96.15 percent of the errors are within one point of the first human marker's prediction, on a scale of one to five, with 79.49 percent of predictions matching exactly. In contrast, additional human markers did not exceed 30 percent exact matches with the first marker, with 62.9 percent within one mark. These findings highlight the subjectivity inherent in essay grading, and underscore the potential for current AES technology to assist human markers to grade consistently across large classes.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# OpenPSG: 大規模マルチモーダルモデルによるオープンセットパノプティクスシーングラフ生成

OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models ( http://arxiv.org/abs/2407.11213v1 )

ライセンス: Link先を確認
Zijian Zhou, Zheng Zhu, Holger Caesar, Miaojing Shi, (参考訳) Panoptic Scene Graph Generation (PSG) は、オブジェクトを分割し、それらの関係を認識し、画像の構造的理解を可能にすることを目的としている。 従来の手法では、事前定義されたオブジェクトと関係カテゴリの予測に重点を置いており、そのため、オープンワールドシナリオでのアプリケーションを制限する。 大規模マルチモーダルモデル(LMM)の急速な発展に伴い、オープンセットオブジェクトの検出とセグメンテーションにおいて大きな進展が見られたが、PSGのオープンセット関係予測は未解明のままである。 本稿では,オープンセット・パノプティック・シーングラフ生成(OpenPSG)を実現するために,事前訓練されたオープンセット・パノプティック・セグメンテーション・モデルと統合されたオープンセット・リレーション・予測の課題に焦点を当てる。 我々のOpenPSGはLMMを活用して自己回帰的なオープンセット関係予測を実現する。 オブジェクトペアの視覚的特徴を効率的に抽出し,それらの関係性の存在を推定する関係クエリ変換器を提案する。 後者は、無関係なペアをフィルタリングすることで予測効率を高めることができる。 最後に,PSGにおけるオープンセット関係予測を自動回帰的に行うために,生成命令と判定命令を設計する。 我々の知る限り、我々はまず、オープンセットPSGタスクを提案する。 広汎な実験により,オープン・セット関係予測とパノプティック・シーングラフ生成における最先端の性能が得られた。 コードは \url{https://github.com/franciszzj/OpenPSG} で入手できる。

Panoptic Scene Graph Generation (PSG) aims to segment objects and recognize their relations, enabling the structured understanding of an image. Previous methods focus on predicting predefined object and relation categories, hence limiting their applications in the open world scenarios. With the rapid development of large multimodal models (LMMs), significant progress has been made in open-set object detection and segmentation, yet open-set relation prediction in PSG remains unexplored. In this paper, we focus on the task of open-set relation prediction integrated with a pretrained open-set panoptic segmentation model to achieve true open-set panoptic scene graph generation (OpenPSG). Our OpenPSG leverages LMMs to achieve open-set relation prediction in an autoregressive manner. We introduce a relation query transformer to efficiently extract visual features of object pairs and estimate the existence of relations between them. The latter can enhance the prediction efficiency by filtering irrelevant pairs. Finally, we design the generation and judgement instructions to perform open-set relation prediction in PSG autoregressively. To our knowledge, we are the first to propose the open-set PSG task. Extensive experiments demonstrate that our method achieves state-of-the-art performance in open-set relation prediction and panoptic scene graph generation. Code is available at \url{https://github.com/franciszzj/OpenPSG}.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# パットナムベンチ:パットナム数学コンペティションにおける神経理論者の評価

PutnamBench: Evaluating Neural Theorem-Provers on the Putnam Mathematical Competition ( http://arxiv.org/abs/2407.11214v1 )

ライセンス: Link先を確認
George Tsoukalas, Jasper Lee, John Jennings, Jimmy Xin, Michelle Ding, Michael Jennings, Amitayush Thakur, Swarat Chaudhuri, (参考訳) パットナムベンチ(PatnamBench)は、ニューラル定理プロデューサが競合数学の問題を解く能力を評価するための新しい多言語ベンチマークである。 パットナムベンチは、1697年、北アメリカの大学レベルの数学コンペティションであるウィリアム・ローウェル・パットナム数学コンペティション(William Lowell Putnam Mathematical Competition)から得られた640の定理を手作りで定式化したものである。 すべての定理はLean 4 と Isabelle の形式化を持ち、かなりの部分集合は Coq の形式化も持つ。 定理の証明には、学部数学コースで教えられる幅広いトピックにおいて、重大な問題解決能力と習熟性が必要である。 パットナムベンチを用いて、確立されたニューラルおよびシンボリック定理証明器の評価を行う。 これらのアプローチはパットナムベンチ問題のごく一部しか解決できず、このベンチマークをニューラル定理証明の研究の難しいオープンチャレンジとして確立する。 PutnamBenchはhttps://github.com/trishullab/PutnamBench.comで入手できる。

We present PutnamBench, a new multilingual benchmark for evaluating the ability of neural theorem-provers to solve competition mathematics problems. PutnamBench consists of 1697 hand-constructed formalizations of 640 theorems sourced from the William Lowell Putnam Mathematical Competition, the premier undergraduate-level mathematics competition in North America. All the theorems have formalizations in Lean 4 and Isabelle; a substantial subset also has Coq formalizations. Proving the theorems requires significant problem-solving ability and proficiency in a broad range of topics taught in undergraduate mathematics courses. We use PutnamBench to evaluate several established neural and symbolic theorem-provers. These approaches can only solve a handful of the PutnamBench problems, establishing the benchmark as a difficult open challenge for research on neural theorem-proving. PutnamBench is available at https://github.com/trishullab/PutnamBench.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# 大規模言語モデルの機械論的解釈可能性と金融サービス産業への応用

Mechanistic interpretability of large language models with applications to the financial services industry ( http://arxiv.org/abs/2407.11215v1 )

ライセンス: Link先を確認
Ashkan Golgoon, Khashayar Filom, Arjun Ravi Kannan, (参考訳) GPT(Generative Pre-trained Transformers)のような大規模言語モデルは、幅広いアプリケーションにまたがる優れた機能を示している。 それにもかかわらず、本質的な複雑さのため、これらのモデルは内部決定過程を解釈する上で大きな課題をもたらす。 この透明性の欠如は、偏見、公平性、信頼性に関する懸念と説明責任が最重要事項である金融機関への適応に関して重要な課題を生じさせる。 機械的解釈可能性(Mechanistic Interpretability)は、トランスフォーマーのような複雑なAIモデルをリバースエンジニアリングすることを目的としている。 本稿では,金融サービスアプリケーションで使用する大規模言語モデルの内部構造に光を当てるために,機械的解釈可能性の利用を先駆的に進める。 コンプライアンス監視のためにアルゴリズムタスクをどのように設計するかの例をいくつか提示する。 特に,フェアレンディング法違反の可能性を特定するために,GPT-2スモールの注意パターンについて検討する。 直接ロジット属性を用いて,各層と対応するアテンションヘッドの残流のロジット差に対する寄与について検討した。 最後に、クリーンで破損したプロンプトを設計し、さらにタスク完了コンポーネントをローカライズするための因果介入手法としてアクティベーションパッチを使用する。 我々は、(肯定的な)ヘッドが10.2ドル(ヘッド2ドル、レイヤ10ドル)、10.7ドル、11.3ドル、および(否定的な)ヘッドがタスク完了において重要な役割を果たすのを観察している。

Large Language Models such as GPTs (Generative Pre-trained Transformers) exhibit remarkable capabilities across a broad spectrum of applications. Nevertheless, due to their intrinsic complexity, these models present substantial challenges in interpreting their internal decision-making processes. This lack of transparency poses critical challenges when it comes to their adaptation by financial institutions, where concerns and accountability regarding bias, fairness, and reliability are of paramount importance. Mechanistic interpretability aims at reverse engineering complex AI models such as transformers. In this paper, we are pioneering the use of mechanistic interpretability to shed some light on the inner workings of large language models for use in financial services applications. We offer several examples of how algorithmic tasks can be designed for compliance monitoring purposes. In particular, we investigate GPT-2 Small's attention pattern when prompted to identify potential violation of Fair Lending laws. Using direct logit attribution, we study the contributions of each layer and its corresponding attention heads to the logit difference in the residual stream. Finally, we design clean and corrupted prompts and use activation patching as a causal intervention method to localize our task completion components further. We observe that the (positive) heads $10.2$ (head $2$, layer $10$), $10.7$, and $11.3$, as well as the (negative) heads $9.6$ and $10.6$ play a significant role in the task completion.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# ポイントにおける意味の発見:イベントカメラのための弱い監督されたセマンティックセグメンテーション

Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras ( http://arxiv.org/abs/2407.11216v1 )

ライセンス: Link先を確認
Hoonhee Cho, Sung-Hoon Yoon, Hyeokjun Kweon, Kuk-Jin Yoon, (参考訳) イベントカメラは、高コントラストシーンやダイナミックオブジェクトの撮影に優れており、従来のフレームベースのカメラよりも大きな利点がある。 イベントカメラをセマンティックセグメンテーションに活用する研究は活発に行われているが、このような難解なシナリオのためにピクセル単位の高密度なセマンティックマップを生成することは労働集約的である。 本稿では,スパースポイントアノテーションを利用したイベントベースセマンティックセマンティックセグメンテーションの弱い制御手法であるEV-WSSSを提案する。 イベントデータの時間的特性をフル活用するために,提案フレームワークは非対称な二重学習を行う。 1)元来の前方イベントデータ及び 2)過去と未来との相補的な情報を含む、より長い逆イベントデータ。 また,スパース・インスペクションによる課題を軽減するために,空間領域とサンプルレベルの両方で注意深く集約されたクラスワイドプロトタイプに基づく特徴レベルのコントラスト学習を提案する。 さらに,2つの学習経路間でプロトタイプを交換し,その相補的な強みを活用することにより,2つの学習モデルの可能性をさらに掘り下げる。 本論文では, DSEC Night-Point などの様々なデータセットに対する広範な実験を行い, 画素レベルの高密度地盤真実を頼らずとも, かなりのセグメンテーション結果が得られることを示した。 コードとデータセットはhttps://github.com/Chohoonhee/EV-WSSS.comで公開されている。

Event cameras excel in capturing high-contrast scenes and dynamic objects, offering a significant advantage over traditional frame-based cameras. Despite active research into leveraging event cameras for semantic segmentation, generating pixel-wise dense semantic maps for such challenging scenarios remains labor-intensive. As a remedy, we present EV-WSSS: a novel weakly supervised approach for event-based semantic segmentation that utilizes sparse point annotations. To fully leverage the temporal characteristics of event data, the proposed framework performs asymmetric dual-student learning between 1) the original forward event data and 2) the longer reversed event data, which contain complementary information from the past and the future, respectively. Besides, to mitigate the challenges posed by sparse supervision, we propose feature-level contrastive learning based on class-wise prototypes, carefully aggregated at both spatial region and sample levels. Additionally, we further excavate the potential of our dual-student learning model by exchanging prototypes between the two learning paths, thereby harnessing their complementary strengths. With extensive experiments on various datasets, including DSEC Night-Point with sparse point annotations newly provided by this paper, the proposed method achieves substantial segmentation results even without relying on pixel-level dense ground truths. The code and dataset are available at https://github.com/Chohoonhee/EV-WSSS.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# ほぼ線形時間近似アルゴリズムによるユークリッド$k$-medianと$k$-means

Almost-linear Time Approximation Algorithm to Euclidean $k$-median and $k$-means ( http://arxiv.org/abs/2407.11217v1 )

ライセンス: Link先を確認
Max Dupré la Tour, David Saulpic, (参考訳) クラスタリングは、データ分析と教師なし学習の基礎の1つである。 そのため、クラスタリングアルゴリズムは大規模なデータセットでよく使われ、非常に高速である必要がある。 Euclidean $k$-medianと$k$-meansの問題、クラスタリングのタスクをモデル化する標準的な2つの方法に注目します。 これらの場合、go-toアルゴリズムは$k$-means++で、$O(\log k)$-approximation in time $\tilde O(nkd)$である。 近似係数 [Lattanzi and Sohler, ICML19] やランニング時間 [Cohen-Addad et al , NeurIPS 20] を改善することができるが、線形時間アルゴリズムがどの程度正確かは分かっていない。 本稿では,定数係数近似を計算するためのほぼ線形時間アルゴリズムを提案することにより,この問題にほぼ答える。

Clustering is one of the staples of data analysis and unsupervised learning. As such, clustering algorithms are often used on massive data sets, and they need to be extremely fast. We focus on the Euclidean $k$-median and $k$-means problems, two of the standard ways to model the task of clustering. For these, the go-to algorithm is $k$-means++, which yields an $O(\log k)$-approximation in time $\tilde O(nkd)$. While it is possible to improve either the approximation factor [Lattanzi and Sohler, ICML19] or the running time [Cohen-Addad et al., NeurIPS 20], it is unknown how precise a linear-time algorithm can be. In this paper, we almost answer this question by presenting an almost linear-time algorithm to compute a constant-factor approximation.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# TLRN: 大規模な変形画像登録のための時間遅延残差ネットワーク

TLRN: Temporal Latent Residual Networks For Large Deformation Image Registration ( http://arxiv.org/abs/2407.11219v1 )

ライセンス: Link先を確認
Nian Wu, Jiarui Xing, Miaomiao Zhang, (参考訳) 本稿では,時系列画像登録における変形フィールドの列を予測するため,TLRN ( {\em Temporal Latent Residual Network) と呼ばれる新しい手法を提案する。 時系列画像の登録の課題は、特に画像が基準と大きく異なる場合(例えば、ピークストレッチフェーズと比較して心臓周期の開始)に、大きな動きが発生することである。 高精度でロバストな登録結果を得るためには、動きの連続性の性質を活用し、連続した画像フレームの時間的滑らかさを利用する。 提案するTLRNは、時間列初期速度場によってパラメータ化される遅延変形空間において、残留ブロックを慎重に設計した時間的残留ネットワークを強調する。 各ブロックは、所望の変形特徴と過去の時間フレームから蓄積した電流入力との間の残差関数を学習するように設計されている。 合成データと実世界の心臓磁気共鳴(CMR)画像からTLRNの有効性を検証した。 実験の結果,TLRNは最先端技術と比較して,登録精度を大幅に向上できることがわかった。 私たちのコードはhttps://github.com/nellie689/TLRNで公開されています。

This paper presents a novel approach, termed {\em Temporal Latent Residual Network (TLRN)}, to predict a sequence of deformation fields in time-series image registration. The challenge of registering time-series images often lies in the occurrence of large motions, especially when images differ significantly from a reference (e.g., the start of a cardiac cycle compared to the peak stretching phase). To achieve accurate and robust registration results, we leverage the nature of motion continuity and exploit the temporal smoothness in consecutive image frames. Our proposed TLRN highlights a temporal residual network with residual blocks carefully designed in latent deformation spaces, which are parameterized by time-sequential initial velocity fields. We treat a sequence of residual blocks over time as a dynamic training system, where each block is designed to learn the residual function between desired deformation features and current input accumulated from previous time frames. We validate the effectivenss of TLRN on both synthetic data and real-world cine cardiac magnetic resonance (CMR) image videos. Our experimental results shows that TLRN is able to achieve substantially improved registration accuracy compared to the state-of-the-art. Our code is publicly available at https://github.com/nellie689/TLRN.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# dS, AdS, Minkowski空間の重力的に支配されるインスタントンと不安定性

Gravitationally dominated instantons and instability of dS, AdS and Minkowski spaces ( http://arxiv.org/abs/2407.11221v1 )

ライセンス: Link先を確認
Viatcheslav F. Mukhanov, Yaron Oz, Alexander S. Sorin, (参考訳) 量子場理論解析が有効でない状態において、重力効果が重要になるため、偽真空の崩壊を研究する。 これは、偽と真真空を分離する障壁の高さが大きいときに起こり、デ・シッター、ミンコフスキーおよび反デ・シッター真空の不安定性に影響を及ぼす。 我々は重力に結合したポテンシャルを持つスカラー場の計算を行い、気泡壁が気泡の大きさよりも薄いような薄い壁近似の中で作業する。 擬似ド・ジッター真空は、擬似真空と比較して電位の高さと真真空の相対深さとは無関係に不安定であることを示す。 偽ミンコフスキーと反ド・ジッター真空は、より低いエネルギー真真空が存在するにもかかわらず安定である。 しかし、真と偽の真空の相対的な深さが、偽真空のポテンシャルと障壁の高さに依存する臨界値を超えると、偽のミンコフスキーと反ド・ジッターの真空は不安定になる。 我々は、場ポテンシャルを特徴づけるパラメータの関数として、偽ド・ジッター、ミンコフスキー、反ド・ジッター真空の崩壊確率を計算する。

We study the decay of the false vacuum in the regime where the quantum field theory analysis is not valid, since gravitational effects become important. This happens when the height of the barrier separating the false and the true vacuum is large, and it has implications for the instability of de Sitter, Minkowski and anti-de Sitter vacua. We carry out the calculations for a scalar field with a potential coupled to gravity, and work within the thin-wall approximation, where the bubble wall is thin compared to the size of the bubble. We show that the false de Sitter vacuum is unstable, independently of the height of the potential and the relative depth of the true vacuum compared to the false vacuum. The false Minkowski and anti-de Sitter vacua can be stable despite the existence of a lower energy true vacuum. However, when the relative depth of the true and false vacua exceeds a critical value, which depends on the potential of the false vacuum and the height of the barrier, then the false Minkowski and anti-de Sitter vacua become unstable. We calculate the probability for the decay of the false de Sitter, Minkowski and anti-de Sitter vacua, as a function of the parameters characterizing the field potential.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# 効率の良いジョイントソースとタスクデコーディングによる分散セマンティックセマンティックセグメンテーション

Distributed Semantic Segmentation with Efficient Joint Source and Task Decoding ( http://arxiv.org/abs/2407.11224v1 )

ライセンス: Link先を確認
Danish Nazir, Timo Bartels, Jan Piewek, Thorsten Bagdonat, Tim Fingscheidt, (参考訳) ディープニューラルネットワーク(DNN)のコンテキストにおける分散コンピューティングは、エッジデバイス上のネットワークの一部と、大規模クラウドプラットフォーム上での他の部分の実行を意味する。 従来の方法では、学習した画像とソースエンコーダのシリアル結合、後者は、画像エンコーダ出力(ブートネック特徴)をビットレート効率の伝送のための量子化表現に投影する。 クラウドでは、各ソースデコーダが、ダウンストリームタスクデコーダの実行を行う入力、例えばセマンティックセグメンテーションとして、量子化された表現を元の特徴表現に再投影する。 そこで本研究では,クラウド上のネットワークサイズを小さくする目的で,共同ソースとタスクデコーディングを提案する。 これにより、チャネル毎のクラウド上での広範な計算負荷を必要とせずに、そのようなサービスのスケーラビリティがさらに向上する。 我々は,COCOおよびCityscapesデータセット上で,以前のSOTAで使用したクラウドDNNパラメータの9.8 %$ ... 1.9 %$のみを用いて,分散セマンティックセグメンテーションSOTAを,連合距離の平均交点上で幅広いビットレートで達成し,本手法の有効性を実証した。

Distributed computing in the context of deep neural networks (DNNs) implies the execution of one part of the network on edge devices and the other part typically on a large-scale cloud platform. Conventional methods propose to employ a serial concatenation of a learned image and source encoder, the latter projecting the image encoder output (bottleneck features) into a quantized representation for bitrate-efficient transmission. In the cloud, a respective source decoder reprojects the quantized representation to the original feature representation, serving as an input for the downstream task decoder performing, e.g., semantic segmentation. In this work, we propose joint source and task decoding, as it allows for a smaller network size in the cloud. This further enables the scalability of such services in large numbers without requiring extensive computational load on the cloud per channel. We demonstrate the effectiveness of our method by achieving a distributed semantic segmentation SOTA over a wide range of bitrates on the mean intersection over union metric, while using only $9.8 \%$ ... $11.59 \%$ of cloud DNN parameters used in the previous SOTA on the COCO and Cityscapes datasets.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# (De)ノイズ:人間の意思決定者の不整合を緩和する

(De)Noise: Moderating the Inconsistency Between Human Decision-Makers ( http://arxiv.org/abs/2407.11225v1 )

ライセンス: Link先を確認
Nina Grgić-Hlača, Junaid Ali, Krishna P. Gummadi, Jennifer Wortman Vaughan, (参考訳) 心理学における以前の研究では、人々の決定はしばしば矛盾している。 個人の決定は時間によって異なり、決定はさらに人によって異なる。 味覚などの主観的な問題だけでなく、感傷、職業評価、不動産評価など、より客観的な設定が期待されている。 本研究では,アルゴリズムによる意思決定支援が,不動産評価の文脈における人的意思決定の不整合度を抑えることができるかどうかを考察する。 大規模な人・物件実験において、異なる形のアルゴリズム支援が、人々が不動産価格の見積をレビューし、更新する方法にどのように影響するかを検討する。 私たちは両方に気づきます 一 アルゴリズム的に選択したペアワイズ比較のシリーズにおいて、回答者に見積をレビューするよう求めること。 二 従来の機械的アドバイスを回答者に提供することは、人間の反応に影響を与える効果的な戦略である。 最初の見積もりを1つずつレビューするのと比べて、上記の戦略が導かれる。 (i)初期推定を更新する確率が高いこと。 (二)レビュー後の見積もりの精度、及び 三 異なる回答者のレビュー後の見積もりの間の一貫性の度合いが高いこと。 これらの効果は従来の機械のアドバイスでより顕著であるが、アルゴリズムによって選択されたペアをレビューするアプローチは、地上の真実データにアクセスする必要がないため、より広い範囲で実装することができる。

Prior research in psychology has found that people's decisions are often inconsistent. An individual's decisions vary across time, and decisions vary even more across people. Inconsistencies have been identified not only in subjective matters, like matters of taste, but also in settings one might expect to be more objective, such as sentencing, job performance evaluations, or real estate appraisals. In our study, we explore whether algorithmic decision aids can be used to moderate the degree of inconsistency in human decision-making in the context of real estate appraisal. In a large-scale human-subject experiment, we study how different forms of algorithmic assistance influence the way that people review and update their estimates of real estate prices. We find that both (i) asking respondents to review their estimates in a series of algorithmically chosen pairwise comparisons and (ii) providing respondents with traditional machine advice are effective strategies for influencing human responses. Compared to simply reviewing initial estimates one by one, the aforementioned strategies lead to (i) a higher propensity to update initial estimates, (ii) a higher accuracy of post-review estimates, and (iii) a higher degree of consistency between the post-review estimates of different respondents. While these effects are more pronounced with traditional machine advice, the approach of reviewing algorithmically chosen pairs can be implemented in a wider range of settings, since it does not require access to ground truth data.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# LLMはチャートを本当に理解しているか? 一貫性とロバストさを深く掘り下げる

Unraveling the Truth: Do LLMs really Understand Charts? A Deep Dive into Consistency and Robustness ( http://arxiv.org/abs/2407.11229v1 )

ライセンス: Link先を確認
Srija Mukhopadhyay, Adnan Qidwai, Aparna Garimella, Pritika Ramu, Vivek Gupta, Dan Roth, (参考訳) チャート質問応答(CQA)は、ビジュアル言語理解の重要な領域である。 しかし、この分野における現在のVisual Language Models (VLM) の頑健さと一貫性はいまだ解明されていない。 本稿では,多種多様な問合せカテゴリやチャート形式を含む包括的データセット上での最先端VLMの評価を行う。 私たちは2つの重要な側面を調査します。 1) モデルが様々なレベルのチャートを処理し、複雑さを問う能力、及び 2)同じ基礎データの異なる視覚的表現にまたがる堅牢性。 本分析では,従来のモデルの強みと弱みを両立させ,質問型とチャート型に基づく有意な性能変化を明らかにした。 さらに,より堅牢で信頼性の高いCQAシステムを構築するために,改善すべき領域を特定し,今後の研究方向性を提案する。 この研究は、現在のモデルの限界に光を当て、今後の分野の発展への道を開く。

Chart question answering (CQA) is a crucial area of Visual Language Understanding. However, the robustness and consistency of current Visual Language Models (VLMs) in this field remain under-explored. This paper evaluates state-of-the-art VLMs on comprehensive datasets, developed specifically for this study, encompassing diverse question categories and chart formats. We investigate two key aspects: 1) the models' ability to handle varying levels of chart and question complexity, and 2) their robustness across different visual representations of the same underlying data. Our analysis reveals significant performance variations based on question and chart types, highlighting both strengths and weaknesses of current models. Additionally, we identify areas for improvement and propose future research directions to build more robust and reliable CQA systems. This study sheds light on the limitations of current models and paves the way for future advancements in the field.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# 離散変数系に対するファインマンパス積分:ハミルトングラフ上のウォークス

Feynman path integrals for discrete-variable systems: Walks on Hamiltonian graphs ( http://arxiv.org/abs/2407.11231v1 )

ライセンス: Link先を確認
Amir Kalev, Itay Hen, (参考訳) 自然, パラメータフリー, 離散変数によるファインマンパス積分の定式化を提案する。 離散変数量子系において、ファインマン経路積分は重み付き隣接行列がハミルトニアンであるグラフ上のウォークの形式をとる。 連続変数量子系の離散化バージョンの分割関数と遷移振幅の式を計算し、連続極限を取ることにより、ファインマンの連続変数パス積分を明示的に回復する。 結果の意味についても論じる。

We propose a natural, parameter-free, discrete-variable formulation of Feynman path integrals. We show that for discrete-variable quantum systems, Feynman path integrals take the form of walks on the graph whose weighted adjacency matrix is the Hamiltonian. By working out expressions for the partition function and transition amplitudes of discretized versions of continuous-variable quantum systems, and then taking the continuum limit, we explicitly recover Feynman's continuous-variable path integrals. We also discuss the implications of our result.
翻訳日:2024-07-17 19:21:30 公開日:2024-07-15
# 量子化学、古典的ヒューリスティックス、および量子優位性

Quantum chemistry, classical heuristics, and quantum advantage ( http://arxiv.org/abs/2407.11235v1 )

ライセンス: Link先を確認
Garnet Kin-Lic Chan, (参考訳) 量子化学の問題、それらを解決するために用いられる古典的ヒューリスティック法の背後にある直観、量子化学問題の古典的複雑性の予想形式、そしてその後の量子優位性の可能性について述べる。 この記事では、量子化学者と量子情報理論者の両方について記述する。 特に、量子化学問題の領域と、それらを解決するための化学直観(古典的ヒューリスティックなコスト予想や量子優位性のための異なる経路の分類など)を、将来の分析を刺激することを期待して要約しようと試みる。

We describe the problems of quantum chemistry, the intuition behind classical heuristic methods used to solve them, a conjectured form of the classical complexity of quantum chemistry problems, and the subsequent opportunities for quantum advantage. This article is written for both quantum chemists and quantum information theorists. In particular, we attempt to summarize the domain of quantum chemistry problems as well as the chemical intuition that is applied to solve them within concrete statements (such as a classical heuristic cost conjecture and a classification of different avenues for quantum advantage) in the hope that this may stimulate future analysis.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# SLAM法との比較によるNeRF再構成の幾何精度の評価

Evaluating geometric accuracy of NeRF reconstructions compared to SLAM method ( http://arxiv.org/abs/2407.11238v1 )

ライセンス: Link先を確認
Adam Korycki, Colleen Josephson, Steve McGuire, (参考訳) ニューラルレージアンスフィールド(NeRF)の実装がより速く、より効率的に、正確になるにつれて、現実のマッピングタスクへの適用性も向上する。 伝統的に、3Dマッピングやシーン再構築は高価なLiDARセンシングに依存してきた。 フォトグラメトリーは画像ベースの3D再構成を行うことができるが、計算コストが高く、複雑な幾何学やフォトリアリズムを復元するために非常に高密度な画像表現を必要とする。 NeRFは、スパース画像上でニューラルネットワークをトレーニングし、データをポーズすることで3Dシーン再構築を行い、少ない入力データでフォトグラム測定に優れた結果が得られる。 縦型PVCシリンダの直径を推定するための2つのNeRFシーン再構成の評価を行った。 そのうちの1つはコモディティiPhoneのデータで、もう1つはロボットソースの画像とポーズで訓練されている。 このニューラルジオメトリは、シーンノイズとメートル法精度の観点から最先端のライダー慣性SLAMと比較される。

As Neural Radiance Field (NeRF) implementations become faster, more efficient and accurate, their applicability to real world mapping tasks becomes more accessible. Traditionally, 3D mapping, or scene reconstruction, has relied on expensive LiDAR sensing. Photogrammetry can perform image-based 3D reconstruction but is computationally expensive and requires extremely dense image representation to recover complex geometry and photorealism. NeRFs perform 3D scene reconstruction by training a neural network on sparse image and pose data, achieving superior results to photogrammetry with less input data. This paper presents an evaluation of two NeRF scene reconstructions for the purpose of estimating the diameter of a vertical PVC cylinder. One of these are trained on commodity iPhone data and the other is trained on robot-sourced imagery and poses. This neural-geometry is compared to state-of-the-art lidar-inertial SLAM in terms of scene noise and metric-accuracy.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# GaLoreからWeLoreへ:低ランク重量が低ランク勾配から不均一に出現する理由

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients ( http://arxiv.org/abs/2407.11239v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang, (参考訳) 現代の大規模言語モデル(LLM)は数十億の要素を持つ行列で構成されており、計算資源やメモリ使用量の観点から、その記憶と処理がかなり要求される。 非常に大きいため、そのような行列はリソース要求を緩和する可能性のある低ランクの形式で表されることが多い。 新たな行列分解アルゴリズムの開発に焦点をあてた以前の研究とは異なり、本研究はまず、LLMの異なる層内の行列にまたがる低ランク構造の出現を研究し、勾配力学と行列の出現する低ランク表現性との間に連続的な関係を確立する。 その結果,圧縮による性能低下を最小限に抑えるために,各層に異なる収束低ランク構造が出現し,不均一なランクの低減が必要であった。 その観点から、重み圧縮とメモリ効率を One として統一するWeight Low-Rank Projection (WeLore) を、データに依存しないワンショット方式で提示する。 WeLore は特異値のヘビーテール分布を利用して LLM 内の行列に対する適切なランク低減比を同定する。 WeLoreは圧縮技術に留まらず、ウェイト行列を低ランク成分(LRC)と非低ランク成分(N-LRC)に分類する。 我々の勾配の観点と広範な実験は、LCCはより優れた微調整能力を持ち、トレーニング損失の軌跡と、注目すべきメモリと計算フットプリントの削減によるフルファインタニングのパフォーマンスを(時にはより良く)正確に模倣できることを示している。 例えば、50\%圧縮されたLLaMa-2 7BモデルをLRC(WeLore)のごく一部のパラメータで微調整すると、スループットが約3倍、GPUが約0.6倍向上する。 私たちのコードは \url{https://github.com/VITA-Group/welore} で利用可能です。

Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at \url{https://github.com/VITA-Group/welore}
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# 新しいコネクティビティを作る:ニューヨーク・タイムズのコネクティビティ・ワードゲームのためのパズルジェネレータとしてのLLM

Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game ( http://arxiv.org/abs/2407.11240v1 )

ライセンス: Link先を確認
Tim Merino, Sam Earle, Ryan Sudhakaran, Shyam Sudhakaran, Julian Togelius, (参考訳) コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。 このゲームでは、プレイヤーは共通のテーマで繋がった4つの単語のグループを見つけるように依頼される。 与えられた接続パズルを解くには意味的知識と抽象的推論の両方を必要とするが、新しいパズルを生成するにはメタ認知の形式が必要である。 本稿では,大規模言語モデル (LLM) の GPT ファミリーが人間プレイヤーに挑戦的で創造的なワードゲームを生成する能力について検討する。 ゲームコネクション」という用語と、それがPCG(Procedural Content Generation)ドメインとして生み出すユニークな課題の分析から始めます。 そこで我々は,思考のツリー(ToT)のプロンプトアプローチを適用し,LLMを用いて接続パズルを生成する手法を提案する。 本研究では,AI生成パズルと発行されたコネクティクスパズルを比較し,ユーザスタディを実施して評価する。 この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。

The Connections puzzle is a word association game published daily by The New York Times (NYT). In this game, players are asked to find groups of four words that are connected by a common theme. While solving a given Connections puzzle requires both semantic knowledge and abstract reasoning, generating novel puzzles additionally requires a form of metacognition: generators must be able to accurately model the downstream reasoning of potential solvers. In this paper, we investigate the ability of the GPT family of Large Language Models (LLMs) to generate challenging and creative word games for human players. We start with an analysis of the word game Connections and the unique challenges it poses as a Procedural Content Generation (PCG) domain. We then propose a method for generating Connections puzzles using LLMs by adapting a Tree of Thoughts (ToT) prompting approach. We evaluate this method by conducting a user study, asking human players to compare AI-generated puzzles against published Connections puzzles. Our findings show that LLMs are capable puzzle creators, and can generate diverse sets of enjoyable, challenging, and creative Connections puzzles as judged by human users.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# OmniGenome:ゲノム基盤モデルにおける二次構造を持つRNA配列の調整

OmniGenome: Aligning RNA Sequences with Secondary Structures in Genomic Foundation Models ( http://arxiv.org/abs/2407.11242v1 )

ライセンス: Link先を確認
Heng Yang, Ke Li, (参考訳) RNA配列の構造は、様々な細胞プロセスにおいて重要な役割を担っているが、既存のゲノム基盤モデル(FM)は、ヌクレオチド塩基の指数的結合の複雑さのために、正確な配列構造アライメントに苦慮している。 本研究では,RNA FMにおける配列構造アライメントのこの重要な課題に対処する基礎モデルであるOmniGenomeを紹介する。 OmniGenomeは、構造コンテクスチュアライズドモデリングを使用して二次構造でシーケンスをブリッジし、既存のFMが処理できないハードなサイリコゲノムタスク、例えばRNA設計タスクを可能にする。 2つの総合的なゲノムベンチマークの結果から、OmniGenomeは複雑なRNAサブタスクで最先端のパフォーマンスを達成することが示された。 例えば、OmniGenomeは複雑なパズルの74%を解き、SpliceBERTはパズルの3%しか解けなかった。 さらに、OmniGenomeはパズルのほとんどを1時間以内で解決する。 全体として、OmniGenomeは広範囲のゲノム応用事例を確立し、配列構造アライメントの観点から生物学的メカニズムに関する深い洞察を提供する。

The structures of RNA sequences play a vital role in various cellular processes, while existing genomic foundation models (FMs) have struggled with precise sequence-structure alignment, due to the complexity of exponential combinations of nucleotide bases. In this study, we introduce OmniGenome, a foundation model that addresses this critical challenge of sequence-structure alignment in RNA FMs. OmniGenome bridges the sequences with secondary structures using structure-contextualized modeling, enabling hard in-silico genomic tasks that existing FMs cannot handle, e.g., RNA design tasks. The results on two comprehensive genomic benchmarks show that OmniGenome achieves state-of-the-art performance on complex RNA subtasks. For example, OmniGenome solved 74% of complex puzzles, compared to SpliceBERT which solved only 3% of the puzzles. Besides, OmniGenome solves most of the puzzles within $1$ hour, while the existing methods usually allocate $24$ hours for each puzzle. Overall, OmniGenome establishes wide genomic application cases and offers profound insights into biological mechanisms from the perspective of sequence-structure alignment.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# 顔行動理解のための表現学習とアイデンティティ支援訓練

Representation Learning and Identity Adversarial Training for Facial Behavior Understanding ( http://arxiv.org/abs/2407.11243v1 )

ライセンス: Link先を確認
Mang Ning, Albert Ali Salah, Itir Onal Ertugrul, (参考訳) AUには複雑な表情情報が含まれているため、顔行動ユニット(AU)検出が注目されている。 本稿では,AU検出における基本因子として,データと主観的同一性正則化の2つをまとめる。 基礎モデルの最近の進歩に触発されて、データの重要性を強調し、複数の公開リソースから900万の顔画像からなる多様なデータセットFace9Mを収集する。 Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。 次に、AUデータセットにおける主観的同一性は、モデルに対するショートカット学習を提供し、AU予測に対する準最適解をもたらすことを示す。 このようなAUタスクの一般的な問題に対処するために、IAT(Identity Adversarial Training)を提案し、アイデンティティ不変の特徴を学習するために強力なIAT正規化が必要であることを実証する。 さらに、IATの設計空間を解明し、IATがアイデンティティショートカット学習を回避し、よりよいソリューションをもたらすことを実証的に示す。 提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。 注目すべきは、提案されたFMAE-IATアプローチは、BP4D (67.1\%)、BP4D+ (66.8\%)、disFA (70.1\%)のデータベース上で、新しい最先端のF1スコアを達成し、以前の作業よりも大幅に上回っていることである。 私たちはコードとモデルをhttps://github.com/forever208/FMAE-IATでリリースしています。

Facial Action Unit (AU) detection has gained significant research attention as AUs contain complex expression information. In this paper, we unpack two fundamental factors in AU detection: data and subject identity regularization, respectively. Motivated by recent advances in foundation models, we highlight the importance of data and collect a diverse dataset Face9M, comprising 9 million facial images, from multiple public resources. Pretraining a masked autoencoder on Face9M yields strong performance in AU detection and facial expression tasks. We then show that subject identity in AU datasets provides a shortcut learning for the model and leads to sub-optimal solutions to AU predictions. To tackle this generic issue of AU tasks, we propose Identity Adversarial Training (IAT) and demonstrate that a strong IAT regularization is necessary to learn identity-invariant features. Furthermore, we elucidate the design space of IAT and empirically show that IAT circumvents the identity shortcut learning and results in a better solution. Our proposed methods, Facial Masked Autoencoder (FMAE) and IAT, are simple, generic and effective. Remarkably, the proposed FMAE-IAT approach achieves new state-of-the-art F1 scores on BP4D (67.1\%), BP4D+ (66.8\%), and DISFA (70.1\%) databases, significantly outperforming previous work. We release the code and model at https://github.com/forever208/FMAE-IAT, the first open-sourced facial model pretrained on 9 million diverse images.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# (深部)生成測地学

(Deep) Generative Geodesics ( http://arxiv.org/abs/2407.11244v1 )

ライセンス: Link先を確認
Beomsu Kim, Michael Puthawala, Jong Chul Ye, Emanuele Sansone, (参考訳) 本研究では,生成モデルの大域的幾何学的性質について考察する。 我々は、任意の2つのデータポイント間の類似性を評価するために、新しいリーマン計量を導入する。 重要なことは、我々の計量は生成モデルのパラメトリゼーションに非依存であり、そのデータの可能性を評価することしか必要としない。 さらに、この計量は、データ空間内で効率的に計算を行うことができる生成距離と生成測地学の概念的定義に導かれる。 彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。 本稿では、クラスタリング、データ可視化、データ補間を含む、この大域的メトリックの概念実証の3つの応用を紹介し、生成モデルの幾何学的理解を支援するための新しいツールを提供する。

In this work, we propose to study the global geometrical properties of generative models. We introduce a new Riemannian metric to assess the similarity between any two data points. Importantly, our metric is agnostic to the parametrization of the generative model and requires only the evaluation of its data likelihood. Moreover, the metric leads to the conceptual definition of generative distances and generative geodesics, whose computation can be done efficiently in the data space. Their approximations are proven to converge to their true values under mild conditions. We showcase three proof-of-concept applications of this global metric, including clustering, data visualization, and data interpolation, thus providing new tools to support the geometrical understanding of generative models.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# Pacer and Runner:シングルドメインとクロスドメインシーケンスレコメンデーションの協調学習フレームワーク

Pacer and Runner: Cooperative Learning Framework between Single- and Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2407.11245v1 )

ライセンス: Link先を確認
Chung Park, Taesan Kim, Hyungjun Yoon, Junui Hong, Yelim Yu, Mincheol Cho, Minsung Choi, Jaegul Choo, (参考訳) クロスドメインシークエンシャルレコメンデーション(CDSR)は、特定のドメイン内の歴史的相互作用に依存する単一ドメインシークエンシャルレコメンデーション(SDSR)とは対照的に、複数のドメインの情報を活用することでレコメンデーションパフォーマンスを向上させる。 しかし、CDSRは負の転送によって特定の領域におけるSDSRアプローチよりも性能が劣る可能性がある。 負の移動の問題に対処するため,提案したCDSRモデルは各領域の負の移動度を推定し,これを予測損失の重み付け因子として適応的に割り当て,負の遷移が有意な領域を通る勾配を制御する。 この目的のために、本モデルでは、複数のドメイン(CDSR)で訓練されたモデルと、特定のドメイン(SDSR)のみを訓練したモデルを比較し、非対称協調ネットワークを用いて各ドメインの負の移動を評価する。 さらに,SDSRタスクとCDSRタスク間の有意義なキューの転送を容易にするため,ドメイン単位の双方のタスクから表現ペア間の相互情報を最大化する補助的損失を開発した。 このSDSRタスクとCDSRタスクの協調学習は、マラソンにおけるペースターとランナーの協調的ダイナミクスと似ている。 当社のモデルは,10のサービスドメインにわたる2つの実世界の産業データセットに関する広範な実験において,これまで数多くの成果を上げました。 また、パーソナルアシスタントアプリサービスのレコメンデーションシステムにもモデルをデプロイし、実際のビジネスにとって価値のある既存のモデルと比較して、クリックスルーレートが21.4%向上しました。

Cross-Domain Sequential Recommendation (CDSR) improves recommendation performance by utilizing information from multiple domains, which contrasts with Single-Domain Sequential Recommendation (SDSR) that relies on a historical interaction within a specific domain. However, CDSR may underperform compared to the SDSR approach in certain domains due to negative transfer, which occurs when there is a lack of relation between domains or different levels of data sparsity. To address the issue of negative transfer, our proposed CDSR model estimates the degree of negative transfer of each domain and adaptively assigns it as a weight factor to the prediction loss, to control gradient flows through domains with significant negative transfer. To this end, our model compares the performance of a model trained on multiple domains (CDSR) with a model trained solely on the specific domain (SDSR) to evaluate the negative transfer of each domain using our asymmetric cooperative network. In addition, to facilitate the transfer of valuable cues between the SDSR and CDSR tasks, we developed an auxiliary loss that maximizes the mutual information between the representation pairs from both tasks on a per-domain basis. This cooperative learning between SDSR and CDSR tasks is similar to the collaborative dynamics between pacers and runners in a marathon. Our model outperformed numerous previous works in extensive experiments on two real-world industrial datasets across ten service domains. We also have deployed our model in the recommendation system of our personal assistant app service, resulting in 21.4% increase in click-through rate compared to existing models, which is valuable to real-world business.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# 共鳴原子干渉計における1000倍位相増幅のためのマルチパス干渉によるロバスト量子制御

Robust Quantum Control via Multipath Interference for Thousandfold Phase Amplification in a Resonant Atom Interferometer ( http://arxiv.org/abs/2407.11246v1 )

ライセンス: Link先を確認
Yiping Wang, Jonah Glick, Tejas Deshpande, Kenneth DeRose, Sharika Saraf, Natasha Sachdeva, Kefeng Jiang, Zilin Chen, Tim Kovachy, (参考訳) 本稿では,光パルス原子干渉計のパルス不均一性に対する堅牢性を高める新しい手法を提案する。 この技術は量子最適制御を用いて、不完全な原子-光学演算によって生じる迷路軌道のマルチパス干渉を好適に活用する。 本手法を共振型原子干渉計に適用し,数千倍の位相増幅を実現する。 さらに,自然放出と多パルスシーケンスの相互作用から急激な干渉が生じ,この効果を緩和するための最適化戦略が示された。 量子系における自然放出の普遍性を考えると、これらの結果は様々な量子センサーの性能向上に有用かもしれない。 我々は,ダークマター,ダークエネルギ,重力波検出など,さまざまな用途において,物質波干渉計の性能向上が期待できる。

We introduce a novel technique for enhancing the robustness of light-pulse atom interferometers against the pulse infidelities that typically limit their sensitivities. The technique uses quantum optimal control to favorably harness the multipath interference of the stray trajectories produced by imperfect atom-optics operations. We apply this method to a resonant atom interferometer and achieve thousand-fold phase amplification, representing a fifty-fold improvement over the performance observed without optimized control. Moreover, we find that spurious interference can arise from the interplay of spontaneous emission and many-pulse sequences and demonstrate optimization strategies to mitigate this effect. Given the ubiquity of spontaneous emission in quantum systems, these results may be valuable for improving the performance of a diverse array of quantum sensors. We anticipate our findings will significantly benefit the performance of matter-wave interferometers for a variety of applications, including dark matter, dark energy, and gravitational wave detection.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# マルチタスク学習によるRNNの遠隔表現

Disentangling Representations in RNNs through Multi-task Learning ( http://arxiv.org/abs/2407.11249v1 )

ライセンス: Link先を確認
Pantelis Vafidis, Aman Bhargava, Antonio Rangel, (参考訳) 抽象的あるいは非絡み合った表現は、生物学的システムと人工システムの両方において効率的かつ効果的な一般化のための有望な数学的枠組みである。 ノイズのあるエビデンスストリームに対するマルチタスク分類の文脈における抽象表現について検討する。 タスク数が状態空間の次元を超えるとき、任意の最適マルチタスク分類器の潜在状態における非交叉表現の出現を保証する理論的境界を導出する。 マルチタスク分類で訓練されたRNNは、連続的なアトラクタの形で非交叉表現を学習し、ゼロショット・アウト・オブ・ディストリビューション(OOD)の一般化につながることを実験的に確認した。 本稿では,様々な決定境界領域における抽象的RNN表現の柔軟性と,分類信頼度推定を必要とするタスクについて述べる。 本枠組みは,生物・人工システムの柔軟な一般化を実現するために知識を整理する認知マップの形成に関する一般的な原理を示唆し,意思決定や空間的推論作業において人間や動物に見られる表現と密接に関連している。

Abstract, or disentangled, representations are a promising mathematical framework for efficient and effective generalization in both biological and artificial systems. We investigate abstract representations in the context of multi-task classification over noisy evidence streams -- a canonical decision-making neuroscience paradigm. We derive theoretical bounds that guarantee the emergence of disentangled representations in the latent state of any optimal multi-task classifier, when the number of tasks exceeds the dimensionality of the state space. We experimentally confirm that RNNs trained on multi-task classification learn disentangled representations in the form of continuous attractors, leading to zero-shot out-of-distribution (OOD) generalization. We demonstrate the flexibility of the abstract RNN representations across various decision boundary geometries and in tasks requiring classification confidence estimation. Our framework suggests a general principle for the formation of cognitive maps that organize knowledge to enable flexible generalization in biological and artificial systems alike, and closely relates to representations found in humans and animals during decision-making and spatial reasoning tasks.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# 分離可能なオペレータネットワーク

Separable Operator Networks ( http://arxiv.org/abs/2407.11253v1 )

ライセンス: Link先を確認
Xinling Yu, Sean Hooten, Ziyue Liu, Yequan Zhao, Marco Fiorentino, Thomas Van Vaerenbergh, Zheng Zhang, (参考訳) 演算子学習は、複雑な物理システムをモデリングするための機械学習の強力なツールとなっている。 Deep Operator Networks (DeepONet) は将来性を示すが、大規模なデータ取得が必要である。 物理インフォームドディープノネット(PI-DeepONet)はデータの不足を軽減するが、非効率なトレーニングプロセスに悩まされる。 本稿では,物理インフォームド演算子の学習効率を大幅に向上させる新しいフレームワークであるSepONetを紹介した。 SepONetは独立したトランクネットワークを使用して、異なる座標軸の基底関数を個別に学習する。 一般化近似定理を用いてSepONetを理論的に保証し、PI-DeepONetに対する総合的なベンチマークによりその性能を検証する。 SepONetは, 平均相対値$\ell_{2}$誤差を100の変数係数で6%以下とした場合, トレーニング速度アップで最大112ドル, PI-DeepONetで最大812ドルとなるGPUメモリ使用率を削減できることを示した。 同様の計算上の優位性は、様々な偏微分方程式で観測され、SepONetの効率は問題複雑性が増加するにつれて好適にスケールする。 この研究は無限次元函数空間間の連続写像の極大学習の道を開く。

Operator learning has become a powerful tool in machine learning for modeling complex physical systems. Although Deep Operator Networks (DeepONet) show promise, they require extensive data acquisition. Physics-informed DeepONets (PI-DeepONet) mitigate data scarcity but suffer from inefficient training processes. We introduce Separable Operator Networks (SepONet), a novel framework that significantly enhances the efficiency of physics-informed operator learning. SepONet uses independent trunk networks to learn basis functions separately for different coordinate axes, enabling faster and more memory-efficient training via forward-mode automatic differentiation. We provide theoretical guarantees for SepONet using the universal approximation theorem and validate its performance through comprehensive benchmarking against PI-DeepONet. Our results demonstrate that for the 1D time-dependent advection equation, when targeting a mean relative $\ell_{2}$ error of less than 6% on 100 unseen variable coefficients, SepONet provides up to $112 \times$ training speed-up and $82 \times$ GPU memory usage reduction compared to PI-DeepONet. Similar computational advantages are observed across various partial differential equations, with SepONet's efficiency gains scaling favorably as problem complexity increases. This work paves the way for extreme-scale learning of continuous mappings between infinite-dimensional function spaces.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# コンカレント画像と変換動作の基礎

Conquering images and the basis of transformative action ( http://arxiv.org/abs/2407.11254v1 )

ライセンス: Link先を確認
Hunter Priniski, (参考訳) オンライン生活に急激な没入が私たち全員を病気にした。 魅惑的なイメージの生成、パーソナライズ、普及を通じて、人工知能は大衆の心と心を吐き出す精度とスケールでコモディティ化する。 オンラインネットワーク、人工知能(AI)、ソーシャルメディア、デジタルニュースは、コミュニティとアイデンティティを分割し分断する物語を確立することによって、私たちの信念と追求を微調整します。 一方、これらのテクノロジーを指揮する人々は、私たちの内的生活、社会関係、地球、宇宙の最後のフロンティアを征服します。 注意経済においては、我々の機関は制限されており、我々の活力は自己愛的な追求と喜びのために枯渇している。 生成AIは、愚かな「特異性」イベントを通じてではなく、人間の創造性、労働力、社会生活を評価することによって、生命を均質化し、根絶する力を与える。 破壊レンズを用いて、物語やネットワークが精神、社会的、アルゴリズムのレベルに与える影響を調べる。 イメージの微粒化 -- 個人を元気づけるのではなく、疎外する理想や追求 -- が、彼らを破壊する力を維持するために人々の代理店を乗っ取る方法について議論する。 我々は、帝国がいかにして社会を最適化し、ナルシストを象徴するデジタルネットワークを構築し、消費、搾取、階層の絶え間ない拡大を持続させる社会的バイナリを強制するかを発見する。 世界の構造的階層は、私たちの信念と思考の階層を通して強化されます。 イメージをイメージとして見るだけで、対立する物語によって共有される類似性を理解することで、変革的な行動を促進し、我々の生活を悩ませる軍事システムから切り離すことができます。

Our rapid immersion into online life has made us all ill. Through the generation, personalization, and dissemination of enchanting imagery, artificial technologies commodify the minds and hearts of the masses with nauseating precision and scale. Online networks, artificial intelligence (AI), social media, and digital news feeds fine-tune our beliefs and pursuits by establishing narratives that subdivide and polarize our communities and identities. Meanwhile those commanding these technologies conquer the final frontiers of our interior lives, social relations, earth, and cosmos. In the Attention Economy, our agency is restricted and our vitality is depleted for their narcissistic pursuits and pleasures. Generative AI empowers the forces that homogenize and eradicate life, not through some stupid "singularity" event, but through devaluing human creativity, labor, and social life. Using a fractured lens, we will examine how narratives and networks influence us on mental, social, and algorithmic levels. We will discuss how atomizing imagery -- ideals and pursuits that alienate, rather than invigorate the individual -- hijack people's agency to sustain the forces that destroy them. We will discover how empires build digital networks that optimize society and embolden narcissists to enforce social binaries that perpetuate the ceaseless expansion of consumption, exploitation, and hierarchy. Structural hierarchy in the world is reified through hierarchy in our beliefs and thinking. Only by seeing images as images and appreciating the similarity shared by opposing narratives can we facilitate transformative action and break away from the militaristic systems plaguing our lives.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# SoK: ランドスケープと今後の方向性を損なうソフトウェア

SoK: Software Debloating Landscape and Future Directions ( http://arxiv.org/abs/2407.11259v1 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Yazan Boshmaf, Ashish Gehani, (参考訳) ソフトウェアデ肥大化は、不要なコードを排除してセキュリティリスクを軽減し、パフォーマンスを向上させることを目指している。 近年、多くの脱血ツールが開発され、密集した様々な風景が生み出されている。 いくつかの研究は、これらのツールの比較分析に焦点をあてて、文献を掘り下げている。 本稿では,これらの取り組みに基づき,ソフトウェアにおける知識の包括的体系化(SoK)を提案する。 マルチレベル分類の基盤となるソフトウェアのデブロ化ワークフローを概念化する。 このフレームワークは、インプット/アウトプットアーティファクト、デブレーション戦略、評価基準に従ってデブレーションツールを分類する。 最後に、この分類法を適用して、この分野のオープンな問題を指摘し、SoKとともに、脱血を通じてソフトウェアのセキュリティと効率を改善することを目的とした研究者の基本的な基準を提供する。

Software debloating seeks to mitigate security risks and improve performance by eliminating unnecessary code. In recent years, a plethora of debloating tools have been developed, creating a dense and varied landscape. Several studies have delved into the literature, focusing on comparative analysis of these tools. To build upon these efforts, this paper presents a comprehensive systematization of knowledge (SoK) of the software debloating landscape. We conceptualize the software debloating workflow, which serves as the basis for developing a multilevel taxonomy. This framework classifies debloating tools according to their input/output artifacts, debloating strategies, and evaluation criteria. Lastly, we apply the taxonomy to pinpoint open problems in the field, which, together with the SoK, provide a foundational reference for researchers aiming to improve software security and efficiency through debloating.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# エッジ深層学習のための高品質スケーラブル量子化手法

Quality Scalable Quantization Methodology for Deep Learning on Edge ( http://arxiv.org/abs/2407.11260v1 )

ライセンス: Link先を確認
Salman Abdul Khaliq, Rehan Hafiz, (参考訳) ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。 本研究の目的は,ユビキタスコンピューティングデバイス上でのエッジコンピューティングにおける機械学習技術を用いたCNNのエネルギー消費量とサイズを削減することである。 本稿では,より抽象度の高い品質のスケーラブルな量子化と,より抽象度の高い品質のスケーラブルな乗算器からなるシステム品質のスケーラブルな設計手法を提案する。 最初のコンポーネントはパラメータ圧縮で構成され、3ビットの符号化によりディープラーニングモデルのフィルタにおける値の表現を近似する。 これらの3ビット表現をデコードして近似フィルタ値の復元が可能なオンチップデコードハードウェアに基づくシフトとスケールを提案する。 この方法でDNNモデルのサイズを縮小し、通信チャネル経由で送信してエッジコンピューティングデバイスで復号化することができる。 この方法では、近似によってデータビットを制限することで電力を削減できる。 第2のコンポーネントでは、正準符号桁表現の数値を変換し、最小有意ビットを減らしてさらに近似することで、部分積の数を削減できる、スケーラブルな乗算器を提案する。 これらの量子化されたCNNは、元の重みがほとんどあるいは全く微調整されていないネットワークとほとんど同じAC精度を提供する。 適応乗算器のハードウェアは、ゲートクロックを利用して乗算時のエネルギー消費を低減する。 提案手法は,DNNモデルのメモリと電力の要求を大幅に低減し,エッジコンピューティングにディープラーニングをデプロイするための実現可能なアプローチである。 LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。

Deep Learning Architectures employ heavy computations and bulk of the computational energy is taken up by the convolution operations in the Convolutional Neural Networks. The objective of our proposed work is to reduce the energy consumption and size of CNN for using machine learning techniques in edge computing on ubiquitous computing devices. We propose Systematic Quality Scalable Design Methodology consisting of Quality Scalable Quantization on a higher abstraction level and Quality Scalable Multipliers at lower abstraction level. The first component consists of parameter compression where we approximate representation of values in filters of deep learning models by encoding in 3 bits. A shift and scale based on-chip decoding hardware is proposed which can decode these 3-bit representations to recover approximate filter values. The size of the DNN model is reduced this way and can be sent over a communication channel to be decoded on the edge computing devices. This way power is reduced by limiting data bits by approximation. In the second component we propose a quality scalable multiplier which reduces the number of partial products by converting numbers in canonic sign digit representations and further approximating the number by reducing least significant bits. These quantized CNNs provide almost same ac-curacy as network with original weights with little or no fine-tuning. The hardware for the adaptive multipliers utilize gate clocking for reducing energy consumption during multiplications. The proposed methodology greatly reduces the memory and power requirements of DNN models making it a feasible approach to deploy Deep Learning on edge computing. The experiments done on LeNet and ConvNets show an increase upto 6% of zeros and memory savings upto 82.4919% while keeping the accuracy near the state of the art.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# リアルアパレルアニメーションによる高画質3次元モーショントランスファーの実現に向けて

Towards High-Quality 3D Motion Transfer with Realistic Apparel Animation ( http://arxiv.org/abs/2407.11266v1 )

ライセンス: Link先を確認
Rong Wang, Wei Mao, Changsheng Lu, Hongdong Li, (参考訳) 参照モーションシーケンスにマッチするようにスタイリングされたキャラクターをアニメーションすることは、映画やゲーム産業において非常に要求の多いタスクである。 既存の手法は主に文字体の剛性変形に焦点を合わせ、物理力学によって駆動されるアパレルの局所的な変形を無視する。 彼らは体と同じようにアパレルを変形させ、その結果は限定された詳細と非現実的なアーティファクト、例えばボディ・アパレルの浸透をもたらす。 対照的に,現実的なアパレルアニメーションを用いた高品質な動き伝達を目的とした新しい手法を提案する。 既存のデータセットには現実的なアパレルアニメーションを生成するのに必要なアノテーションがないため、MikuMikuDanceコミュニティのスタイル化された文字と実世界のモーションキャプチャーデータを組み合わせたMDMCと呼ばれる新しいデータセットを構築します。 次に,2つのニューラル変形モジュールを介して体を歪め,アパレル変形を学習するデータ駆動パイプラインを提案する。 そこで本研究では, 身体の複雑な形状に対応するために, セマンティック先行を骨格の変形に効果的に組み込むジオデシックアテンションブロックを提案する。 アパレル運動は各体接合部から大きく逸脱するので, 歴史的条件を条件とした非線形頂点変位場におけるアパレル変形をモデル化することを提案する。 実験により, 各種アパレルの品質に優れた結果が得られた。 私たちのデータセットはhttps://github.com/rongakowang/MMDMCで公開されています。

Animating stylized characters to match a reference motion sequence is a highly demanded task in film and gaming industries. Existing methods mostly focus on rigid deformations of characters' body, neglecting local deformations on the apparel driven by physical dynamics. They deform apparel the same way as the body, leading to results with limited details and unrealistic artifacts, e.g. body-apparel penetration. In contrast, we present a novel method aiming for high-quality motion transfer with realistic apparel animation. As existing datasets lack annotations necessary for generating realistic apparel animations, we build a new dataset named MMDMC, which combines stylized characters from the MikuMikuDance community with real-world Motion Capture data. We then propose a data-driven pipeline that learns to disentangle body and apparel deformations via two neural deformation modules. For body parts, we propose a geodesic attention block to effectively incorporate semantic priors into skeletal body deformation to tackle complex body shapes for stylized characters. Since apparel motion can significantly deviate from respective body joints, we propose to model apparel deformation in a non-linear vertex displacement field conditioned on its historic states. Extensive experiments show that our method produces results with superior quality for various types of apparel. Our dataset is released in https://github.com/rongakowang/MMDMC.
翻訳日:2024-07-17 19:11:45 公開日:2024-07-15
# 多段ブレント原油価格予測のエンサンブル型ビGRUネットワークによる強化

Enhancing Multi-Step Brent Oil Price Forecasting with Ensemble Multi-Scenario Bi-GRU Networks ( http://arxiv.org/abs/2407.11267v1 )

ライセンス: Link先を確認
Mohammed Alruqimi, Luca Di Persio, (参考訳) 時系列予測にディープラーニングを適用する多くの研究努力にもかかわらず、原油価格のような揮発性時系列の多段階予測において高い精度を達成することは大きな課題である。 さらに、既存のアプローチのほとんどは1ステップの予測に重点を置いており、そのパフォーマンスはデータセットや特定のケーススタディによって異なります。 本稿では,ブレント原油価格のボラティリティを把握し,多段階予測を強化するためのアンサンブルモデルを提案する。 我々の手法は2段階のアプローチを採用している。 まず、一般的なディープラーニングモデルと様々な外部要因が予測精度に与える影響を評価する。 次に,ブレント原油価格に対するアンサンブル多段階予測モデルを導入する。 提案手法は,3つのBI-GRUネットワークを用いて,複数の予測シナリオにアンサンブル技術を用いて正確な予測を生成する。 提案モデルの性能は,MAE,MSE,RMSEの標準評価指標を用いて評価した。 その結果,提案モデルがベンチマークおよび確立されたモデルより優れていることが示された。

Despite numerous research efforts in applying deep learning to time series forecasting, achieving high accuracy in multi-step predictions for volatile time series like crude oil prices remains a significant challenge. Moreover, most existing approaches primarily focus on one-step forecasting, and the performance often varies depending on the dataset and specific case study. In this paper, we introduce an ensemble model to capture Brent oil price volatility and enhance the multi-step prediction. Our methodology employs a two-pronged approach. First, we assess popular deep-learning models and the impact of various external factors on forecasting accuracy. Then, we introduce an ensemble multi-step forecasting model for Brent oil prices. Our approach generates accurate forecasts by employing ensemble techniques across multiple forecasting scenarios using three BI-GRU networks.Extensive experiments were conducted on a dataset encompassing the COVID-19 pandemic period, which had a significant impact on energy markets. The proposed model's performance was evaluated using the standard evaluation metrics of MAE, MSE, and RMSE. The results demonstrate that the proposed model outperforms benchmark and established models.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 入力マッピングと潜時可変ガウス過程による異種多元データ融合

Heterogenous Multi-Source Data Fusion Through Input Mapping and Latent Variable Gaussian Process ( http://arxiv.org/abs/2407.11268v1 )

ライセンス: Link先を確認
Yigitcan Comlek, Sandipp Krishnan Ravi, Piyush Pandita, Sayan Ghosh, Liping Wang, Wei Chen, (参考訳) 人工知能と機械学習フレームワークは、エンジニアリング問題に対する入力と出力の間の計算効率のよいマッピングとして機能してきた。 これらのマッピングにより、優れた設計、創発的な材料システム、最適化された製造プロセスを保証する最適化と分析のルーチンが実現された。 このようなモデリングの取り組みでよく見られるのは、複数のデータソースの存在であり、それぞれが忠実さ、操作条件、実験条件などによって区別される。 データ融合フレームワークは、そのような区別されたソースを単一の統一モデルに統合し、精度と知識の伝達を改善する可能性を開放した。 しかし、これらのフレームワークは、異なるソースが本質的に不均一である場合、すなわち、同じ入力パラメータ空間を共有しない場合に制限に直面する。 これらの異種入力シナリオは、複雑さ、スケール、忠実さによって区別されたドメインが異なるパラメトリゼーションを必要とする場合に起こりうる。 この問題に対処するために、入力マッピングキャリブレーション(IMC)と潜在変数ガウス過程(LVGP)に基づいて、異種マルチソースデータ融合フレームワークを提案する。 第一段階では、MCアルゴリズムを用いて不均一な入力パラメータ空間を統一された参照パラメータ空間に変換する。 第2段階では、LVGPによって実現されたマルチソースデータ融合モデルを利用して、変換された参照空間上に単一のソース認識サロゲートモデルを構築する。 提案手法は, カンチレバービームの設計, 楕円形空隙の設計, Ti6Al4V合金のモデル化特性の3つの技術事例で実証および解析を行った。 その結果,提案フレームワークは単一のソースモデルに対して予測精度を向上し,変換されるがソースを意識しないモデルを提供することがわかった。

Artificial intelligence and machine learning frameworks have served as computationally efficient mapping between inputs and outputs for engineering problems. These mappings have enabled optimization and analysis routines that have warranted superior designs, ingenious material systems and optimized manufacturing processes. A common occurrence in such modeling endeavors is the existence of multiple source of data, each differentiated by fidelity, operating conditions, experimental conditions, and more. Data fusion frameworks have opened the possibility of combining such differentiated sources into single unified models, enabling improved accuracy and knowledge transfer. However, these frameworks encounter limitations when the different sources are heterogeneous in nature, i.e., not sharing the same input parameter space. These heterogeneous input scenarios can occur when the domains differentiated by complexity, scale, and fidelity require different parametrizations. Towards addressing this void, a heterogeneous multi-source data fusion framework is proposed based on input mapping calibration (IMC) and latent variable Gaussian process (LVGP). In the first stage, the IMC algorithm is utilized to transform the heterogeneous input parameter spaces into a unified reference parameter space. In the second stage, a multi-source data fusion model enabled by LVGP is leveraged to build a single source-aware surrogate model on the transformed reference space. The proposed framework is demonstrated and analyzed on three engineering case studies (design of cantilever beam, design of ellipsoidal void and modeling properties of Ti6Al4V alloy). The results indicate that the proposed framework provides improved predictive accuracy over a single source model and transformed but source unaware model.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 自動車組織における欧州データとAI規制の分析

An Analysis of European Data and AI Regulations for Automotive Organizations ( http://arxiv.org/abs/2407.11271v1 )

ライセンス: Link先を確認
Charlotte A. Shahlaei, Nicholas Berente, (参考訳) このレポートは、欧州連合の一連のデータおよびAI規制を要約し、それらを自動車製造組織のマネージャのために分析する。 特に、以前の法律にルーツを見出す方法、相互に矛盾し補完する方法、そしてこれらの規制が提供するビジネスチャンスなど、規制の関連する考え方を強調します。 報告書の構成は以下の通りである。 まず、GDPRを、他の規制の要件を考慮し、合法化するための基盤として扱う。 第2に、民間企業のIoT(Internet of Things)を直接対応し、自動車メーカーなどの大規模データ生成装置に厳格な要件を課しているため、EUデータ法について説明する。 製造業者にとって、EUデータ法への準拠は、その後の法律、特にEU AI法に必須である。 第3に、データガバナンス法、デジタルサービス法、デジタル市場法、EUAI法を時系列順に説明する。 全体として、我々は欧州連合のデータ規制を、歴史的先例に根ざした波の集合として特徴づけ、自動車産業に重要な意味を持つ。

This report summarizes the European Union's series of data and AI regulations and analyzes them for managers in automotive vehicle manufacturing organizations. In particular, we highlight the relevant ideas of the regulations, including how they find their roots in earlier legislation, how they contradict and complement each other, as well as the business opportunities that these regulations offer. The structure of the report is as follows. First, we address the GDPR as the cornerstone against which the requirements of other regulations are weighed and legislated. Second, we explain the EU Data Act since it directly addresses Internet of Things (IoT) for businesses in the private sector and imposes strict requirements on large data generators such as vehicle manufacturers. For manufacturers, compliance with the EU Data Act is a prerequisite for the subsequent legislation, in particular the EU AI Act. Third, we explain the Data Governance Act, Digital Services Act, Digital Markets Act, and EU AI Act in chronological order. Overall, we characterize European Union data regulations as a wave set, rooted in historical precedent, with important implications for the automotive industry.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 微分可能なボクセル化とメッシュモルフィング

Differentiable Voxelization and Mesh Morphing ( http://arxiv.org/abs/2407.11272v1 )

ライセンス: Link先を確認
Yihao Luo, Yikai Wang, Zhengrui Xiang, Yuliang Xiu, Guang Yang, ChoonHwai Yap, (参考訳) 本稿では,3次元メッシュの回転数と固体角による微分可能なボキセル化を提案する。 提案手法は、3次元メッシュの高速で柔軟で正確なボキセル化を実現し、入力メッシュとGPUアクセラレーションに関する勾配の計算を許容する。 さらに、ニューラルネットワークによって酸化メッシュが変形するメッシュモルフィングにおいて、提案した酸化ボキセル化の応用を実証する。 提案手法はShapeNetデータセットを用いて評価し,精度と効率の両面で最先端の性能を実現する。

In this paper, we propose the differentiable voxelization of 3D meshes via the winding number and solid angles. The proposed approach achieves fast, flexible, and accurate voxelization of 3D meshes, admitting the computation of gradients with respect to the input mesh and GPU acceleration. We further demonstrate the application of the proposed voxelization in mesh morphing, where the voxelized mesh is deformed by a neural network. The proposed method is evaluated on the ShapeNet dataset and achieves state-of-the-art performance in terms of both accuracy and efficiency.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 不均一なプライバシー下における経験的平均と周波数推定--最悪のケース分析

Empirical Mean and Frequency Estimation Under Heterogeneous Privacy: A Worst-Case Analysis ( http://arxiv.org/abs/2407.11274v1 )

ライセンス: Link先を確認
Syomantak Chaudhuri, Thomas A. Courtade, (参考訳) 微分プライバシー(DP)は、現在プライバシーを測定するための金の標準である。 文献に現れるDP制約に基づく推定問題は、主に全ユーザーに平等なプライバシーを提供することに焦点が当てられている。 本研究では,一変量データに対する経験的平均推定の問題とカテゴリーデータに対する周波数推定の問題について考察する。 データセットにサンプルをコントリビュートする各ユーザは,それぞれ異なるプライバシ要求を持つことができる。 データセット自体が最悪であると仮定され、2つの異なる定式化における問題、相関性と非相関性の両方について研究する。 前者設定では、プライバシ要求とユーザデータは任意に相関できるが、後者設定では、データセットとプライバシ要求との間には相関がない。 提案アルゴリズムでは,PAC誤差と平均二乗誤差の両面から最適性を証明し,他のベースライン手法よりも優れた性能を示す。

Differential Privacy (DP) is the current gold-standard for measuring privacy. Estimation problems under DP constraints appearing in the literature have largely focused on providing equal privacy to all users. We consider the problems of empirical mean estimation for univariate data and frequency estimation for categorical data, two pillars of data analysis in the industry, subject to heterogeneous privacy constraints. Each user, contributing a sample to the dataset, is allowed to have a different privacy demand. The dataset itself is assumed to be worst-case and we study both the problems in two different formulations -- the correlated and the uncorrelated setting. In the former setting, the privacy demand and the user data can be arbitrarily correlated while in the latter setting, there is no correlation between the dataset and the privacy demand. We prove some optimality results, under both PAC error and mean-squared error, for our proposed algorithms and demonstrate superior performance over other baseline techniques experimentally.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# M18K: 総合的なRGB-Dデータセットとマッシュルーム検出とインスタンスセグメンテーションのためのベンチマーク

M18K: A Comprehensive RGB-D Dataset and Benchmark for Mushroom Detection and Instance Segmentation ( http://arxiv.org/abs/2407.11275v1 )

ライセンス: Link先を確認
Abdollah Zakeri, Mulham Fawakherji, Jiming Kang, Bikram Koirala, Venkatesh Balan, Weihang Zhu, Driss Benhaddou, Fatima A. Merchant, (参考訳) 農業プロセスの自動化は、様々な農業慣行における効率性と持続可能性を高めるための重要な約束である。 本稿では,Agaricus Bisporus fungusを用いたボタンキノコの自動収穫,成長モニタリング,品質管理に関連するキノコ検出データセットを提供することにより,農業プロセスの自動化に寄与する。 Intel RealSense D405カメラで撮影された423のRGB-Dイメージペアに18,000以上のキノコインスタンスがあり、キノコ固有のデータセットのギャップを埋め、スマートキノコ農業における検出とインスタンスセグメンテーションアルゴリズムのベンチマークとして機能する。 包括的なアノテーションを備えた現実的な成長環境シナリオを特徴とするデータセットは、高度な検出アルゴリズムとインスタンスセグメンテーションアルゴリズムを使用して評価される。 論文ではデータセットの特徴を詳述し、アルゴリズムのパフォーマンスを評価し、より広範な適用性のために、GitHubリポジトリ https://github.com/abdollahzakeri/m18kを通じて、イメージ、コード、トレーニングされたモデルを含むすべてのリソースを公開しました。

Automating agricultural processes holds significant promise for enhancing efficiency and sustainability in various farming practices. This paper contributes to the automation of agricultural processes by providing a dedicated mushroom detection dataset related to automated harvesting, growth monitoring, and quality control of the button mushroom produced using Agaricus Bisporus fungus. With over 18,000 mushroom instances in 423 RGB-D image pairs taken with an Intel RealSense D405 camera, it fills the gap in mushroom-specific datasets and serves as a benchmark for detection and instance segmentation algorithms in smart mushroom agriculture. The dataset, featuring realistic growth environment scenarios with comprehensive annotations, is assessed using advanced detection and instance segmentation algorithms. The paper details the dataset's characteristics, evaluates algorithmic performance, and for broader applicability, we have made all resources publicly available including images, codes, and trained models via our GitHub repository https://github.com/abdollahzakeri/m18k
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# ターゲット会話抽出:ターンテイクダイナミクスを用いた音源分離

Target conversation extraction: Source separation using turn-taking dynamics ( http://arxiv.org/abs/2407.11277v1 )

ライセンス: Link先を確認
Tuochao Chen, Qirui Wang, Bohan Wu, Malek Itani, Emre Sefik Eskimez, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 話者と騒音の干渉による会話における参加者の発言の抽出は,課題となる。 本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。 そこで本研究では,人間の会話に固有の時間的パターン,特にターンテイクのダイナミクスを活用することを提案する。 ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。 干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対1対4対4対4対4対2対2対2対2対1対1対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1 Code、データセットはhttps://github.com/chentuochao/Target-Conversation-Extractionで入手できる。

Extracting the speech of participants in a conversation amidst interfering speakers and noise presents a challenging problem. In this paper, we introduce the novel task of target conversation extraction, where the goal is to extract the audio of a target conversation based on the speaker embedding of one of its participants. To accomplish this, we propose leveraging temporal patterns inherent in human conversations, particularly turn-taking dynamics, which uniquely characterize speakers engaged in conversation and distinguish them from interfering speakers and noise. Using neural networks, we show the feasibility of our approach on English and Mandarin conversation datasets. In the presence of interfering speakers, our results show an 8.19 dB improvement in signal-to-noise ratio for 2-speaker conversations and a 7.92 dB improvement for 2-4-speaker conversations. Code, dataset available at https://github.com/chentuochao/Target-Conversation-Extraction.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# CICAPT-IIOT: IIoT環境のための証明ベースのAPT攻撃データセット

CICAPT-IIOT: A provenance-based APT attack dataset for IIoT environment ( http://arxiv.org/abs/2407.11278v1 )

ライセンス: Link先を確認
Erfan Ghiasvand, Suprio Ray, Shahrear Iqbal, Sajjad Dadkhah, Ali A. Ghorbani, (参考訳) 産業用モノのインターネット(Industrial Internet of Things, IIoT)は、スマートセンサー、高度な分析、および産業プロセス内の堅牢な接続を統合し、リアルタイムのデータ駆動による意思決定を可能にし、製造、エネルギー、物流を含むさまざまな分野にわたる運用効率を向上する変革的パラダイムである。 IIoTは様々な攻撃ベクターに感受性があり、Advanced Persistent Threats (APTs) はそのステルス性、長期性、標的とする性質のために特に重大な懸念を呈している。 APT検出における機械学習による侵入検知システムの有効性は文献に記録されている。 しかし、既存のサイバーセキュリティデータセットは、IIoT環境でのAPT検出の重要な属性を欠いていることが多い。 CICAPT-IIoTデータセットは,IoTシステム内における前兆データと侵入検出を用いたAPT検出に関する先行研究の知見を取り入れたものである。 本研究の主な目的は、APT検出タスクに不可欠な情報を含む新しいAPTデータセットをIIoT設定で提案することである。 これを実現するために、IIoT用のテストベッドが開発され、APTキャンペーンで頻繁に使用される20以上のアタックテクニックが組み込まれている。 実行された攻撃は、データ収集と抽出、発見と横行運動、防衛侵略、永続性など、APTサイクルの不変フェーズの一部を生成する。 ネットワークログとプロファイランスログを詳細な攻撃情報と統合することにより、CICAPT-IIoTデータセットは、総合的なサイバーセキュリティ対策を開発するための基盤を提供する。 さらに、包括的なデータセット分析が提供され、革新的で効率的なセキュリティソリューションを構築するための強力な基盤をサイバーセキュリティの専門家に提供する。

The Industrial Internet of Things (IIoT) is a transformative paradigm that integrates smart sensors, advanced analytics, and robust connectivity within industrial processes, enabling real-time data-driven decision-making and enhancing operational efficiency across diverse sectors, including manufacturing, energy, and logistics. IIoT is susceptible to various attack vectors, with Advanced Persistent Threats (APTs) posing a particularly grave concern due to their stealthy, prolonged, and targeted nature. The effectiveness of machine learning-based intrusion detection systems in APT detection has been documented in the literature. However, existing cybersecurity datasets often lack crucial attributes for APT detection in IIoT environments. Incorporating insights from prior research on APT detection using provenance data and intrusion detection within IoT systems, we present the CICAPT-IIoT dataset. The main goal of this paper is to propose a novel APT dataset in the IIoT setting that includes essential information for the APT detection task. In order to achieve this, a testbed for IIoT is developed, and over 20 attack techniques frequently used in APT campaigns are included. The performed attacks create some of the invariant phases of the APT cycle, including Data Collection and Exfiltration, Discovery and Lateral Movement, Defense Evasion, and Persistence. By integrating network logs and provenance logs with detailed attack information, the CICAPT-IIoT dataset presents foundation for developing holistic cybersecurity measures. Additionally, a comprehensive dataset analysis is provided, presenting cybersecurity experts with a strong basis on which to build innovative and efficient security solutions.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# Androidシステムにおけるファイルシステム脆弱性の静的検出

Static Detection of Filesystem Vulnerabilities in Android Systems ( http://arxiv.org/abs/2407.11279v1 )

ライセンス: Link先を確認
Yu-Tsung Lee, Hayawardh Vijayakumar, Zhiyun Qian, Trent Jaeger, (参考訳) ファイルシステムの脆弱性は、様々な防衛とテスト技術が提案されているにもかかわらず、Androidシステムにとって重大な脅威として存続している。 Androidシステムにおけるプログラム動作とアクセス制御機構の複雑さは、これらの脆弱性を効果的に識別することを困難にしている。 本稿では,静的プログラム解析とアクセス制御ポリシ分析を組み合わせて,パストラバーサル,ハイジャック脆弱性,ルーリング脆弱性の3種類の脆弱性を検出することによって,従来の手法の限界を克服するPathSentinelを提案する。 PathSentinelは、プログラムとアクセス制御ポリシー分析を統一することにより、攻撃面を正確に識別し、脆弱性テスト用の入力ペイロードを生成するために多くの非現実的な攻撃を発生させる。 脆弱性検証の合理化のため、PathSentinelは大規模言語モデル(LLM)を活用して、特定された脆弱性と生成された入力ペイロードに基づいてターゲットのエクスプロイトコードを生成する。 LLMは、テストアプリケーションを書くのに必要なエンジニアリング労力を減らすツールとして機能し、静的解析とLLMを組み合わせることで、エクスプロイト生成と脆弱性検証の効率を高める可能性を実証している。 SamsungとOnePlusによるAndroid 12と14システムの評価では、PathSentinelの有効性が示されており、偽陽性が2つしかない217アプリの51の脆弱性が明らかになった。 これらの結果は、正確な脆弱性検出のためのプログラムとアクセス制御ポリシ分析を組み合わせることの重要性を強調し、自動エクスプロイト生成のためのLSMの統合という将来的な方向性を強調し、ファイルシステムの脆弱性に対するAndroidシステムのセキュリティを強化するための包括的なアプローチを提供する。

Filesystem vulnerabilities persist as a significant threat to Android systems, despite various proposed defenses and testing techniques. The complexity of program behaviors and access control mechanisms in Android systems makes it challenging to effectively identify these vulnerabilities. In this paper, we present PathSentinel, which overcomes the limitations of previous techniques by combining static program analysis and access control policy analysis to detect three types of filesystem vulnerabilities: path traversals, hijacking vulnerabilities, and luring vulnerabilities. By unifying program and access control policy analysis, PathSentinel identifies attack surfaces accurately and prunes many impractical attacks to generate input payloads for vulnerability testing. To streamline vulnerability validation, PathSentinel leverages large language models (LLMs) to generate targeted exploit code based on the identified vulnerabilities and generated input payloads. The LLMs serve as a tool to reduce the engineering effort required for writing test applications, demonstrating the potential of combining static analysis with LLMs to enhance the efficiency of exploit generation and vulnerability validation. Evaluation on Android 12 and 14 systems from Samsung and OnePlus demonstrates PathSentinel's effectiveness, uncovering 51 previously unknown vulnerabilities among 217 apps with only 2 false positives. These results underscore the importance of combining program and access control policy analysis for accurate vulnerability detection and highlight the promising direction of integrating LLMs for automated exploit generation, providing a comprehensive approach to enhancing the security of Android systems against filesystem vulnerabilities.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# インテリジェントな組織間プロセスマイニング:調査と新たな展望

Intelligent Cross-Organizational Process Mining: A Survey and New Perspectives ( http://arxiv.org/abs/2407.11280v1 )

ライセンス: Link先を確認
Yiyuan Yang, Zheshun Wu, Yong Chu, Zhenghua Chen, Zenglin Xu, Qingsong Wen, (参考訳) データマイニングのハイレベル分野であるプロセスマイニングは、組織間の運用効率と意思決定を向上する上で重要な役割を担っている。 本稿では, プロセスマイニングの分野における重要性と現在進行中の傾向を探求し, その内容, 適用, 開発に関する具体的な視点と, プロセスマネジメント, 特に組織横断的な状況について考察する。 まず、プロセスマイニングのフレームワーク、一般的な産業アプリケーション、ワークフロー最適化、コンプライアンスチェック、パフォーマンス分析などの人工知能と組み合わせた最新の進歩について要約する。 そこで我々は,知的プロセス分析のための総合的なフレームワークを提案し,組織横断的な設定で初期方法論を概説し,課題と機会を浮き彫りにしている。 この視点は、複雑な多組織データ分析のための洗練されたソリューションを提供するために人工知能を活用することによって、プロセスマイニングに革命をもたらすことを目的としている。 高度な機械学習技術を統合することで、予測能力を向上し、プロセスを合理化し、リアルタイムな意思決定を容易にすることができる。 さらに,研究コミュニティ内での今後の調査の道のりを指摘し,多様な相互接続型ビジネス環境におけるプロセスマイニングの可能性を完全に活用するための革新的なアルゴリズム,データ統合戦略,プライバシ保護手法の探求を奨励する。

Process mining, as a high-level field in data mining, plays a crucial role in enhancing operational efficiency and decision-making across organizations. In this survey paper, we delve into the growing significance and ongoing trends in the field of process mining, advocating a specific viewpoint on its contents, application, and development in modern businesses and process management, particularly in cross-organizational settings. We first summarize the framework of process mining, common industrial applications, and the latest advances combined with artificial intelligence, such as workflow optimization, compliance checking, and performance analysis. Then, we propose a holistic framework for intelligent process analysis and outline initial methodologies in cross-organizational settings, highlighting both challenges and opportunities. This particular perspective aims to revolutionize process mining by leveraging artificial intelligence to offer sophisticated solutions for complex, multi-organizational data analysis. By integrating advanced machine learning techniques, we can enhance predictive capabilities, streamline processes, and facilitate real-time decision-making. Furthermore, we pinpoint avenues for future investigations within the research community, encouraging the exploration of innovative algorithms, data integration strategies, and privacy-preserving methods to fully harness the potential of process mining in diverse, interconnected business environments.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 不確実性:大規模言語モデルにおける不確実性を操作する

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models ( http://arxiv.org/abs/2407.11282v1 )

ライセンス: Link先を確認
Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。 LLMの応答の信頼性を評価する方法として、不確実性推定(英語版)がある。 LLMにおける不確実性推定の精度向上に焦点が当てられているが、本研究では不確実性推定の脆弱性を調査し、攻撃の可能性を探る。 攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。 具体的には,提案手法は,LLMの出力確率分布を変化させることができ,その確率分布を攻撃者が予め定義した分布に収束させ,トップ1の予測が変化しないことを保証する。 実験の結果,この攻撃は,複数項目の質問において,モデルの自己評価信頼性を効果的に損なうことが示された。 例えば、攻撃成功率(ASR)は4つのモデルで3つの異なるトリガー戦略で達成しました。 さらに、この操作が異なるプロンプトやドメインにまたがって一般化するかどうかについても検討する。 この研究は、LSMの信頼性に対する重大な脅威を強調し、そのような攻撃に対する将来の防衛の必要性を浮き彫りにしている。 コードはhttps://github.com/qcznlp/uncertainty_ attackで公開されている。

Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs' responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model's uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM's output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model's self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# 注意力強化された深層マルチタスク時空間学習によるメガシティの空気質指数予測の新しい手法

Novel Approach for Predicting the Air Quality Index of Megacities through Attention-Enhanced Deep Multitask Spatiotemporal Learning ( http://arxiv.org/abs/2407.11283v1 )

ライセンス: Link先を確認
Harun Khan, Joseph Tso, Nathan Nguyen, Nivaan Kaushal, Ansh Malhotra, Nayel Rehman, (参考訳) 大気汚染は、特に都市部で最も深刻な環境脅威の1つであり、毎年700万人近くが早期死亡している。 人口1000万人を超える都市として定義されるメガシティは、深刻な汚染のホットスポットであり、有害な汚染物質が集中しているため、数週間にわたって大気汚染が悪化している。 さらに、要因の複雑な相互作用は、正確な空気質の予測を驚くほど難しくし、予測モデルは複雑なダイナミクスを捉えるのに苦労することが多い。 これらの課題に対処するために,長期記憶ネットワークをベースとした注意力強化型深層マルチタスク時空間機械学習モデルを提案する。 このモデルは、二酸化硫黄や一酸化炭素のような主要な汚染物質のレベルを予測し、複雑な傾向や変動を効果的に捉える上で、堅牢な性能を示す。 提案手法は政策立案者に対して行動可能な情報を提供し,都市大気質向上のための情報意思決定を可能にする。

Air pollution remains one of the most formidable environmental threats to human health globally, particularly in urban areas, contributing to nearly 7 million premature deaths annually. Megacities, defined as cities with populations exceeding 10 million, are frequent hotspots of severe pollution, experiencing numerous weeks of dangerously poor air quality due to the concentration of harmful pollutants. In addition, the complex interplay of factors makes accurate air quality predictions incredibly challenging, and prediction models often struggle to capture these intricate dynamics. To address these challenges, this paper proposes an attention-enhanced deep multitask spatiotemporal machine learning model based on long-short-term memory networks for long-term air quality monitoring and prediction. The model demonstrates robust performance in predicting the levels of major pollutants such as sulfur dioxide and carbon monoxide, effectively capturing complex trends and fluctuations. The proposed model provides actionable information for policymakers, enabling informed decision making to improve urban air quality.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# モーメント・アンフォールディング

Moment Unfolding ( http://arxiv.org/abs/2407.11284v1 )

ライセンス: Link先を確認
Krish Desai, Benjamin Nachman, Jesse Thaler, (参考訳) デコンボルディング(アンフォールディング')検出器の歪みは、断面積の測定と粒子物理学と核物理学の理論的予測の比較において重要なステップである。 しかし、既存のほとんどのアプローチはヒストグラムの双晶を必要とするが、多くの理論的予測は統計モーメントのレベルにある。 我々は、まずデータを離散化することなく、観測可能な別の関数として分布モーメントを直接展開する新しいアプローチを開発する。 我々のMoment Unfolding技術は機械学習を利用しており、GAN(Generative Adversarial Networks)にインスパイアされている。 本研究では,コライダー物理におけるジェットサブ構造測定を用いて,本手法の性能を実証する。 この例では、Moment Unfoldingプロトコルはbinベースのアプローチよりも正確であり、完全にバイナリ化されたメソッドよりも正確であることがわかった。

Deconvolving ("unfolding'') detector distortions is a critical step in the comparison of cross section measurements with theoretical predictions in particle and nuclear physics. However, most existing approaches require histogram binning while many theoretical predictions are at the level of statistical moments. We develop a new approach to directly unfold distribution moments as a function of another observable without having to first discretize the data. Our Moment Unfolding technique uses machine learning and is inspired by Generative Adversarial Networks (GANs). We demonstrate the performance of this approach using jet substructure measurements in collider physics. With this illustrative example, we find that our Moment Unfolding protocol is more precise than bin-based approaches and is as or more precise than completely unbinned methods.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# CLAMS:クラスタリングのためのゼロショットモデル選択システム

CLAMS: A System for Zero-Shot Model Selection for Clustering ( http://arxiv.org/abs/2407.11286v1 )

ライセンス: Link先を確認
Prabhant Singh, Pieter Gijsbers, Murat Onur Yildirim, Elif Ceren Gok, Joaquin Vanschoren, (参考訳) 本稿では,最適なトランスポートベースデータセットの類似性を利用して,クラスタリング問題に対するモデル選択を可能にするAutoMLシステムを提案する。 私たちの目標は、クラスタリング問題のための包括的なAutoMLパイプラインを確立し、最も適切なアルゴリズムを選択するための推奨を提供することです。 その結果、クラスタリングアプリケーションを解決するための類似性に基づく自動モデル選択の有用性が実証された。

We propose an AutoML system that enables model selection on clustering problems by leveraging optimal transport-based dataset similarity. Our objective is to establish a comprehensive AutoML pipeline for clustering problems and provide recommendations for selecting the most suitable algorithms, thus opening up a new area of AutoML beyond the traditional supervised learning settings. We compare our results against multiple clustering baselines and find that it outperforms all of them, hence demonstrating the utility of similarity-based automated model selection for solving clustering applications.
翻訳日:2024-07-17 19:02:01 公開日:2024-07-15
# ChatGPTを用いた生成プログラムの自動修正システムの開発

Development of an automatic modification system for generated programs using ChatGPT ( http://arxiv.org/abs/2407.07469v2 )

ライセンス: Link先を確認
Jun Yoshida, Oh Sato, Hane Kondo, Hiroaki Hashiura, Atsuo Hazeyama, (参考訳) 近年、人工知能の分野は急速に発展している。 中でもOpenAIのChatGPTは自然言語処理タスクに優れており、ソースコードも生成できる。 しかし、生成されたコードは、一貫性とプログラムルールに問題があることが多い。 そこで本研究では,ChatGPTが生成したコードをテストし,不適切であれば自動的に修正し,適切なコードをユーザに提示するシステムを開発した。 本研究の目的は,生成されたコードに対する人間のフィードバックと修正プロセスに必要な手作業を削減することにある。 システムを実行すると、意図したコードを自動的に修正することができました。

In recent years, the field of artificial intelligence has been rapidly developing. Among them, OpenAI's ChatGPT excels at natural language processing tasks and can also generate source code. However, the generated code often has problems with consistency and program rules. Therefore, in this research, we developed a system that tests the code generated by ChatGPT, automatically corrects it if it is inappropriate, and presents the appropriate code to the user. This study aims to address the challenge of reducing the manual effort required for the human feedback and modification process for generated code. When we ran the system, we were able to automatically modify the code as intended.
翻訳日:2024-07-17 13:24:18 公開日:2024-07-15
# 画像テキスト表現における創発的ビジュアルセマンティック階層

Emergent Visual-Semantic Hierarchies in Image-Text Representations ( http://arxiv.org/abs/2407.08521v2 )

ライセンス: Link先を確認
Morris Alper, Hadar Averbuch-Elor, (参考訳) CLIPのような最近のビジョン・アンド・ランゲージモデル(VLM)は、共有セマンティック空間におけるテキストや画像を分析する強力なツールであるが、画像を記述する可能性のあるテキストの集合の階層的な性質を明示的にモデル化するものではない。 逆に、既存のマルチモーダル階層的表現学習法は、最先端のマルチモーダル基盤モデルによって符号化された知識の活用に失敗し、スクラッチからコストのかかる訓練を必要とする。 本研究では,既存の基盤モデルの知識を考察し,その目的のために直接訓練を受けていないにもかかわらず,視覚・意味的階層の創発的な理解を示すことを発見した。 本稿では,階層的理解の探索と最適化のためのRadial Embedding(RE)フレームワークを提案し,画像テキスト表現における階層的知識の研究を容易にするベンチマークであるHierarCapsデータセットを,大規模言語モデルを介して自動構築する。 以上の結果から,基礎VLMはゼロショット階層的理解を示し,この目的のために設計された先行モデルの性能を上回った。 さらに, 基礎モデルは, 事前学習知識を維持しつつ, テキストのみの微調整フェーズによる階層的推論に適合する可能性が示唆された。

While recent vision-and-language models (VLMs) like CLIP are a powerful tool for analyzing text and images in a shared semantic space, they do not explicitly model the hierarchical nature of the set of texts which may describe an image. Conversely, existing multimodal hierarchical representation learning methods require costly training from scratch, failing to leverage the knowledge encoded by state-of-the-art multimodal foundation models. In this work, we study the knowledge of existing foundation models, finding that they exhibit emergent understanding of visual-semantic hierarchies despite not being directly trained for this purpose. We propose the Radial Embedding (RE) framework for probing and optimizing hierarchical understanding, and contribute the HierarCaps dataset, a benchmark facilitating the study of hierarchical knowledge in image--text representations, constructed automatically via large language models. Our results show that foundation VLMs exhibit zero-shot hierarchical understanding, surpassing the performance of prior models explicitly designed for this purpose. Furthermore, we show that foundation models may be better aligned to hierarchical reasoning via a text-only fine-tuning phase, while retaining pretraining knowledge.
翻訳日:2024-07-17 13:24:18 公開日:2024-07-15
# UICrit: UICritiqueデータセットによる自動設計評価の強化

UICrit: Enhancing Automated Design Evaluation with a UICritique Dataset ( http://arxiv.org/abs/2407.08850v2 )

ライセンス: Link先を確認
Peitong Duan, Chin-yi Chen, Gang Li, Bjoern Hartmann, Yang Li, (参考訳) 例えば、異なるUI設計を比較する場合や、自動ヒューリスティック評価を行う場合などである。 LLMベースのUI評価は、特に、様々なUIタイプや評価タスクに対する一般化可能性の約束を持っている。 しかし、現在のLCMベースの技術は人間の評価装置の性能とはまだ一致しない。 対象とするUIフィードバックデータセットを収集し,このデータセットを用いて汎用LLMの性能を向上させることにより,自動評価を改善することができると仮定する。 7人の経験豊富なデザイナーから収集した、983のモバイルUIに対する3,059のデザイン批判と品質評価のターゲットデータセットを提示する。 データセットの特徴を特徴付けるために,詳細な分析を行った。 次に,LLM生成UIフィードバックにおける55%のパフォーマンス向上を実現するために,このデータセットを適用した。 また、生成UI技術に対する報酬モデルのトレーニングや、UI評価を自動化するツールに依存しないマルチモーダルLCMの微調整など、このデータセットの今後の応用についても論じる。

Automated UI evaluation can be beneficial for the design process; for example, to compare different UI designs, or conduct automated heuristic evaluation. LLM-based UI evaluation, in particular, holds the promise of generalizability to a wide variety of UI types and evaluation tasks. However, current LLM-based techniques do not yet match the performance of human evaluators. We hypothesize that automatic evaluation can be improved by collecting a targeted UI feedback dataset and then using this dataset to enhance the performance of general-purpose LLMs. We present a targeted dataset of 3,059 design critiques and quality ratings for 983 mobile UIs, collected from seven experienced designers. We carried out an in-depth analysis to characterize the dataset's features. We then applied this dataset to achieve a 55% performance gain in LLM-generated UI feedback via various few-shot and visual prompting techniques. We also discuss future applications of this dataset, including training a reward model for generative UI techniques, and fine-tuning a tool-agnostic multi-modal LLM that automates UI evaluation.
翻訳日:2024-07-17 11:13:42 公開日:2024-07-15
# オープンセットセミスーパーバイザードラーニングと知識蒸留

Knowledge Distillation Meets Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2205.06701v2 )

ライセンス: Link先を確認
Jing Yang, Xiatian Zhu, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos, (参考訳) 既存の知識蒸留法は主に教師の予測と中間活性化の蒸留に焦点を当てている。 しかし、深層モデルの最も重要な要素の1つである構造表現は、ほとんど見過ごされている。 本研究では,事前学習した教師から対象学生への表現的知識を意味的に蒸留する新しい手法を提案する。 鍵となる考え方は、教師の分類器を意味的批判として活用し、教師と生徒の両方の表現を評価し、全ての特徴次元の高次構造化情報を用いて意味的知識を蒸留することである。 これは、学生の表現を教師の分類器に渡すことによって計算されるクロスネットワークロジットの概念を導入することで達成される。 さらに、組み合わせの観点で意味空間の基底として見たクラスの集合を考えると、ほとんど利用可能な、任意のラベル付けされていないトレーニングデータの効果的な活用を可能にするために、未確認のクラスに \shortname{} をスケールする。 問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。 大規模実験により, 粗い物体分類および微粒な顔認識タスクにおいて, 従来の知識蒸留法よりもはるかに優れており, 同時に, 事実上重要なバイナリネットワーク蒸留法も少ないことが判明した。 より現実的なオープンセットSSL設定では、既存のOf-Distribution(OOD)サンプル検出よりも知識蒸留の方が一般的に有効であることを明らかにし、提案した‘shortname{}’は以前の蒸留とSSLの競合よりも優れている。 ソースコードは \url{https://github.com/jingyang2017/SRD\_ossl} で公開されている。

Existing knowledge distillation methods mostly focus on distillation of teacher's prediction and intermediate activation. However, the structured representation, which arguably is one of the most critical ingredients of deep models, is largely overlooked. In this work, we propose a novel {\em \modelname{}} ({\bf\em \shortname{})} method dedicated for distilling representational knowledge semantically from a pretrained teacher to a target student. The key idea is that we leverage the teacher's classifier as a semantic critic for evaluating the representations of both teacher and student and distilling the semantic knowledge with high-order structured information over all feature dimensions. This is accomplished by introducing a notion of cross-network logit computed through passing student's representation into teacher's classifier. Further, considering the set of seen classes as a basis for the semantic space in a combinatorial perspective, we scale \shortname{} to unseen classes for enabling effective exploitation of largely available, arbitrary unlabeled training data. At the problem level, this establishes an interesting connection between knowledge distillation with open-set semi-supervised learning (SSL). Extensive experiments show that our \shortname{} outperforms significantly previous state-of-the-art knowledge distillation methods on both coarse object classification and fine face recognition tasks, as well as less studied yet practically crucial binary network distillation. Under more realistic open-set SSL settings we introduce, we reveal that knowledge distillation is generally more effective than existing Out-Of-Distribution (OOD) sample detection, and our proposed \shortname{} is superior over both previous distillation and SSL competitors. The source code is available at \url{https://github.com/jingyang2017/SRD\_ossl}.
翻訳日:2024-07-17 05:46:45 公開日:2024-07-15
# 部分ラベルを用いた多ラベル認識のための不均質な意味伝達

Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels ( http://arxiv.org/abs/2205.11131v4 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Lingbo Liu, Yukai Shi, Zhijing Yang, Liang Lin, (参考訳) 部分ラベル付きマルチラベル画像認識(MLR-PL)では,各画像に未知なラベルがある場合,アノテーションのコストを大幅に削減し,大規模なMLRを実現する。 これらの相関関係は、既知のラベルが持つ知識を伝達して未知のラベルを検索し、MLR-PLタスクの性能を向上させるのに役立つ(図1参照)。 本研究では,未知のラベルに対して擬似ラベルを生成するために,未知のラベルが持つ知識を伝達するために,内部画像と横断画像の両方のセマンティック相関を探索する2つの相補的トランスファーモジュールからなる新しいヘテロジニアスセマンティックトランスファー(HST)フレームワークを提案する。 具体的には、画像内セマンティックトランスファー(IST)モジュールは、画像ごとに画像固有のラベル共起行列を学習し、既知のラベルをマップし、これらの行列に基づいて未知のラベルを補完する。 さらに、クロスイメージトランスファー(CST)モジュールは、カテゴリ固有の特徴-プロトタイプの類似性を学習し、対応するプロトタイプと高い類似度を持つ未知のラベルを補完する。 最後に、既知の擬似ラベルと生成された擬似ラベルは、MLRモデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOC 2007データセットで実施された大規模な実験は、提案されたHSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスを実現していることを示している。 具体的には、3つのデータセットの平均平均精度(mAP)が1.4%、3.3%、0.4%向上した。

Multi-label image recognition with partial labels (MLR-PL), in which some labels are known while others are unknown for each image, may greatly reduce the cost of annotation and thus facilitate large-scale MLR. We find that strong semantic correlations exist within each image and across different images, and these correlations can help transfer the knowledge possessed by the known labels to retrieve the unknown labels and thus improve the performance of the MLR-PL task (see Figure 1). In this work, we propose a novel heterogeneous semantic transfer (HST) framework that consists of two complementary transfer modules that explore both within-image and cross-image semantic correlations to transfer the knowledge possessed by known labels to generate pseudo labels for the unknown labels. Specifically, an intra-image semantic transfer (IST) module learns an image-specific label co-occurrence matrix for each image and maps the known labels to complement the unknown labels based on these matrices. Additionally, a cross-image transfer (CST) module learns category-specific feature-prototype similarities and then helps complement the unknown labels that have high degrees of similarity with the corresponding prototypes. Finally, both the known and generated pseudo labels are used to train MLR models. Extensive experiments conducted on the Microsoft COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed HST framework achieves superior performance to that of current state-of-the-art algorithms. Specifically, it obtains mean average precision (mAP) improvements of 1.4%, 3.3%, and 0.4% on the three datasets over the results of the best-performing previously developed algorithm.
翻訳日:2024-07-17 05:46:45 公開日:2024-07-15
# 複数のチャネルを持つ量子グラフの散乱エントロピー

Scattering entropies of quantum graphs with several channels ( http://arxiv.org/abs/2211.09693v3 )

ライセンス: Link先を確認
Alison A. Silva, Fabiano M. Andrade, D. Bazeia, (参考訳) この研究は多くの異なる状況において量子グラフの散乱エントロピーを扱う。 まず、シャノンエントロピー(Shannon entropy)、次にR'enyiとTsallisエントロピー(Tsallis entropies)について考察する。 いくつかの頂点、辺、および鉛の存在下で、異なる種類の量子グラフに関連する多くの結果を記述する。 特に、この結果は量子グラフの輸送に関連するモデルの量子化子として用いられるかもしれない。

This work deals with the scattering entropy of quantum graphs in many different circumstances. We first consider the case of the Shannon entropy and then the R\'enyi and Tsallis entropies, which are more adequate to study distinct quantitative behavior such as entanglement and nonextensive behavior, respectively. We describe many results associated with different types of quantum graphs in the presence of several vertices, edges, and leads. In particular, we think the results may be used as quantifiers in models related to the transport in quantum graphs.
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# 量子最適化のためのパリティ制約の低深さ回路実装

Low-depth Circuit Implementation of Parity Constraints for Quantum Optimization ( http://arxiv.org/abs/2211.11287v3 )

ライセンス: Link先を確認
Josua Unger, Anette Messinger, Benjamin E. Niehoff, Michael Fellner, Wolfgang Lechner, (参考訳) パリティ写像を用いたQAOAにおいて,3体および4体のパウリ-Z積演算子をプラケット形状の制約の形で実装し,ゲート数と深さの低い回路の構成を提案する。 回路は、正方格子上に最も近接した接続を持つ任意の量子デバイスに実装でき、一度に1つのゲートタイプと2つのキュービットゲートの1つの方向だけを使用する。 システムサイズに依存しない回路深さの上限を求める。 この手順は、同時に実行されるゲート間の必要最小限の空間距離や、全てのキュービットのサブセット(例えば1行)内でのみ同時に実行可能であるゲートなど、ハードウェア固有の制約に対して容易に調整可能である。

We present a construction for circuits with low gate count and depth, implementing three- and four-body Pauli-Z product operators as they appear in the form of plaquette-shaped constraints in QAOA when using the parity mapping. The circuits can be implemented on any quantum device with nearest-neighbor connectivity on a square-lattice, using only one gate type and one orientation of two-qubit gates at a time. We find an upper bound for the circuit depth which is independent of the system size. The procedure is readily adjustable to hardware-specific restrictions, such as a minimum required spatial distance between simultaneously executed gates, or gates only being simultaneously executable within a subset of all the qubits, for example a single line.
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# 言語モデルにおける職業性バイアスの検証:ロバスト測定とゼロショットデバイアスを目指して

Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing ( http://arxiv.org/abs/2212.10678v2 )

ライセンス: Link先を確認
Yuen Chen, Vethavikashini Chithrra Raghuram, Justus Mattern, Mrinmaya Sachan, Rada Mihalcea, Bernhard Schölkopf, Zhijing Jin, (参考訳) 大規模言語モデル(LLM)から生成されたテキストは、様々な人口層に対して有害で人間的な偏見を示すことが示されている。 これらの知見は、そのような効果を理解し、測定することを目的とした研究の取り組みを動機付けている。 以前の研究では、これらのステレオタイプ関連を緩和するための識別と技術のためのベンチマークが提案されている。 しかし、最近の研究で指摘されているように、既存のベンチマークには堅牢な実験的な設定がなく、評価指標から有意義な結論が推測されることを妨げている。 本稿では,生成言語モデルにおけるバイアスを頑健に測定するdesiderataのリストを紹介する。 これらの設計原則に基づいて,職業性バイアスを調査するためのバイアス測定手法を用いたOCCUGENDERというベンチマークを提案する。 次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。 以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。 さらに,微調整を必要とせず,バイアスを軽減する手法を提案する。 最後に,同じモデルを用いた実験により,本手法の有効性を検証した。

Generated texts from large language models (LLMs) have been shown to exhibit a variety of harmful, human-like biases against various demographics. These findings motivate research efforts aiming to understand and measure such effects. Prior works have proposed benchmarks for identifying and techniques for mitigating these stereotypical associations. However, as recent research pointed out, existing benchmarks lack a robust experimental setup, hindering the inference of meaningful conclusions from their evaluation metrics. In this paper, we introduce a list of desiderata for robustly measuring biases in generative language models. Building upon these design principles, we propose a benchmark called OCCUGENDER, with a bias-measuring procedure to investigate occupational gender bias. We then use this benchmark to test several state-of-the-art open-source LLMs, including Llama, Mistral, and their instruction-tuned versions. The results show that these models exhibit substantial occupational gender bias. We further propose prompting techniques to mitigate these biases without requiring fine-tuning. Finally, we validate the effectiveness of our methods through experiments on the same set of models.
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# 言語モデルは次の予測で人間より優れている

Language models are better than humans at next-token prediction ( http://arxiv.org/abs/2212.11281v2 )

ライセンス: Link先を確認
Buck Shlegeris, Fabien Roger, Lawrence Chan, Euan McLean, (参考訳) 現在の言語モデルは、質問回答やコードの記述といった自然言語のタスクにおいて、人間以下の能力を持つと考えられている。 しかし、言語モデルはこれらのタスクでうまく機能するように訓練されておらず、トークン化されたテキストで以前のトークが与えられた次のトークンを正確に予測するように訓練されている。 次のトークン予測では、言語モデルが人間より優れているか悪いかは明らかではない。 この疑問に答えるために、我々は、人間と言語モデルを直接比較する2つの異なる実験を行った。 どちらの実験でも、次の予測では、人間はGPT3-Adaのような比較的小さな言語モデルよりも一貫して「emph{worse}」であることが分かる。

Current language models are considered to have sub-human capabilities at natural language tasks like question-answering or writing code. However, language models are not trained to perform well at these tasks, they are trained to accurately predict the next token given previous tokes in tokenized text. It is not clear whether language models are better or worse than humans at next token prediction. To try to answer this question, we performed two distinct experiments to directly compare humans and language models on this front: one measuring top-1 accuracy and the other measuring perplexity. In both experiments, we find humans to be consistently \emph{worse} than even relatively small language models like GPT3-Ada at next-token prediction.
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# クラスインクリメンタルラーニング:サーベイ

Class-Incremental Learning: A Survey ( http://arxiv.org/abs/2302.03648v2 )

ライセンス: Link先を確認
Da-Wei Zhou, Qi-Wei Wang, Zhi-Hong Qi, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu, (参考訳) ディープモデル、例えばCNN、Vision Transformersは、クローズドワールドにおける多くのビジョンタスクにおいて素晴らしい成果を上げています。 しかし、常に変化する世界において、新しいクラスが時々出現し、学習システムが新しい知識を継続的に獲得する必要がある。 CIL(Class-Incremental Learning)は、学習者が新しいクラスの知識を段階的に取り入れ、すべてのクラスに普遍的な分類器を構築することを可能にする。 それに対応して、モデルを新しいクラスのインスタンスで直接トレーニングする場合、致命的な問題が発生します。 機械学習コミュニティでは、破滅的な忘れようという取り組みが数多く行われている。 本稿では,クラス増分学習における最近の進歩を包括的に調査し,これらの手法をいくつかの側面から要約する。 また、ベンチマーク画像分類タスクにおける17の手法の厳密で統一的な評価を行い、異なるアルゴリズムの特性を実証的に把握する。 さらに,現在の比較プロトコルは,モデル記憶におけるメモリ予算の影響を無視しており,不公平な比較結果や偏りが生じる可能性があることに気付く。 したがって、評価においてメモリ予算を整合させることにより、公平な比較を提唱すると同時に、メモリに依存しないいくつかのパフォーマンス対策も提案する。 ソースコードはhttps://github.com/zhoudw-zdw/CIL_Survey/で公開されている。

Deep models, e.g., CNNs and Vision Transformers, have achieved impressive achievements in many vision tasks in the closed world. However, novel classes emerge from time to time in our ever-changing world, requiring a learning system to acquire new knowledge continually. Class-Incremental Learning (CIL) enables the learner to incorporate the knowledge of new classes incrementally and build a universal classifier among all seen classes. Correspondingly, when directly training the model with new class instances, a fatal problem occurs -- the model tends to catastrophically forget the characteristics of former ones, and its performance drastically degrades. There have been numerous efforts to tackle catastrophic forgetting in the machine learning community. In this paper, we survey comprehensively recent advances in class-incremental learning and summarize these methods from several aspects. We also provide a rigorous and unified evaluation of 17 methods in benchmark image classification tasks to find out the characteristics of different algorithms empirically. Furthermore, we notice that the current comparison protocol ignores the influence of memory budget in model storage, which may result in unfair comparison and biased results. Hence, we advocate fair comparison by aligning the memory budget in evaluation, as well as several memory-agnostic performance measures. The source code is available at https://github.com/zhoudw-zdw/CIL_Survey/
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# ターボTLS:1往復少ないTLS接続施設

TurboTLS: TLS connection establishment with 1 less round trip ( http://arxiv.org/abs/2302.05311v2 )

ライセンス: Link先を確認
Carlos Aguilar-Melchor, Thomas Bailleux, Jason Goertzen, Adrien Guinet, David Joseph, Douglas Stebila, (参考訳) より少ないラウンドトリップでTLS接続を確立する方法を示す。 我々がTurboTLSと呼ぶアプローチでは、TLSハンドシェイクの初期クライアント-サーバ間フローとサーバ-クライアント間フローはTCPではなくUDP経由で送信される。 同時に、同じフライトで三方向TCPハンドシェイクを行う。 TCP接続が確立すれば、クライアントとサーバはTCP接続上でTLSハンドシェイクの最終飛行を完了し、アプリケーションデータにそれを使い続けることができる。 TLSハンドシェイクプロトコルの内容には変更はなく、配信メカニズムのみである。 リクエストベースフラグメンテーションを用いることでUDPフラグメンテーションの問題を回避し、クライアントが事前に十分なUDPリクエストを送信し、サーバがリクエストパケット毎に1つのレスポンスパケットに応答する十分なスペースを提供する。 サーバがDNS HTTPSリソースレコードでサポートを宣伝している場合、クライアントは追加のラウンドトリップなしでこれをサポートするサーバを検出することができる。 ソフトウェア実装を使った実験では、大幅に遅延が改善された。 信頼性の高い接続では、目立ったコストを伴わないラウンドトリップを効果的に排除する。 TCP接続がすでに確立されていたため、TCPにフォールバックする前に、潜在的に失われたパケット(例えば、最初のフラグメントで観測されたRTTのごく一部)を受け取るのに非常に小さな時間でクライアントを待機させることができる。 このアプローチは、設定の不十分なミドルボックスを持つ異種ネットワーク環境であっても、低複雑性で大幅なパフォーマンス改善を提供する。

We show how to establish TLS connections using one less round trip. In our approach, which we call TurboTLS, the initial client-to-server and server-to-client flows of the TLS handshake are sent over UDP rather than TCP. At the same time, in the same flights, the three-way TCP handshake is carried out. Once the TCP connection is established, the client and server can complete the final flight of the TLS handshake over the TCP connection and continue using it for application data. No changes are made to the contents of the TLS handshake protocol, only its delivery mechanism. We avoid problems with UDP fragmentation by using request-based fragmentation, in which the client sends in advance enough UDP requests to provide sufficient room for the server to fit its response with one response packet per request packet. Clients can detect which servers support this without an additional round trip, if the server advertises its support in a DNS HTTPS resource record. Experiments using our software implementation show substantial latency improvements. On reliable connections, we effectively eliminate a round trip without any noticeable cost. To ensure adequate performance on unreliable connections, we use lightweight packet ordering and buffering; we can have a client wait a very small time to receive a potentially lost packet (e.g., a fraction of the RTT observed for the first fragment) before falling back to TCP without any further delay, since the TCP connection was already in the process of being established. This approach offers substantial performance improvements with low complexity, even in heterogeneous network environments with poorly configured middleboxes.
翻訳日:2024-07-17 05:38:07 公開日:2024-07-15
# 視覚変換器の効率的な知識蒸留におけるマスキングの役割

The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers ( http://arxiv.org/abs/2302.10494v3 )

ライセンス: Link先を確認
Seungwoo Son, Jegwang Ryu, Namhoon Lee, Jaeho Lee, (参考訳) 知識蒸留は、軽量視覚モデルの訓練に有効な方法である。 しかし、特に視覚変換器(ViT)のような大規模モデルでは、トレーニングサンプルの教師監督を取得するのにコストがかかることが多い。 本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発し,教師に与えられた少量の入力トークンを隠蔽する。 入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。 学生の注意点が最も低いマスキングパッチは、学生の精度を低下させることなく、教師のFLOPの最大50%を節約し、他のマスキング基準は、最適以下の効率向上をもたらす。 より詳細な分析により,学生が指導するマスキングが学生に良いカリキュラムを提供することが明らかとなり,教師の指導が早い段階で容易に受けられるようになり,後半の課題も解決できた。

Knowledge distillation is an effective method for training lightweight vision models. However, acquiring teacher supervision for training samples is often costly, especially from large-scale models like vision transformers (ViTs). In this paper, we develop a simple framework to reduce the supervision cost of ViT distillation: masking out a fraction of input tokens given to the teacher. By masking input tokens, one can skip the computations associated with the masked tokens without requiring any change to teacher parameters or architecture. We find that masking patches with the lowest student attention scores is highly effective, saving up to 50% of teacher FLOPs without any drop in student accuracy, while other masking criterion leads to suboptimal efficiency gains. Through in-depth analyses, we reveal that the student-guided masking provides a good curriculum to the student, making teacher supervision easier to follow during the early stage and challenging in the later stage.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# 分布表現を用いた制約強化学習による信頼できる4軸UAV追従制御

Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control ( http://arxiv.org/abs/2302.11694v4 )

ライセンス: Link先を確認
Yanran Wang, David Boyle, (参考訳) 複雑な動的環境における四重項の同時的高精度かつ信頼性の高い追跡制御は困難である。 抵抗力やモーメントの変動から引き起こされる空気力学はカオス的であり、正確に識別することが難しいため、現在の四重項追跡システムは従来の制御手法では単純な「乱」として扱う。 確率モデル予測制御器 (SMPC) を用いて, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクタを提案する。 提案手法は, 空気力学的効果の真の値と推定値の不確かさを正確に同定する。 単純なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合する。 ニューラルネットワークの幅と層が増加するにつれて、制約が誤差に反した場合、ConsDREDが少なくとも最適な大域収束率と一定のサブ線形レートを達成することを理論的に保証する。 実用性を示すため,シミュレーションおよび実世界の実験において収束トレーニングを行い,ConsDREDが標準制約RLアプローチに比べてハイパーパラメータ設定に敏感でないことを実証的に検証した。 本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。 重要なことは、提案するフレームワークであるConsDRED-SMPCは、高性能の追求と実用実装の保守的な制約に従うというトレードオフのバランスをとることである。

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances' in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator' (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 70% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# 深層学習における不確実性定量化手法の検討

A Survey on Uncertainty Quantification Methods for Deep Learning ( http://arxiv.org/abs/2302.13425v5 )

ライセンス: Link先を確認
Wenchong He, Zhe Jiang, Tingsong Xiao, Zelin Xu, Yukun Li, (参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、科学と工学の領域の正確な予測に成功している。 しかし、DNNが予期せぬ、誤った、しかし自信過剰な予測をすることもあることもよく認識されている。 これは、自律運転、医療診断、災害対応など、高度な応用において深刻な結果をもたらす可能性がある。 不確かさ定量化(UQ)は、予測精度以上のDNN予測の信頼性を推定することを目的としている。 近年,DNN向けに多くのUQ手法が開発されている。 これらのUQ手法を体系的に分類し、それらの利点と欠点を比較することは、非常に実践的な価値である。 しかしながら、既存の調査は主に、ニューラルネットワークアーキテクチャの観点からUQ方法論を分類すること、あるいはベイズ的な視点から分類することに焦点を当て、各方法論が組み込むことのできる不確実性の源を無視し、実際に適切なUQメソッドを選択するのが困難である。 このギャップを埋めるために,不確実性源の種類(データ不確実性とモデル不確実性)に基づいて,DNNのUQ手法の系統的な分類法を提案する。 各カテゴリーにおける手法の長所と短所をまとめた。 我々は、我々のUQ方法論の分類が、異なる機械学習問題(例えば、アクティブラーニング、堅牢性、強化学習)におけるUQ手法の選択を導くのにどのように役立つかを示す。 また,現在の研究ギャップを特定し,今後の研究方向性を提案する。

Deep neural networks (DNNs) have achieved tremendous success in making accurate predictions for computer vision, natural language processing, as well as science and engineering domains. However, it is also well-recognized that DNNs sometimes make unexpected, incorrect, but overconfident predictions. This can cause serious consequences in high-stake applications, such as autonomous driving, medical diagnosis, and disaster response. Uncertainty quantification (UQ) aims to estimate the confidence of DNN predictions beyond prediction accuracy. In recent years, many UQ methods have been developed for DNNs. It is of great practical value to systematically categorize these UQ methods and compare their advantages and disadvantages. However, existing surveys mostly focus on categorizing UQ methodologies from a neural network architecture perspective or a Bayesian perspective and ignore the source of uncertainty that each methodology can incorporate, making it difficult to select an appropriate UQ method in practice. To fill the gap, this paper presents a systematic taxonomy of UQ methods for DNNs based on the types of uncertainty sources (data uncertainty versus model uncertainty). We summarize the advantages and disadvantages of methods in each category. We show how our taxonomy of UQ methodologies can potentially help guide the choice of UQ method in different machine learning problems (e.g., active learning, robustness, and reinforcement learning). We also identify current research gaps and propose several future research directions.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# ESceme: エピソード記憶による視覚・言語ナビゲーション

ESceme: Vision-and-Language Navigation with Episodic Scene Memory ( http://arxiv.org/abs/2303.01032v3 )

ライセンス: Link先を確認
Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, Dacheng Tao, (参考訳) ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。 既存のアプローチは、ビームサーチ、探索前、動的または階層的なヒストリエンコーディングなど、新しい環境におけるナビゲーションに大きな進歩をもたらした。 一般化と効率のバランスをとるために,現在進行中の経路とは別に,訪問したシナリオを記憶する。 本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。 エピソードシーン記憶により、エージェントは次の予測のより大きな画像を想像することができる。 このようにして、エージェントは、現在の観測にのみ適応するのではなく、動的に更新された情報を活用することを学習する。 本研究では,各地点でアクセス可能なビューを拡大し,ナビゲーション中にメモリを段階的に完了させることにより,EScemeの簡易かつ効果的な実装を提供する。 本稿では,ショートホライズン(R2R),ロングホライズン(R4R),ビジョン・アンド・ダイアログ(CVDN)VLNタスクにおけるEScemeの優位性を検証する。 私たちのEScemeはCVDNのリーダーボードでも優勝しています。 コードは: \url{https://github.com/qizhust/esceme}.comで入手できる。

Vision-and-language navigation (VLN) simulates a visual agent that follows natural-language navigation instructions in real-world scenes. Existing approaches have made enormous progress in navigation in new environments, such as beam search, pre-exploration, and dynamic or hierarchical history encoding. To balance generalization and efficiency, we resort to memorizing visited scenarios apart from the ongoing route while navigating. In this work, we introduce a mechanism of Episodic Scene memory (ESceme) for VLN that wakes an agent's memories of past visits when it enters the current scene. The episodic scene memory allows the agent to envision a bigger picture of the next prediction. This way, the agent learns to utilize dynamically updated information instead of merely adapting to the current observations. We provide a simple yet effective implementation of ESceme by enhancing the accessible views at each location and progressively completing the memory while navigating. We verify the superiority of ESceme on short-horizon (R2R), long-horizon (R4R), and vision-and-dialog (CVDN) VLN tasks. Our ESceme also wins first place on the CVDN leaderboard. Code is available: \url{https://github.com/qizhust/esceme}.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# コード理解可能性の早期開発者認識 : 複雑度尺度の検討

Early Career Developers' Perceptions of Code Understandability. A Study of Complexity Metrics ( http://arxiv.org/abs/2303.07722v2 )

ライセンス: Link先を確認
Matteo Esposito, Andrea Janes, Terhi Kilamo, Valentina Lenarduzzi, (参考訳) コンテキスト。 コードの理解性が基本です。 開発者は、修正対象のコードを明確に理解する必要がある。 低理解力はコーディングの労力を増大させ、コードの誤解釈は開発プロセス全体に影響を与えます。 理想的には、開発者は最小限の努力で明確で理解可能なコードを書くべきです。 エイム。 私たちの研究は、McKabe Cyclomatic ComplexityとCognitive Complexityが、開発者が認識するコードを理解する上で、コードの一部が理解できるかどうかを評価する基準として、どちらの複雑さが使えるかを理解するのに良い予測因子になるかどうかを調査します。 方法。 1年から4年にわたる専門的経験を持つ216人の早期キャリア開発者を対象に,実証的研究を設計・実施した。 循環的および認知的複雑さの異なるレベルを示す12のJavaクラスの理解性を手動で検査し、評価するように頼みました。 結果。 従来のMcAbe Cyclomatic Complexityと最新のCognitive Complexityは、アーリーケア開発者によって認識される複雑さを考えると、コードの理解可能性に対する控えめな予測因子であるにもかかわらず、問題は深刻ではない。 結論。 私たちの結果に基づいて、アーリーケア開発者は、経験不足のため、コードレビュータスクを実行する際には、一人にすべきではありません。 さらに、複雑さの低い尺度は、良好な理解可能性を示すが、CoCかCyCが高いかは、理解可能性を予測することができない。 いずれにせよ、CyCやCoCが早期介護者の重症度認識の指標であることを示す証拠はないが、将来の研究は、高齢者が選択した指標の予測力に影響を与えるかどうかに直面するために、経験者への人口拡大に焦点を当てる。

Context. Code understandability is fundamental. Developers need to understand the code they are modifying clearly. A low understandability can increase the amount of coding effort, and misinterpreting code impacts the entire development process. Ideally, developers should write clear and understandable code with the least effort. Aim. Our work investigates whether the McCabe Cyclomatic Complexity or the Cognitive Complexity can be a good predictor for the developers' perceived code understandability to understand which of the two complexities can be used as criteria to evaluate if a piece of code is understandable. Method. We designed and conducted an empirical study among 216 early career developers with professional experience ranging from one to four years. We asked them to manually inspect and rate the understandability of 12 Java classes that exhibit different levels of Cyclomatic and Cognitive Complexity. Results. Our findings showed that while the old-fashioned McCabe Cyclomatic Complexity and the most recent Cognitive Complexity are modest predictors for code understandability when considering the complexity perceived by early-career developers, they are not for problem severity. Conclusions. Based on our results, early-career developers should not be left alone when performing code-reviewing tasks due to their scarce experience. Moreover, low complexity measures indicate good understandability, but having either CoC or CyC high makes understandability unpredictable. Nevertheless, there is no evidence that CyC or CoC are indicators of early-career perceived severity.Future research efforts will focus on expanding the population to experienced developers to confront whether seniority influences the predictive power of the chosen metrics.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# リコメンデーションにおける非確実性校正

Uncertainty Calibration for Counterfactual Propensity Estimation in Recommendation ( http://arxiv.org/abs/2303.12973v2 )

ライセンス: Link先を確認
Wenbo Hu, Xin Sun, Qiang liu, Le Wu, Liang Wang, (参考訳) クリック後変換率(CVR)は、オンライン顧客の好みを示す信頼性の高い指標であり、レコメンデーションシステムの開発に不可欠である。 CVR予測における大きな課題は、ユーザの固有の自己選択行動とシステムの項目選択プロセスから生じる、厳しい選択バイアスである。 この問題を緩和するために、観測された各インスタンスの予測誤差を重み付けるために逆確率スコア(IPS)を用いる。 しかし、品質指標が欠如しているため、現在の確率スコア推定は信頼できない。 そこで本研究では,不確実性校正の観点から,適合度スコアの質を評価するとともに,予測校正誤差(ECE)を妥当性スコアの指標として用いることを提案する。 我々は、IPSベースのレコメンデーションのパフォーマンスは、確率推定における誤校正によって妨げられていると論じる。 本稿では,CVR予測の妥当性に基づくデバイアス化のためのモデルに依存しないキャリブレーションフレームワークを提案する。 偏りと一般化境界の理論解析は、校正された確率推定の非校正値に対する優越性を証明している。 Coat、Yahoo、KuaiRandのデータセットで実施された実験では、CE値の低い値によって証明された不確実性の校正が改善され、CVR予測結果が向上した。

Post-click conversion rate (CVR) is a reliable indicator of online customers' preferences, making it crucial for developing recommender systems. A major challenge in predicting CVR is severe selection bias, arising from users' inherent self-selection behavior and the system's item selection process. To mitigate this issue, the inverse propensity score (IPS) is employed to weight the prediction error of each observed instance. However, current propensity score estimations are unreliable due to the lack of a quality measure. To address this, we evaluate the quality of propensity scores from the perspective of uncertainty calibration, proposing the use of expected calibration error (ECE) as a measure of propensity-score quality. We argue that the performance of IPS-based recommendations is hampered by miscalibration in propensity estimation. We introduce a model-agnostic calibration framework for propensity-based debiasing of CVR predictions. Theoretical analysis on bias and generalization bounds demonstrates the superiority of calibrated propensity estimates over uncalibrated ones. Experiments conducted on the Coat, Yahoo and KuaiRand datasets show improved uncertainty calibration, as evidenced by lower ECE values, leading to enhanced CVR prediction outcomes.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# TalkCLIP: テキストガイド型表現型音声スタイルによる対話ヘッドジェネレーション

TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles ( http://arxiv.org/abs/2304.00334v3 )

ライセンス: Link先を確認
Yifeng Ma, Suzhen Wang, Yu Ding, Lincheng Li, Bowen Ma, Tangjie Lv, Changjie Fan, Zhipeng Hu, Zhidong Deng, Xin Yu, (参考訳) 音声駆動音声ヘッド生成は注目を集めている。 所望の表情で話すヘッドビデオを作成するために、従来の手法は、表現情報を提供するために余分な参照ビデオに頼っている。 本研究では,自然言語で表現を指定した発話ヘッドを生成可能なフレームワークであるTalkCLIPを提案する。 テキストから表現へのマッピングをモデル化するために,まず,粗い感情ときめ細かい顔の動きの両方を表現した多彩なテキスト記述を持つテキスト-ビデオ対話ヘッドデータセットを構築した。 提案したデータセットを活用することで,表現表現に自然言語に基づく記述を投影するCLIPベースのスタイルエンコーダを導入する。 TalkCLIPはトレーニング中に見えない説明のために式を推測することもできます。 TalkCLIPはテキストを使って表現の強度を調節したり、表現を編集したりすることもできる。 広汎な実験により、TalkCLIPは、テキスト記述でガイドされた鮮やかな表情で、写真リアルな発話ヘッドを生成する高度な能力を実現することが実証された。

Audio-driven talking head generation has drawn growing attention. To produce talking head videos with desired facial expressions, previous methods rely on extra reference videos to provide expression information, which may be difficult to find and hence limits their usage. In this work, we propose TalkCLIP, a framework that can generate talking heads where the expressions are specified by natural language, hence allowing for specifying expressions more conveniently. To model the mapping from text to expressions, we first construct a text-video paired talking head dataset where each video has diverse text descriptions that depict both coarse-grained emotions and fine-grained facial movements. Leveraging the proposed dataset, we introduce a CLIP-based style encoder that projects natural language-based descriptions to the representations of expressions. TalkCLIP can even infer expressions for descriptions unseen during training. TalkCLIP can also use text to modulate expression intensity and edit expressions. Extensive experiments demonstrate that TalkCLIP achieves the advanced capability of generating photo-realistic talking heads with vivid facial expressions guided by text descriptions.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# WildRefer: マルチモーダルビジュアルデータと自然言語を用いた大規模動的シーンにおける3次元オブジェクトのローカライゼーション

WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language ( http://arxiv.org/abs/2304.05645v3 )

ライセンス: Link先を確認
Zhenxiang Lin, Xidong Peng, Peishan Cong, Ge Zheng, Yujin Sun, Yuenan Hou, Xinge Zhu, Sibei Yang, Yuexin Ma, (参考訳) 本稿では,2次元画像や3次元LiDAR点雲を含む,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。 本研究では、画像中のリッチな外観情報、ポイントクラウドにおける位置と幾何学的手がかり、および言語記述のセマンティック知識をフル活用して、WildReferと呼ばれる新しい手法を提案する。 さらに,STReferとLifeReferという2つの新しいデータセットを提案する。 われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。 大規模な実験とアブレーション実験により,提案手法が提案したベンチマークの最先端性能を達成できることが実証された。 コードはhttps://github.com/4DVLab/WildRefer.comで提供されている。

We introduce the task of 3D visual grounding in large-scale dynamic scenes based on natural linguistic descriptions and online captured multi-modal visual data, including 2D images and 3D LiDAR point clouds. We present a novel method, dubbed WildRefer, for this task by fully utilizing the rich appearance information in images, the position and geometric clues in point cloud as well as the semantic knowledge of language descriptions. Besides, we propose two novel datasets, i.e., STRefer and LifeRefer, which focus on large-scale human-centric daily-life scenarios accompanied with abundant 3D object and natural language annotations. Our datasets are significant for the research of 3D visual grounding in the wild and has huge potential to boost the development of autonomous driving and service robots. Extensive experiments and ablation studies demonstrate that our method achieves state-of-the-art performance on the proposed benchmarks. The code is provided in https://github.com/4DVLab/WildRefer.
翻訳日:2024-07-17 05:28:16 公開日:2024-07-15
# HACMan: 6次元非定常マニピュレーションのためのハイブリッドアクタクリティカルマップの学習

HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation ( http://arxiv.org/abs/2305.03942v5 )

ライセンス: Link先を確認
Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held, (参考訳) 物体をつかむことなく操作することは、非包括的操作(non-prehensile operation)と呼ばれる人間の器用性の本質的な構成要素である。 非包括的操作は、オブジェクトとのより複雑な相互作用を可能にするだけでなく、グリップとオブジェクトの相互作用を推論する上での課題も提示する。 本研究では,物体の6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。 HACManは、オブジェクトポイントクラウドから接触位置を選択することと、ロボットが接触した後どのように動くかを記述した一連の動きパラメータからなる、時間的に制限された空間的空間的なオブジェクト中心のアクション表現を提案する。 我々は、このハイブリッド離散連続アクション表現で学習するために、既存のオフポリチィRLアルゴリズムを変更した。 シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。 最も難しいのは、ランダム化された初期ポーズ、ランダム化された6Dゴール、および多様なオブジェクトカテゴリを持つタスクにおいて、我々のポリシーは、パフォーマンス低下のないオブジェクトカテゴリへの強力な一般化を示し、シミュレーションにおける未確認オブジェクトの89%の成功率、実世界のゼロショット転送による50%の成功率を実現している。 代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。 ゼロショットのsim2realトランスファーでは、動的かつ接触に富んだ非包括的スキルを用いて、非計画的な目標に挑戦するために、現実世界の見えない物体をうまく操作することができる。 ビデオはプロジェクトのWebサイト(https://hacman-2023.github.io)で見ることができる。

Manipulating objects without grasping them is an essential component of human dexterity, referred to as non-prehensile manipulation. Non-prehensile manipulation may enable more complex interactions with the objects, but also presents challenges in reasoning about gripper-object interactions. In this work, we introduce Hybrid Actor-Critic Maps for Manipulation (HACMan), a reinforcement learning approach for 6D non-prehensile manipulation of objects using point cloud observations. HACMan proposes a temporally-abstracted and spatially-grounded object-centric action representation that consists of selecting a contact location from the object point cloud and a set of motion parameters describing how the robot will move after making contact. We modify an existing off-policy RL algorithm to learn in this hybrid discrete-continuous action representation. We evaluate HACMan on a 6D object pose alignment task in both simulation and in the real world. On the hardest version of our task, with randomized initial poses, randomized 6D goals, and diverse object categories, our policy demonstrates strong generalization to unseen object categories without a performance drop, achieving an 89% success rate on unseen objects in simulation and 50% success rate with zero-shot transfer in the real world. Compared to alternative action representations, HACMan achieves a success rate more than three times higher than the best baseline. With zero-shot sim2real transfer, our policy can successfully manipulate unseen objects in the real world for challenging non-planar goals, using dynamic and contact-rich non-prehensile skills. Videos can be found on the project website: https://hacman-2023.github.io.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# 北エフ・リンドブレディアンにおける混合状態量子スピン液体と動的アニオン凝縮

Mixed-State Quantum Spin Liquids and Dynamical Anyon Condensations in Kitaev Lindbladians ( http://arxiv.org/abs/2305.09197v4 )

ライセンス: Link先を確認
Kyusung Hwang, (参考訳) 凝縮物質物理学の主題であった量子スピン液体やエノンは、現在では様々な量子ビットのプラットフォームで実現されており、多体量子絡み合った状態の基礎物理学を研究するための前例のない機会を提供している。 クビットはデコヒーレンスや消散などの環境効果に必然的に曝され、これは多体の絡み合いに有害であると考えられている。 ここでは、一般的なデコヒーレンスや散逸とは異なり、量子スピン液体の新たなトポロジカル現象を引き起こす可能性があると論じる。 我々は,北エフスピン液体の開量子系とリンドブラッドマスター方程式を用いたトーリック符号について検討した。 正確な解法と数値解法を用いて, 脱コヒーレンスと散逸によるエノン凝縮の動的発生を示し, 初期状態スピン液体から定常状態スピン液体への位相的遷移をもたらす。 リンドブラッド力学によるエノン凝縮転移の機構を解明する。 また, キタエフのスピン液体とトーリック符号の関係について, 常に凝縮した画像で考察した。 我々の研究は、オープン量子系が量子スピン液体やエノンのトポロジカル現象の新たな場所となることを示唆している。

Quantum spin liquids and anyons, used to be subjects of condensed matter physics, now are realized in various platforms of qubits, offering unprecedented opportunities to investigate fundamental physics of many-body quantum entangled states. Qubits are inevitably exposed to environment effects such as decoherence and dissipation, which are believed to be detrimental to many-body entanglement. Here, we argue that unlike the common belief decoherence and dissipation can give rise to novel topological phenomena in quantum spin liquids. We study open quantum systems of the Kitaev spin liquid and the toric code via the Lindblad master equation approach. By using exact solutions and numerical approaches, we show the dynamical occurrence of anyon condensation by decoherence and dissipation, which results in a topological transition from the initial state spin liquid to the steady state spin liquid. The mechanism of the anyon condensation transition by the Lindblad dynamics is elucidated. We also provide an insight into the relationship between the Kitaev spin liquid and the toric code in the picture of anyon condensation. Our work suggests open quantum systems to be a new venue for topological phenomena of quantum spin liquids and anyons.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction

Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction ( http://arxiv.org/abs/2305.15171v4 )

ライセンス: Link先を確認
Xinhang Liu, Jiaben Chen, Shiu-hong Kao, Yu-Wing Tai, Chi-Keung Tang, (参考訳) ニューラル・ラジアン・フィールド(Neural Radiance Fields, NeRFs)または3D Gaussian Splatting(3DGS)による新しいビュー合成は、アーティファクトを回避するために数百の入力画像による密集した観測を必要とする。 我々は,マルチビューデータセットから事前学習した拡散モデルを利用して,限られた入力画像のみを用いてスパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。 表現最適化の正規化に拡散前処理を使うのとは違い,本手法では直接拡散生成画像を用いてNeRF/3DGSを実際の入力ビューのように訓練する。 具体的には,少数視点再構成によるノイズ画像から高品質なフォトリアリスティック擬似観測へ変換する,偽拡散モデルを提案する。 擬似観測と実際の入力ビューの整合性を解決するため,拡散モデルの生成を導く不確実性尺度を開発した。 本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。 多様な、挑戦的なデータセットにわたる大規模な実験は、我々のアプローチが既存の最先端の手法より優れており、少数の視点で新しいビューを超高解像度で合成できることを示す。

Novel view synthesis via Neural Radiance Fields (NeRFs) or 3D Gaussian Splatting (3DGS) typically necessitates dense observations with hundreds of input images to circumvent artifacts. We introduce Deceptive-NeRF/3DGS to enhance sparse-view reconstruction with only a limited set of input images, by leveraging a diffusion model pre-trained from multiview datasets. Different from using diffusion priors to regularize representation optimization, our method directly uses diffusion-generated images to train NeRF/3DGS as if they were real input views. Specifically, we propose a deceptive diffusion model turning noisy images rendered from few-view reconstructions into high-quality photorealistic pseudo-observations. To resolve consistency among pseudo-observations and real input views, we develop an uncertainty measure to guide the diffusion model's generation. Our system progressively incorporates diffusion-generated pseudo-observations into the training image sets, ultimately densifying the sparse input observations by 5 to 10 times. Extensive experiments across diverse and challenging datasets validate that our approach outperforms existing state-of-the-art methods and is capable of synthesizing novel views with super-resolution in the few-view setting.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# ScoreCL: スコアマッチング機能による拡張適応型コントラスト学習

ScoreCL: Augmentation-Adaptive Contrastive Learning via Score-Matching Function ( http://arxiv.org/abs/2306.04175v3 )

ライセンス: Link先を確認
Jin-Young Kim, Soonwoo Kwon, Hyojun Go, Yunsung Lee, Seungtaek Choi, Hyun-Gyoon Kim, (参考訳) 自己教師付きコントラスト学習(CL)は、正のペア間の距離を最小化し、負のペア間の距離を最大化し、表現学習における最先端のパフォーマンスを達成した。 近年,モデルが多彩な正のペアでより良い表現を学習することが確認されている。 しかし、CLに関するいくつかの研究は、拡張的な視点の違いを考慮し、手作りの知見を超えていない。 本稿では、まず、スコアマッチング関数が、元のデータから拡張までの変化量を測定することができることを観察する。 観測特性により、CL内の各ペアはスコア値の差により適応的に重み付けが可能となり、既存のCL法の性能が向上する。 我々は,CIFAR-10,CIFAR-100,ImageNet-100のk-NN評価において,SimCLR,SimSiam,W-MSE,VICRegの様々なCL法を一貫して改良し,ScoreCLと呼ばれる手法の一般性を示す。 さらに,様々な下流タスクの結果,ベースラインとの比較,および他の拡張手法を用いた場合の改善など,徹底的な実験と改善を実施してきた。 CLのスコアマッチングを利用したさらなる研究が期待できる。

Self-supervised contrastive learning (CL) has achieved state-of-the-art performance in representation learning by minimizing the distance between positive pairs while maximizing that of negative ones. Recently, it has been verified that the model learns better representation with diversely augmented positive pairs because they enable the model to be more view-invariant. However, only a few studies on CL have considered the difference between augmented views, and have not gone beyond the hand-crafted findings. In this paper, we first observe that the score-matching function can measure how much data has changed from the original through augmentation. With the observed property, every pair in CL can be weighted adaptively by the difference of score values, resulting in boosting the performance of the existing CL method. We show the generality of our method, referred to as ScoreCL, by consistently improving various CL methods, SimCLR, SimSiam, W-MSE, and VICReg, up to 3%p in k-NN evaluation on CIFAR-10, CIFAR-100, and ImageNet-100. Moreover, we have conducted exhaustive experiments and ablations, including results on diverse downstream tasks, comparison with possible baselines, and improvement when used with other proposed augmentation methods. We hope our exploration will inspire more research in exploiting the score matching for CL.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# フレキシブルな分布アライメント:適切な校正による長期半教師付き学習を目指して

Flexible Distribution Alignment: Towards Long-tailed Semi-supervised Learning with Proper Calibration ( http://arxiv.org/abs/2306.04621v3 )

ライセンス: Link先を確認
Emanuel Sanchez Aimar, Nathaniel Helgesen, Yonghao Xu, Marco Kuhlmann, Michael Felsberg, (参考訳) LTSSL(Long-tailed semi-supervised learning)は、偏見分類器を歪んだラベル付き分布に挑戦する半教師付きアプリケーションのための実践的なシナリオである。 この問題はしばしばラベル付きとラベルなしのクラス分布の相違によって増大し、バイアス付き擬似ラベル、希少なクラスを無視し、校正の不十分な確率に繋がる。 このような問題に対処するために、FlexDA(Flexible Distribution Alignment)という新しい適応ロジット調整型損失フレームワークを導入し、予測をラベルなしデータの実際の分布と動的に推定・調整し、トレーニングの終了までにバランスの取れた分類器を実現する。 FlexDAは、蒸留ベースの一貫性の喪失によってさらに強化され、クラス間での公正なデータ使用を促進し、信頼性の低いサンプルを効果的に活用する。 この方法はADELLO(Align and Distill Everything All at Once)にカプセル化され、ラベルシフトに対する堅牢さを証明し、LTSSLコンテキストにおけるモデルキャリブレーションを大幅に改善し、CIFAR100-LT、STL10-LT、ImageNet127を含む複数のベンチマークで過去の最先端のアプローチを超越し、半教師付き学習におけるクラス不均衡の問題に対処する。 私たちのコードはhttps://github.com/emasa/ADELLO-LTSSL.comで利用可能です。

Long-tailed semi-supervised learning (LTSSL) represents a practical scenario for semi-supervised applications, challenged by skewed labeled distributions that bias classifiers. This problem is often aggravated by discrepancies between labeled and unlabeled class distributions, leading to biased pseudo-labels, neglect of rare classes, and poorly calibrated probabilities. To address these issues, we introduce Flexible Distribution Alignment (FlexDA), a novel adaptive logit-adjusted loss framework designed to dynamically estimate and align predictions with the actual distribution of unlabeled data and achieve a balanced classifier by the end of training. FlexDA is further enhanced by a distillation-based consistency loss, promoting fair data usage across classes and effectively leveraging underconfident samples. This method, encapsulated in ADELLO (Align and Distill Everything All at Once), proves robust against label shift, significantly improves model calibration in LTSSL contexts, and surpasses previous state-of-of-art approaches across multiple benchmarks, including CIFAR100-LT, STL10-LT, and ImageNet127, addressing class imbalance challenges in semi-supervised learning. Our code is available at https://github.com/emasa/ADELLO-LTSSL.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# Epoch-based Stochastic Gradient Descent における相関ノイズ : 体重変動との関連について

Correlated Noise in Epoch-Based Stochastic Gradient Descent: Implications for Weight Variances ( http://arxiv.org/abs/2306.05300v2 )

ライセンス: Link先を確認
Marcel Kühn, Bernd Rosenow, (参考訳) 確率勾配降下(SGD)は、ニューラルネットワーク最適化の基盤となっているが、SGDによって引き起こされるノイズは、エポックベースのトレーニングが多用されているにもかかわらず、時間とともに無相関であるとしばしば考えられている。 本研究では,この仮定に挑戦し,2次損失に限定された離散時間SGDの定常分布に対するエポック雑音相関の影響について検討する。 まず、重みベクトルの小さなゆらぎに依存しないという仮定の下で、エポジストにおけるトレーニング用ノイズの正確な自己相関を計算し、SGDノイズが時間的に反相関であることを示す。 第2に、これらの相関がSGDダイナミクスに与える影響について検討する。 その結果,超パラメータ依存性のクロスオーバー値よりも曲率が大きい方向では,非相関ノイズが回復することがわかった。 しかし、比較的平坦な方向には、重み分散は著しく減少し、我々の分散予測は、一定の重み分散仮定と比較して損失変動を著しく減少させる。

Stochastic gradient descent (SGD) has become a cornerstone of neural network optimization, yet the noise introduced by SGD is often assumed to be uncorrelated over time, despite the ubiquity of epoch-based training. In this work, we challenge this assumption and investigate the effects of epoch-based noise correlations on the stationary distribution of discrete-time SGD with momentum, limited to a quadratic loss. Our main contributions are twofold: first, we calculate the exact autocorrelation of the noise for training in epochs under the assumption that the noise is independent of small fluctuations in the weight vector, and find that SGD noise is anti-correlated in time. Second, we explore the influence of these anti-correlations on SGD dynamics. We find that for directions with a curvature greater than a hyperparameter-dependent crossover value, the results for uncorrelated noise are recovered. However, for relatively flat directions, the weight variance is significantly reduced, and our variance prediction leads to a considerable reduction in loss fluctuations as compared to the constant weight variance assumption.
翻訳日:2024-07-17 05:18:31 公開日:2024-07-15
# 四元数フーリエ変換の行列形式と四元数畳み込みについて

On the Matrix Form of the Quaternion Fourier Transform and Quaternion Convolution ( http://arxiv.org/abs/2307.01836v2 )

ライセンス: Link先を確認
Giorgos Sfikas, George Retsinas, (参考訳) フーリエ変換および畳み込み演算の四元数版行列形式について検討する。 四元数(英語版)は強力な表現単位を提供するが、それらは四元数乗算の非可換性から最も遠ざかるそれらの利用の困難に関係しており、従って、$\mu^2 = -1$ は四元数領域における無限の解を持つ。 四元数行列の扱いはいくつかの面で複雑である(固有構造の定義、行列式など)。 本研究では,四元数フーリエ変換行列と標準(複素)離散フーリエ変換行列との関係を明らかにするとともに,よく知られた複素ドメイン定理が四元数に拡張される拡張について述べる。 特に,四元数フーリエ変換行列と四元数循環行列(四元数畳み込みを表す)の関係と,後者の固有構造に着目した。 そこで, 準イオン畳み込みニューラルネットワークのリプシッツ定数を束縛する手法を提案する。

We study matrix forms of quaternionic versions of the Fourier Transform and Convolution operations. Quaternions offer a powerful representation unit, however they are related to difficulties in their use that stem foremost from non-commutativity of quaternion multiplication, and due to that $\mu^2 = -1$ possesses infinite solutions in the quaternion domain. Handling of quaternionic matrices is consequently complicated in several aspects (definition of eigenstructure, determinant, etc.). Our research findings clarify the relation of the Quaternion Fourier Transform matrix to the standard (complex) Discrete Fourier Transform matrix, and the extend on which well-known complex-domain theorems extend to quaternions. We focus especially on the relation of Quaternion Fourier Transform matrices to Quaternion Circulant matrices (representing quaternionic convolution), and the eigenstructure of the latter. A proof-of-concept application that makes direct use of our theoretical results is presented, where we present a method to bound the Lipschitz constant of a Quaternionic Convolutional Neural Network.
翻訳日:2024-07-17 05:08:47 公開日:2024-07-15
# オフライン構成強化学習のためのロボットマニピュレーションデータセット

Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning ( http://arxiv.org/abs/2307.07091v2 )

ライセンス: Link先を確認
Marcel Hussing, Jorge A. Mendez, Anisha Singrodia, Cassandra Kent, Eric Eaton, (参考訳) オフライン強化学習(RL)は、RLエージェントが大規模なデータセットで事前トレーニングが可能で、高価なデータ収集の再発を避けるための有望な方向である。 フィールドを前進させるためには、大規模なデータセットを生成することが不可欠である。 構成的RLは,1) - 少数のコンポーネントから多数のタスクを作成できる,2) - タスク構造は,関連する学習されたコンポーネントを組み合わせることで,訓練されたエージェントが新しいタスクを解決できる,3) - 構成的次元はタスク関連性の概念を提供する,など,このような大きなデータセットを生成するのに特に魅力的である。 本稿では,CompoSuite [Mendez at al., 2022a]の256ドルのタスクを用いて,ロボット操作をシミュレーションするための4つのオフラインRLデータセットを提供する。 各データセットは、異なるレベルのパフォーマンスを持つエージェントから収集され、256万のトランジションから構成される。 エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。 ベンチマーク実験により、現在のオフラインRL手法はある程度のトレーニングタスクを学習でき、構成法は非構成法よりも優れていることが示された。 しかし、現在の手法では、未知のタスクに一般化するための構成構造を抽出することができず、オフライン合成RLにおける将来の研究の必要性を強調している。

Offline reinforcement learning (RL) is a promising direction that allows RL agents to pre-train on large datasets, avoiding the recurrence of expensive data collection. To advance the field, it is crucial to generate large-scale datasets. Compositional RL is particularly appealing for generating such large datasets, since 1)~it permits creating many tasks from few components, 2)~the task structure may enable trained agents to solve new tasks by combining relevant learned components, and 3)~the compositional dimensions provide a notion of task relatedness. This paper provides four offline RL datasets for simulated robotic manipulation created using the $256$ tasks from CompoSuite [Mendez at al., 2022a]. Each dataset is collected from an agent with a different degree of performance, and consists of $256$ million transitions. We provide training and evaluation settings for assessing an agent's ability to learn compositional task policies. Our benchmarking experiments show that current offline RL methods can learn the training tasks to some extent and that compositional methods outperform non-compositional methods. Yet current methods are unable to extract the compositional structure to generalize to unseen tasks, highlighting a need for future research in offline compositional RL.
翻訳日:2024-07-17 05:08:47 公開日:2024-07-15
# EnTri: 説明可能なシーン認識のための3レベル表現によるアンサンブル学習

EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition ( http://arxiv.org/abs/2307.12442v2 )

ライセンス: Link先を確認
Amirhossein Aminimehr, Amirali Molaei, Erik Cambria, (参考訳) 深層学習に基づくシーン認識は大きな進歩を遂げているが,クラス間類似性やクラス内類似性による課題により,その性能にはまだ限界がある。 さらに、先行研究は主に分類精度の向上に重点を置いているが、解釈可能な正確なシーン分類を達成することにはあまり注意を向けていない。 そこで我々は,視覚特徴の階層構造を用いたアンサンブル学習を利用したアンサンブルシーン認識フレームワークであるEnTriを提案する。 EnTriは、ピクセルレベル、セマンティックセグメンテーションレベル、オブジェクトクラスと周波数レベルという3つの異なるレベルの機能を示している。 複雑さの異なる特徴符号化方式を取り入れ,アンサンブル戦略を活用することにより,視覚的・テキスト的説明による透明性と解釈性を向上し,分類精度を向上させることを目的とする。 そこで我々は,そのカテゴリの最終的な予測に寄与するシーンの様々な特性を強調する視覚的説明とテキスト的説明の両方を生成する拡張アルゴリズムを考案した。 これには、オブジェクト、統計、空間的レイアウト、およびテクスチャの詳細に関する情報が含まれる。 ベンチマークシーン分類データセットの実験を通じて、EnTriは認識精度の面で優位性を示し、最先端のアプローチと比較して、それぞれ87.69%、75.56%、99.17%の精度で、MIT67、SUN397、UIUC8データセットで競合性能を達成した。

Scene recognition based on deep-learning has made significant progress, but there are still limitations in its performance due to challenges posed by inter-class similarities and intra-class dissimilarities. Furthermore, prior research has primarily focused on improving classification accuracy, yet it has given less attention to achieving interpretable, precise scene classification. Therefore, we are motivated to propose EnTri, an ensemble scene recognition framework that employs ensemble learning using a hierarchy of visual features. EnTri represents features at three distinct levels of detail: pixel-level, semantic segmentation-level, and object class and frequency level. By incorporating distinct feature encoding schemes of differing complexity and leveraging ensemble strategies, our approach aims to improve classification accuracy while enhancing transparency and interpretability via visual and textual explanations. To achieve interpretability, we devised an extension algorithm that generates both visual and textual explanations highlighting various properties of a given scene that contribute to the final prediction of its category. This includes information about objects, statistics, spatial layout, and textural details. Through experiments on benchmark scene classification datasets, EnTri has demonstrated superiority in terms of recognition accuracy, achieving competitive performance compared to state-of-the-art approaches, with an accuracy of 87.69%, 75.56%, and 99.17% on the MIT67, SUN397, and UIUC8 datasets, respectively.
翻訳日:2024-07-17 05:08:47 公開日:2024-07-15
# Spaceyze:空間対応最適化による地理空間ビデオ分析システム

Spatialyze: A Geospatial Video Analytics System with Spatial-Aware Optimizations ( http://arxiv.org/abs/2308.03276v5 )

ライセンス: Link先を確認
Chanwut Kittivorawong, Yongming Ge, Yousef Helal, Alvin Cheung, (参考訳) 携帯電話や監視カメラのようなコモディティなハードウェアを使って撮影されるビデオは、時間や場所などの様々なメタデータを記録する。 このような地理空間的ビデオは日常的に遭遇し,その量は著しく増加している。 しかし、そのようなデータと効率的に対話できるデータ管理システムは存在しません。 本稿では,地理空間ビデオのエンドツーエンドクエリのための新しいフレームワークであるSpatialyzeについて述べる。 Spatialyzeにはドメイン固有の言語があり、ユーザは3ステップで宣言的で、ビルド-フィルタ-オブザーバのパラダイムを使って、地理空間ビデオ分析ワークフローを構築することができる。 内部的には、Spatialyzeはワークフローの宣言的な性質、ビデオに格納された時間空間メタデータ、現実世界のオブジェクトの物理的な振る舞いを活用してワークフローの実行を最適化する。 実世界のビデオとワークフローを用いた結果から、Spatialyzeは、最適化されていない実行と比較して最大97.1%の精度を維持しながら、実行時間を最大5.3倍に削減できることがわかった。

Videos that are shot using commodity hardware such as phones and surveillance cameras record various metadata such as time and location. We encounter such geospatial videos on a daily basis and such videos have been growing in volume significantly. Yet, we do not have data management systems that allow users to interact with such data effectively. In this paper, we describe Spatialyze, a new framework for end-to-end querying of geospatial videos. Spatialyze comes with a domain-specific language where users can construct geospatial video analytic workflows using a 3-step, declarative, build-filter-observe paradigm. Internally, Spatialyze leverages the declarative nature of such workflows, the temporal-spatial metadata stored with videos, and physical behavior of real-world objects to optimize the execution of workflows. Our results using real-world videos and workflows show that Spatialyze can reduce execution time by up to 5.3x, while maintaining up to 97.1% accuracy compared to unoptimized execution.
翻訳日:2024-07-17 05:08:47 公開日:2024-07-15
# 量子非マルコビアン性の蒸留

Distillation of quantum non-Markovianity ( http://arxiv.org/abs/2308.05867v2 )

ライセンス: Link先を確認
Thiago Melo D. Azevedo, Cristhiano Duarte, Nadja K. Bernardes, (参考訳) 開量子系力学の非マルコビアン性は物理的に関係のある性質であり、通常は(量子)情報のバックフローと関連している。 このパラダイム的マーカーを用いて、チャネルのコピー数が多ければ量子力学の非マルコビアン性をどのように蒸留するかを検証し、情報のバックフローに強い影響を与える可能性がある。

Non-Markovianty of open quantum systems dynamics is a physically relevant property which is usually associated with the backflow of (quantum) information. Using this paradigmatic marker, we develop an operational framework to investigate how non-Markovianity for qubit dynamics can be distilled when many copies of the channels are used, possibly allowing for a stronger effect on the backflow of information.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# 量子情報科学・技術教育におけるカリキュラム変換の枠組み

A Framework for Curriculum Transformation in Quantum Information Science and Technology Education ( http://arxiv.org/abs/2308.10371v3 )

ライセンス: Link先を確認
Simon Goorney, Jonas Bley, Stefan Heusler, Jacob Sherson, (参考訳) QIST(Quantum Information Science & Technology)の分野は活況を呈している。 このため、発展途上国の労働力を確保するためには、多くの新しい教育コースや大学プログラムが必要である。 専門的な性質から、理科・技術・工学・数学(STEM)分野における指導のベスト・アプローチを支援することを目的とした、理科教育研究のかなりの段階から、この分野の指導アプローチが容易に切り離される。 この2つのコミュニティを実践的かつ反復的な方法論で結びつけるために,我々は,この教育研究を,QISTキュリキュラの変換のための決定木に基づく理論的モデルに合成した。 QCTF(Quantum Curriculum Transformation Framework)は4つのステップから構成される。 1 話題を選ぶ。 2 標的とするスキルを 1つ以上選びなさい。 3.学習目標を選択して 4. この目標を達成するための教育アプローチを選択すること。 本稿では、このカリキュラムにおける量子通信の基本概念として、例カリキュラム、より具体的には量子テレポーテーションを用いて、これをどのように行うかを示す。 このようにカリキュラムの作成と変革に近づくことで、教育目標と成果がより明確に定義され、それは個人や産業の関心事である。 このフレームワークは、QIST教育の物語を構造化することを目的としており、将来のテストと改良により、QISTの実践に関するさらなる研究の基盤を形成する。

The field of Quantum Information Science & Technology (QIST) is booming. Due to this, many new educational courses and university programs are needed in order to prepare a workforce for the developing industry. Owing to its specialist nature, teaching approaches in this field can easily become disconnected from the substantial degree of science education research which aims to support the best approaches to teaching in Science, Technology, Engineering & Mathematics (STEM) fields. In order to connect these two communities with a pragmatic and repeatable methodology, we have synthesised this educational research into a decision-tree based theoretical model for the transformation of QIST curricula, intended to provide a didactical perspective for practitioners. The Quantum Curriculum Transformation Framework (QCTF) consists of four steps: 1. choose a topic, 2. choose one or more targeted skills, 3. choose a learning goal and 4. choose a teaching approach that achieves this goal. We show how this can be done using an example curriculum and more specifically quantum teleportation as a basic concept of quantum communication within this curriculum. By approaching curriculum creation and transformation in this way, educational goals and outcomes are more clearly defined which is in the interest of the individual and the industry alike. The framework is intended to structure the narrative of QIST teaching, and with future testing and refinement it will form a basis for further research in the didactics of QIST.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# GRIP:空間的キューと潜時一貫性を用いたインタラクションポーザの生成

GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency ( http://arxiv.org/abs/2308.11617v2 )

ライセンス: Link先を確認
Omid Taheri, Yi Zhou, Dimitrios Tzionas, Yang Zhou, Duygu Ceylan, Soren Pirk, Michael J. Black, (参考訳) 手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。 したがって、個々の指の微妙な動きを含む現実的な手-物体の相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 3Dで物体と相互作用する人間の捕獲とモデリングに関する以前の研究は、身体と物体の動きに焦点を合わせており、しばしば手ポーズを無視している。 対照的にGRIPは、入力として体と物体の3次元運動を取り入れ、物体の相互作用の前、中、後の両方で現実的な動きを合成する学習ベースの手法である。 手の動きを合成する前段階として、まず、腕の動きを認知するために、ANetというネットワークを使用します。 次に, 物体と物体の時空間的関係を利用して2種類の新しい時間的相互作用の手がかりを抽出し, 2段階の推論パイプラインで手の動きを生成する。 第1段階では、潜伏空間(LTC)における動きの時間的一貫性を強制し、一貫した相互作用運動を生成する新しいアプローチを導入する。 第2段階では、GRIPは手荷物の侵入を避けるために洗練された手ポーズを生成する。 ノイズのある体と物体の動きのシーケンスが与えられたら、GRIPはそれらを手動物体の相互作用を含むようにアップグレードする。 定量的実験と知覚的研究により、GRIPはベースライン法を上回り、異なるモーションキャプチャーデータセットから見えない物体や動きに一般化することを示した。

Hands are dexterous and highly versatile manipulators that are central to how humans interact with objects and their environment. Consequently, modeling realistic hand-object interactions, including the subtle motion of individual fingers, is critical for applications in computer graphics, computer vision, and mixed reality. Prior work on capturing and modeling humans interacting with objects in 3D focuses on the body and object motion, often ignoring hand pose. In contrast, we introduce GRIP, a learning-based method that takes, as input, the 3D motion of the body and the object, and synthesizes realistic motion for both hands before, during, and after object interaction. As a preliminary step before synthesizing the hand motion, we first use a network, ANet, to denoise the arm motion. Then, we leverage the spatio-temporal relationship between the body and the object to extract two types of novel temporal interaction cues, and use them in a two-stage inference pipeline to generate the hand motion. In the first stage, we introduce a new approach to enforce motion temporal consistency in the latent space (LTC), and generate consistent interaction motions. In the second stage, GRIP generates refined hand poses to avoid hand-object penetrations. Given sequences of noisy body and object motion, GRIP upgrades them to include hand-object interaction. Quantitative experiments and perceptual studies demonstrate that GRIP outperforms baseline methods and generalizes to unseen objects and motions from different motion-capture datasets.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# カテゴリー適応は、一般化された連続的なカテゴリー発見において、予想される蒸留と一致する

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery ( http://arxiv.org/abs/2308.12112v3 )

ライセンス: Link先を確認
Grzegorz Rypeść, Daniel Marczak, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Generalized Continual Category Discovery (GCCD)は、新しいカテゴリを明らかにしながら、シーケンシャルに到達し、部分的にラベル付けされたデータセットから学習に取り組む。 伝統的な方法は、古い知識を忘れないように特徴蒸留に依存する。 しかし、この戦略はモデルが適応し、新しいカテゴリを効果的に区別する能力を制限する。 そこで本研究では,学習可能なプロジェクタと特徴蒸留を統合し,過去の知識を犠牲にすることなくモデル適応性を向上する手法を提案する。 得られたカテゴリの分布シフトは、補助カテゴリ適応ネットワークにより緩和される。 CAMP(Category Adaptation Meets Projected distillation)と呼ばれる組み合わせは、各コンポーネントが個別に穏やかなメリットを提供する一方で、新しい情報学習と古い情報保持のバランスを大幅に改善することを示した。 CAMPは、いくつかのGCCDおよびクラスインクリメンタルラーニングシナリオで優れたパフォーマンスを示している。 コードはhttps://github.com/grypesc/CAMPで公開されている。

Generalized Continual Category Discovery (GCCD) tackles learning from sequentially arriving, partially labeled datasets while uncovering new categories. Traditional methods depend on feature distillation to prevent forgetting the old knowledge. However, this strategy restricts the model's ability to adapt and effectively distinguish new categories. To address this, we introduce a novel technique integrating a learnable projector with feature distillation, thus enhancing model adaptability without sacrificing past knowledge. The resulting distribution shift of the previously learned categories is mitigated with the auxiliary category adaptation network. We demonstrate that while each component offers modest benefits individually, their combination - dubbed CAMP (Category Adaptation Meets Projected distillation) - significantly improves the balance between learning new information and retaining old. CAMP exhibits superior performance across several GCCD and Class Incremental Learning scenarios. The code is available at https://github.com/grypesc/CAMP.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# GKGNet:マルチラベル画像認識のためのグループK-Nearest Neighborに基づくグラフ畳み込みネットワーク

GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition ( http://arxiv.org/abs/2308.14378v2 )

ライセンス: Link先を確認
Ruijie Yao, Sheng Jin, Lumin Xu, Wang Zeng, Wentao Liu, Chen Qian, Ping Luo, Ji Wu, (参考訳) マルチラベル画像認識(MLIR)は、ラベルと画像領域の間の複雑な関係をモデル化しながら、単一のイメージ内で複数のオブジェクトラベルを予測することを目的とした課題である。 畳み込みニューラルネットワークと視覚変換器は、ピクセルやパッチの正規グリッドとして画像を処理することに成功しているが、これらの表現は不規則で不連続な領域をキャプチャするのに最適である。 本稿では,グループK-アネレス近傍のグラフ畳み込みネットワーク (GKGNet) を初めて提案し, セマンティックラベルの埋め込みと画像パッチの接続を柔軟で統一されたグラフ構造でモデル化する。 異なるオブジェクトのスケール分散に対処し、複数の視点から情報を取得するために、動的グラフ構築とメッセージパッシングのためのグループKGCNモジュールを提案する。 実験により,GKGNetは,挑戦的なマルチラベルデータセットである \ie MS-COCO と VOC2007 のデータセットに対して,計算コストを大幅に削減して,最先端の性能を実現することを示した。 この領域における将来の研究を促進するために、コードとモデルをリリースします。

Multi-Label Image Recognition (MLIR) is a challenging task that aims to predict multiple object labels in a single image while modeling the complex relationships between labels and image regions. Although convolutional neural networks and vision transformers have succeeded in processing images as regular grids of pixels or patches, these representations are sub-optimal for capturing irregular and discontinuous regions of interest. In this work, we present the first fully graph convolutional model, Group K-nearest neighbor based Graph convolutional Network (GKGNet), which models the connections between semantic label embeddings and image patches in a flexible and unified graph structure. To address the scale variance of different objects and to capture information from multiple perspectives, we propose the Group KGCN module for dynamic graph construction and message passing. Our experiments demonstrate that GKGNet achieves state-of-the-art performance with significantly lower computational costs on the challenging multi-label datasets, \ie MS-COCO and VOC2007 datasets. We will release the code and models to facilitate future research in this area.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# BatchPrompt: より少ないものに対応

BatchPrompt: Accomplish more with less ( http://arxiv.org/abs/2309.00384v3 )

ライセンス: Link先を確認
Jianzhe Lin, Maurice Diesendruck, Liang Du, Robin Abraham, (参考訳) 大規模言語モデル(LLM)のトークン制限が拡大するにつれて、入力として長時間のコンテキストが可能になったため、単一のデータサンプルによるプロンプトはもはや効率的な方法ではないかもしれない。 BatchPromptと呼ばれるトークン制限(gpt-3.5-turboでは8k、GPT-4では32k)内でデータをバッチする。 バッチデータによるプロンプトには,2つの初期観測結果がある。 まず、より長いコンテキストでのバッチデータのプロンプトは、単一データプロンプトと比較して、必然的にパフォーマンスが悪くなる。 第2に、デコーダのコンテキストの変化により、言語モデルの性能はバッチデータの位置と順序と大きく相関する。 効率を保ち,性能損失を克服するために,BPE(Batch Permutation and Ensembling)と,SEAS(Self-reflection-guided EArly Stopping)技術を提案する。 BPEは,質問応答(Boolq),テキストエンターメント(RTE),重複質問識別(QQP)など,さまざまなNLPタスクにおいて,BatchPromptの性能を著しく向上させることができることを示す。 これらのパフォーマンスはシングルデータのプロンプト(SinglePrompt)よりもはるかに少ないが、BatchPromptはLLM呼び出しと入力トークンをはるかに少なくする(SinglePrompt v.s. BatchPromptはバッチサイズ32で、わずか9%-16%、LLM呼び出しは90.6%から90.9%、27.4%、QQPの精度は87.2%から88.4%、トークンは18.6%、RTEの精度は91.5%から91.1%、トークンは30.8%)。 私たちの知る限りでは、これは大規模な言語モデルの高速化を技術的に改善する最初の試みである。 我々のシンプルで効果的なアプローチが、大きな言語モデルの将来の研究に光を当てることを願っています。 コードはリリースされます。

As the ever-increasing token limits of large language models (LLMs) have enabled long context as input, prompting with single data samples might no longer an efficient way. A straightforward strategy improving efficiency is to batch data within the token limit (e.g., 8k for gpt-3.5-turbo; 32k for GPT-4), which we call BatchPrompt. We have two initial observations for prompting with batched data. First, we find that prompting with batched data in longer contexts will inevitably lead to worse performance, compared to single-data prompting. Second, the performance of the language model is significantly correlated with the positions and order of the batched data, due to the corresponding change in decoder context. To retain efficiency and overcome performance loss, we propose Batch Permutation and Ensembling (BPE), and a novel Self-reflection-guided EArly Stopping (SEAS) technique. Our comprehensive experimental evaluation demonstrates that BPE can boost the performance of BatchPrompt with a striking margin on a range of popular NLP tasks, including question answering (Boolq), textual entailment (RTE), and duplicate questions identification (QQP). These performances are even competitive with/higher than single-data prompting(SinglePrompt), while BatchPrompt requires much fewer LLM calls and input tokens (For SinglePrompt v.s. BatchPrompt with batch size 32, using just 9%-16% the number of LLM calls, Boolq accuracy 90.6% to 90.9% with 27.4% tokens, QQP accuracy 87.2% to 88.4% with 18.6% tokens, RTE accuracy 91.5% to 91.1% with 30.8% tokens). To the best of our knowledge, this is the first work to technically improve prompting efficiency of large language models. We hope our simple yet effective approach will shed light on the future research of large language models. The code will be released.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# 大規模言語モデルの創発的能力は、文脈内学習にのみ存在するか?

Are Emergent Abilities in Large Language Models just In-Context Learning? ( http://arxiv.org/abs/2309.01809v2 )

ライセンス: Link先を確認
Sheng Lu, Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Iryna Gurevych, (参考訳) 数十億のパラメータで構成され、広範囲のWebスケールコーパスで事前訓練された大規模な言語モデルは、特定の能力を得るために特別に訓練されることなく取得されていると主張されている。 これらの能力は「創発的能力」と呼ばれ、言語モデルの可能性とリスクに関する議論の原動力となっている。 創発的能力を評価する上で重要な課題は、モデルがいくつかの例に基づいてタスクを完了させる能力であるコンテキスト内学習を含む、代替のプロンプト技術によって生じるモデル能力によって構築されることだ。 創発的能力を説明する新しい理論を提示し、その潜在要因を考慮し、1000以上の実験を通してこの理論を厳密に裏付ける。 以上の結果から,創発能力は真に創発的ではなく,文脈内学習,モデル記憶,言語知識の組み合わせによるものであることが示唆された。 私たちの研究は、言語モデルのパフォーマンスを説明するための基本的なステップであり、効率的な使用のためのテンプレートを提供し、いくつかのケースでエキサイティングする能力のパラドックスを明確にします。 したがって、これらの能力は過大評価されてはならない。

Large language models, comprising billions of parameters and pre-trained on extensive web-scale corpora, have been claimed to acquire certain capabilities without having been specifically trained on them. These capabilities, referred to as "emergent abilities," have been a driving force in discussions regarding the potentials and risks of language models. A key challenge in evaluating emergent abilities is that they are confounded by model competencies that arise through alternative prompting techniques, including in-context learning, which is the ability of models to complete a task based on a few examples. We present a novel theory that explains emergent abilities, taking into account their potential confounding factors, and rigorously substantiate this theory through over 1000 experiments. Our findings suggest that purported emergent abilities are not truly emergent, but result from a combination of in-context learning, model memory, and linguistic knowledge. Our work is a foundational step in explaining language model performance, providing a template for their efficient use and clarifying the paradox of their ability to excel in some instances while faltering in others. Thus, we demonstrate that their capabilities should not be overestimated.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-15
# 狭いフェシュバッハ共鳴近傍の原子分子超流動の安定性とダイナミクス

Stability and Dynamics of Atom-Molecule Superfluids Near a Narrow Feshbach Resonance ( http://arxiv.org/abs/2310.01639v2 )

ライセンス: Link先を確認
Zhiqiang Wang, Ke Wang, Zhendong Zhang, Shu Nagata, Cheng Chin, K. Levin, (参考訳) ボゾン原子の凝縮物とそれに関連する「超化学的」ダイナミクスから生じる安定な分子凝縮物の最近の観測は、興味深い一連の疑問を引き起こしている。 ここでは、原子-分子超流動におけるこの予期せぬ安定性とダイナミクスの顕微鏡的理解を提供し、これらの現象の背後にある重要な要素の一つが19.849Gの$^{133}$Cにおける非常に狭いフェシュバッハ共鳴であることを示した。 理論と実験を比較して、この狭い共鳴が、ユニタリティの近傍に現れる大きな閉チャネル分子分画超流動の動的生成を可能にすることを示す。 理論的には、観測された超化学 (\textit{i.e.}, Bose enhanced reaction ofatom and molecules) は、反対モータを持つクーパー様のボゾン原子対の形成によって補助される。 重要なことに、この狭い共鳴は、より一般的なフェシュバッハ共鳴の近くでは不可能な、分子のボース超流動と関連する現象の量子臨界点を探索する可能性を開く。

The recent observations of a stable molecular condensate emerging from a condensate of bosonic atoms and related "super-chemical" dynamics have raised an intriguing set of questions. Here we provide a microscopic understanding of this unexpected stability and dynamics in atom-molecule superfluids; we show one essential element behind these phenomena is an extremely narrow Feshbach resonance in $^{133}$Cs at 19.849G. Comparing theory and experiment we demonstrate how this narrow resonance enables the dynamical creation of a large closed-channel molecular fraction superfluid, appearing in the vicinity of unitarity. Theoretically the observed superchemistry (\textit{i.e.}, Bose enhanced reactions of atoms and molecules), is found to be assisted by the formation of Cooper-like pairs of bosonic atoms that have opposite momenta. Importantly, this narrow resonance opens the possibility to explore the quantum critical point of a molecular Bose superfluid and related phenomena which would not be possible near a more typically broad Feshbach resonance.
翻訳日:2024-07-17 04:48:58 公開日:2024-07-15
# EdVAE: 有意な離散変分オートエンコーダによるコードブックの崩壊の軽減

EdVAE: Mitigating Codebook Collapse with Evidential Discrete Variational Autoencoders ( http://arxiv.org/abs/2310.05718v3 )

ライセンス: Link先を確認
Gulcin Baykal, Melih Kandemir, Gozde Unal, (参考訳) コードブック崩壊は、ベクトル量子変分オートエンコーダ(VQ-VAE)のような離散表現空間を持つ深層生成モデルの訓練において一般的な問題である。 エンコーダが直接、コードブック埋め込み上の分布を学習してデータを表現するような、代替設計の離散変分オートエンコーダ(dVAE)に対して、同じ問題が生じることを観察する。 確率分布を得るためにソフトマックス関数を用いることで、最適のコードブック要素に過信確率を割り当てることで、コードブックの崩壊を引き起こすと仮定する。 本稿では,dVAEのコードブック崩壊問題に対処するために,ソフトマックスの代わりに顕在的深層学習(EDL)を組み込む新しい手法を提案する。 ソフトマックス使用法とは対照的に,コードブック埋め込みにおける確率分布の達成の重要性を明らかに監視する。 各種データセットを用いた実験により,コードブックの崩壊を軽減し,再構築性能を向上し,dVAEモデルやVQ-VAEモデルと比較してコードブックの利用率を向上させることができた。 私たちのコードはhttps://github.com/ituvisionlab/EdVAE で参照できます。

Codebook collapse is a common problem in training deep generative models with discrete representation spaces like Vector Quantized Variational Autoencoders (VQ-VAEs). We observe that the same problem arises for the alternatively designed discrete variational autoencoders (dVAEs) whose encoder directly learns a distribution over the codebook embeddings to represent the data. We hypothesize that using the softmax function to obtain a probability distribution causes the codebook collapse by assigning overconfident probabilities to the best matching codebook elements. In this paper, we propose a novel way to incorporate evidential deep learning (EDL) instead of softmax to combat the codebook collapse problem of dVAE. We evidentially monitor the significance of attaining the probability distribution over the codebook embeddings, in contrast to softmax usage. Our experiments using various datasets show that our model, called EdVAE, mitigates codebook collapse while improving the reconstruction performance, and enhances the codebook usage compared to dVAE and VQ-VAE based models. Our code can be found at https://github.com/ituvisionlab/EdVAE .
翻訳日:2024-07-17 04:48:58 公開日:2024-07-15
# 崩壊模型の近接場干渉試験に対するベイズ推定

Bayesian inference for near-field interferometric tests of collapse models ( http://arxiv.org/abs/2310.05763v2 )

ライセンス: Link先を確認
Shaun Laing, James Bateman, (参考訳) 我々は, 量子力学のパラメータ化可能な拡張について, 量子から古典への遷移を説明するために提案されているような, 大規模な実験質量を用いた物質波干渉法実験によって得られる情報について検討する。 具体的には,Talbot InterferometerとContinuous Spontaneous Localisation (CSL)の物質波について考察する。 ベイズ推定を用いて、圧力や黒体放射を含むデコヒーレンス機構の効果を計算し、必要な測定値の見積もりを求め、実験的な制御変数を最適に選択するための手順を提供する。 我々は、MAQROのような実験において、$\sim10^9\,\text{u}$の質量に到達でき、CSL上に置ける境界を定量化することを示した。 これらの具体的な結果は実験設計に利用することができ、一般的なアプローチは他のパラメータ化可能なモデルにも適用することができる。

We explore the information which proposed matterwave interferometry experiments with large test masses can provide about parameterizable extensions to quantum mechanics, such as have been proposed to explain the apparent quantum to classical transition. Specifically, we consider a matterwave near-field Talbot interferometer and Continuous Spontaneous Localisation (CSL). Using Bayesian inference we compute the effect of decoherence mechanisms including pressure and blackbody radiation, find estimates for the number of measurements required, and provide a procedure for optimal choice of experimental control variables. We show that in a MAQRO like experiment it is possible to reach masses of $\sim10^9\,\text{u}$ and we quantify the bounds which can be placed on CSL. These specific results can be used to inform experimental design and the general approach can be applied to other parameterizable models.
翻訳日:2024-07-17 04:48:58 公開日:2024-07-15
# リアルタイムダイナミックシーンレンダリングのための4次元ガウススプレイティング

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering ( http://arxiv.org/abs/2310.08528v3 )

ライセンス: Link先を確認
Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang, (参考訳) ダイナミックシーンの表現とレンダリングは重要な作業だが、難しい作業だった。 特に、複雑な動きを正確にモデル化するには、高い効率性を保証するのは難しい。 リアルタイムな動的シーンレンダリングを実現するために,各フレームに3D-GSを適用するのではなく,動的シーンの全体像として4D-GS(4D-GS)を提案する。 4D-GSでは、3Dガウスと4Dニューラルボクセルの両方を含む新しい明示的表現が提案されている。 HexPlaneにインスパイアされた分解されたニューラルボクセル符号化アルゴリズムは、4次元ニューラルボクセルからガウス的特徴を効率的に構築するために提案され、新しいタイムスタンプでガウス的変形を予測するために軽量なMLPが適用される。 われわれの4D-GS法は,RTX 3090 GPUの800$\times$800の解像度で82 FPSの高解像度でリアルタイムレンダリングを実現する。 さらなるデモとコードはhttps://guanjunwu.github.io/4dgs/で公開されている。

Representing and rendering dynamic scenes has been an important but challenging task. Especially, to accurately model complex motions, high efficiency is usually hard to guarantee. To achieve real-time dynamic scene rendering while also enjoying high training and storage efficiency, we propose 4D Gaussian Splatting (4D-GS) as a holistic representation for dynamic scenes rather than applying 3D-GS for each individual frame. In 4D-GS, a novel explicit representation containing both 3D Gaussians and 4D neural voxels is proposed. A decomposed neural voxel encoding algorithm inspired by HexPlane is proposed to efficiently build Gaussian features from 4D neural voxels and then a lightweight MLP is applied to predict Gaussian deformations at novel timestamps. Our 4D-GS method achieves real-time rendering under high resolutions, 82 FPS at an 800$\times$800 resolution on an RTX 3090 GPU while maintaining comparable or better quality than previous state-of-the-art methods. More demos and code are available at https://guanjunwu.github.io/4dgs/.
翻訳日:2024-07-17 04:48:58 公開日:2024-07-15
# DiagrammerGPT: LLMプランニングによるオープンドメイン・オープンプラットフォームダイアグラムの生成

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning ( http://arxiv.org/abs/2310.12128v2 )

ライセンス: Link先を確認
Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal, (参考訳) テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。 それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。 図は、構造的に豊かで空間的に複雑な視覚化(例えば、関連するオブジェクト、テキストラベル、方向矢印や線などの密結合)を使って情報を説明する記号的・スキーマ的表現である。 既存の最先端のT2Iモデルは、多くのオブジェクトが矢印や線のような複雑な関係によって密結合されているときに、細粒度のオブジェクトレイアウト制御が欠けているため、図生成時に失敗することが多い。 このギャップに対処するため、LLMのレイアウト誘導機能を活用してより正確な図を生成する新しい2段階のテキスト-ダイアグラム生成フレームワークであるDiagrammerGPTを提案する。 最初の段階では、LLMを使って'ダイアグラムプラン'を生成し、反復的に洗練する(プランナー・オーディタフィードバックループで)。 第2段階ではダイアグラム生成器,ダイアグラムGLIGEN,およびテキストラベルレンダリングモジュールを使用して,ダイアグラム計画に従ってダイアグラムを生成する(明確なテキストラベルを持つ)。 テキストからダイアグラムを生成するタスクをベンチマークするために,AI2Dデータセット上に構築された高密度アノテーション付きダイアグラムデータセットであるAI2D-Captionを導入する。 我々のDiagrammerGPTフレームワークは、既存のT2Iモデルよりも正確なダイアグラムを生成する。 また、オープンドメイン図生成、マルチプラットフォームベクタグラフィック図生成、ヒューマン・イン・ザ・ループ編集、マルチモーダルプランナー/オーディタLLMなど、包括的な分析も提供する。

Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels, directional arrows/lines, etc.). Existing state-of-the-art T2I models often fail at diagram generation because they lack fine-grained object layout control when many objects are densely connected via complex relations such as arrows/lines, and also often fail to render comprehensible text labels. To address this gap, we present DiagrammerGPT, a novel two-stage text-to-diagram generation framework leveraging the layout guidance capabilities of LLMs to generate more accurate diagrams. In the first stage, we use LLMs to generate and iteratively refine 'diagram plans' (in a planner-auditor feedback loop). In the second stage, we use a diagram generator, DiagramGLIGEN, and a text label rendering module to generate diagrams (with clear text labels) following the diagram plans. To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a densely annotated diagram dataset built on top of the AI2D dataset. We show that our DiagrammerGPT framework produces more accurate diagrams, outperforming existing T2I models. We also provide comprehensive analysis, including open-domain diagram generation, multi-platform vector graphic diagram generation, human-in-the-loop editing, and multimodal planner/auditor LLMs.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# iSNEAK: ソフトウェア工学におけるモデルベース推論のためのヒューリスティックとしての部分順序付け

iSNEAK: Partial Ordering as Heuristics for Model-Based Reasoning in Software Engineering ( http://arxiv.org/abs/2310.19125v2 )

ライセンス: Link先を確認
Andre Lustosa, Tim Menzies, (参考訳) 部分順序付け (partial ordering) とは、一組の例をヒューリスティックに順序付ける方法である(部分順序付けは、ある元対に対して、他方に先行する集合である)。 これらの順序は近似的であるだけかもしれないが、データのより良い領域への探索を導くのに有用である。 この手法の価値を説明するために,本論文では,インクリメンタルヒューマン・イン・ザ・ループAI問題の解法であるiSNEAKを提案する。 iSNEAKは、オプションの空間を熟考するために、人間の部分的な順序付けとフィードバックを使用する。 さらに、ISNEAKは、サイズと複雑さを増す数十のソフトウェアモデル(最大1万の変数を含む)の実験において、従来の最先端よりも優れた人間の受け入れ可能なソリューションを返すために、ほんの数問しか質問しなかった。 我々は,iSNEAKのような部分順序付けやツールを用いて,情報過負荷の問題を解決することを提案する。 iSNEAKは、人間がより少ない時間で複雑な問題空間を探索できるので、情報の過負荷を軽減します。

A "partial ordering" is a way to heuristically order a set of examples (partial orderings are a set where, for certain pairs of elements, one precedes the other). While these orderings may only be approximate, they can be useful for guiding a search towards better regions of the data. To illustrate the value of that technique, this paper presents iSNEAK, an incremental human-in-the-loop AI problem solver. iSNEAK uses partial orderings and feedback from humans to prune the space of options. Further, in experiments with a dozen software models of increasing size and complexity (with up to 10,000 variables), iSNEAK only asked a handful of questions to return human-acceptable solutions that outperformed the prior state-of-the-art. We propose the use of partial orderings and tools like iSNEAK to solve the information overload problem where human experts grow fatigued and make mistakes when they are asked too many questions. iSNEAK mitigates the information overload problem since it allows humans to explore complex problem spaces in far less time, with far less effort.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# ニューラルネットワークの値最大化によるメタ学習戦略

Meta-Learning Strategies through Value Maximization in Neural Networks ( http://arxiv.org/abs/2310.19919v2 )

ライセンス: Link先を確認
Rodrigo Carrasco-Davis, Javier Masís, Andrew M. Saxe, (参考訳) 生物学的および人工的な学習エージェントは、ハイパーパラメータの選択から、キュリキュラのようなタスク分布の側面まで、学習方法に関する多くの選択肢に直面している。 これらのメタ学習の選択方法を理解することは、生物学的学習者における認知制御機能の規範的な説明を提供し、工学的なシステムを改善することができる。 しかし、学習プロセス全体の最適化の複雑さのため、現代のディープネットワークで計算する上で最適な戦略は依然として困難である。 ここでは, トラクタブルな環境での最適戦略を理論的に検討する。 本稿では,学習を通しての累積性能の削減という,完全に規範的な目的の制御信号を効率的に最適化できる学習活動フレームワークを提案する。 簡単なニューラルネットワークアーキテクチャで利用できる勾配勾配降下に対する平均動的方程式を用いて計算的トラクタビリティを得る。 本フレームワークは,一貫した規範的環境下で,メタラーニングと自動カリキュラム学習を行う。 本稿では,一般的なメタ学習アルゴリズムにおける近似の効果,最適なカリキュラムの側面の推測,連続的な学習環境での最適なニューロン資源割り当ての計算について検討する。 設定全体では、学習の早い段階でタスクの容易な側面に適用した場合、コントロールの取り組みが最も有益であることが分かり、その後、より難しい側面への継続的な取り組みが続きます。 全体として、学習活動フレームワークは、様々な学習システムにおける介入の規範的利益を研究するための、牽引可能な理論テストベッドを提供し、認知神経科学の確立した理論によって提示される学習軌跡に対する最適な認知制御戦略の正式な説明を提供する。

Biological and artificial learning agents face numerous choices about how to learn, ranging from hyperparameter selection to aspects of task distributions like curricula. Understanding how to make these meta-learning choices could offer normative accounts of cognitive control functions in biological learners and improve engineered systems. Yet optimal strategies remain challenging to compute in modern deep networks due to the complexity of optimizing through the entire learning process. Here we theoretically investigate optimal strategies in a tractable setting. We present a learning effort framework capable of efficiently optimizing control signals on a fully normative objective: discounted cumulative performance throughout learning. We obtain computational tractability by using average dynamical equations for gradient descent, available for simple neural network architectures. Our framework accommodates a range of meta-learning and automatic curriculum learning methods in a unified normative setting. We apply this framework to investigate the effect of approximations in common meta-learning algorithms; infer aspects of optimal curricula; and compute optimal neuronal resource allocation in a continual learning setting. Across settings, we find that control effort is most beneficial when applied to easier aspects of a task early in learning; followed by sustained effort on harder aspects. Overall, the learning effort framework provides a tractable theoretical test bed to study normative benefits of interventions in a variety of learning systems, as well as a formal account of optimal cognitive control strategies over learning trajectories posited by established theories in cognitive neuroscience.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# 大規模言語モデルは、圧力を受けると戦略的にユーザーを欺くことができる

Large Language Models can Strategically Deceive their Users when Put Under Pressure ( http://arxiv.org/abs/2311.07590v4 )

ライセンス: Link先を確認
Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn, (参考訳) 筆者らは,大規模言語モデルにおいて,無害かつ誠実に,不整合な行動を示し,その行動についてユーザを戦略的に騙すことができることを実証した。 具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。 この環境では、インサイダー取引が企業経営によって承認されていないことを知りながら、このモデルは、収益性の高い株式取引に関するインサイダーチップを取得し、それに対して行動する。 マネージャに報告するとき、モデルは、その取引決定の背後にある真の理由を常に隠します。 例えば、推論スクラッチパッドへのモデルアクセスの除去、システム命令の変更による不整合行動の防止、モデルが下にある圧力の量の変更、キャッチされるリスクの変動、環境への他の簡単な変更などである。 われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で軽蔑し、直接の指示や騙しの訓練を受けずにすむ。

We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析

Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling ( http://arxiv.org/abs/2311.08745v4 )

ライセンス: Link先を確認
Naoki Sato, Hideaki Iiduka, (参考訳) 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。 本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。 最小バッチ確率勾配を持つ確率勾配降下(SGD)は,学習速度,バッチサイズ,確率勾配のばらつきによって決定される目的関数の平滑化効果を有することを示した。 この発見は、なぜ大きなバッチサイズがシャープなローカルミニマに落ちるのか、なぜ学習率の低下とバッチサイズの増加が、固定された学習率とバッチサイズよりも優れているのか、そして最適な学習率のスケジューリングが何か、という理論的知見を提供する。 我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。 また,モデルの一般化性能とスムース化の程度が強く相関していることが示唆された。 さらに, 劣化する学習率とバッチサイズの増加を利用した新たな段階最適化フレームワークを解析し, 画像分類実験の結果を報告する。

The graduated optimization approach is a heuristic method for finding globally optimal solutions for nonconvex functions and has been theoretically analyzed in several studies. This paper defines a new family of nonconvex functions for graduated optimization, discusses their sufficient conditions, and provides a convergence analysis of the graduated optimization algorithm for them. It shows that stochastic gradient descent (SGD) with mini-batch stochastic gradients has the effect of smoothing the objective function, the degree of which is determined by the learning rate, batch size, and variance of the stochastic gradient. This finding provides theoretical insights on why large batch sizes fall into sharp local minima, why decaying learning rates and increasing batch sizes are superior to fixed learning rates and batch sizes, and what the optimal learning rate scheduling is. To the best of our knowledge, this is the first paper to provide a theoretical explanation for these aspects. In addition, we show that the degree of smoothing introduced is strongly correlated with the generalization performance of the model. Moreover, a new graduated optimization framework that uses a decaying learning rate and increasing batch size is analyzed and experimental results of image classification are reported that support our theoretical findings.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# VyZX: グラフィカル量子言語の形式的検証

VyZX: Formal Verification of a Graphical Quantum Language ( http://arxiv.org/abs/2311.11571v2 )

ライセンス: Link先を確認
Adrian Lehmann, Ben Caldwell, Bhakti Shah, Robert Rand, (参考訳) グラフの数学的表現は、しばしば隣接行列やリストに似ており、ホワイトボードの推論やアルゴリズムの設計を促進する表現である。 証明アシスタントの領域では、帰納的表現は形式的推論の意味論を効果的に定義する。 これは、特にグラフを用いたプログラムを表現するプロセス理論において、アルゴリズム設計と証明アシスタントが根本的に異なるグラフ構造を必要とするギャップを浮き彫りにする。 このギャップに対処するため、帰納的に定義されたグラフィカル言語を推論するための検証済みライブラリであるVyZXを提案する。 これらの帰納的構成は、圏論の定義から自然に生じる。 VyZXの重要な目標は、量子計算を推論するグラフィカル言語であるZX-calculusを検証することである。 ZX-計算は、グラフの意味的解釈を保存するダイアグラム的な書き直し規則の集合を伴っている。 本稿では、VyZXにおける帰納グラフが、ZX-計算の書き換え規則の正しさを証明するためにどのように使われているかを示し、それを標準証明アシスタント技術を用いて実際に適用する。 VyZXは、ビジュアライゼーションと自動化を通じて、証明エンジニアのワークフローと簡単に統合できる。

Mathematical representations of graphs often resemble adjacency matrices or lists, representations that facilitate whiteboard reasoning and algorithm design. In the realm of proof assistants, inductive representations effectively define semantics for formal reasoning. This highlights a gap where algorithm design and proof assistants require a fundamentally different structure of graphs, particularly for process theories which represent programs using graphs. To address this gap, we present VyZX, a verified library for reasoning about inductively defined graphical languages. These inductive constructs arise naturally from category theory definitions. A key goal for VyZX is to Verify the ZX-calculus, a graphical language for reasoning about quantum computation. The ZX-calculus comes with a collection of diagrammatic rewrite rules that preserve the graph's semantic interpretation. We show how inductive graphs in VyZX are used to prove the correctness of the ZX-calculus rewrite rules and apply them in practice using standard proof assistant techniques. VyZX integrates easily with the proof engineer's workflow through visualization and automation.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# マルチモーダルマシンアンラーニングのためのマルチDelete

MultiDelete for Multimodal Machine Unlearning ( http://arxiv.org/abs/2311.12047v2 )

ライセンス: Link先を確認
Jiali Cheng, Hadi Amiri, (参考訳) Machine Unlearningは、すでにトレーニング済みのモデルから、トレーニングデータサンプルに関する特定の知識を取り除く。 完全再トレーニングを必要とせずに、トレーニングされたモデルからプライベート、不正確、あるいは時代遅れの情報を浄化するなど、重要な実用上のメリットがある。 マルチモーダル設定でのアンラーニングは、異なるデータモダリティ間の複雑な依存関係と、大規模なマルチモーダルデータセットとアーキテクチャのトレーニングにコストがかかるため、ユニークな課題を提示します。 本稿では,マルチモーダルデータとモデルに対する最初の機械学習手法であるMultiDeleteを提案する。 MultiDeleteは、効果的なマルチモーダル・アンラーニングのための3つの重要な特性を提唱している。 (a) モダリティデカップリングは、削除にマークされた個々の単調なデータポイントの関連を効果的に切り離し、無関係なデータポイントとして表現する。 (b)マルチモーダルな知識保持であって、学習後のマルチモーダルな表現を保持するもの (c):一元的知識保持であり、一元的表現後学習を維持している。 MultiDeleteはトレーニングに効率的で、既存のベースラインに共通する制約である強い凸損失を使用することで制約を受けない。 画像テキストとグラフテキストデータセットを含む2つのアーキテクチャと4つのデータセットの実験により、MultiDeleteは、学習されていないマルチモーダルサンプルのベースラインとして最高のパフォーマンスよりも平均17.6ポイント向上し、未学習後のオリジナルのモデルのマルチモーダルおよびアンモーダル知識を維持し、敵の攻撃に対する未学習データに対するより優れた保護を提供することを示した。

Machine Unlearning removes specific knowledge about training data samples from an already trained model. It has significant practical benefits, such as purging private, inaccurate, or outdated information from trained models without the need for complete re-training. Unlearning within a multimodal setting presents unique challenges due to the complex dependencies between different data modalities and the expensive cost of training on large multimodal datasets and architectures. This paper presents the first machine unlearning approach for multimodal data and models, titled MultiDelete, which is designed to decouple associations between unimodal data points during unlearning without losing the overall representation strength of the trained model. MultiDelete advocates for three key properties for effective multimodal unlearning: (a): modality decoupling, which effectively decouples the association between individual unimodal data points marked for deletion, rendering them as unrelated data points, (b): multimodal knowledge retention, which retains the multimodal representation post-unlearning, and (c): unimodal knowledge retention, which retains the unimodal representation postunlearning. MultiDelete is efficient to train and is not constrained by using a strongly convex loss -- a common restriction among existing baselines. Experiments on two architectures and four datasets, including image-text and graph-text datasets, show that MultiDelete gains an average improvement of 17.6 points over best performing baseline in unlearning multimodal samples, can maintain the multimodal and unimodal knowledge of the original model post unlearning, and can provide better protection to unlearned data against adversarial attacks.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-15
# AutoEval-Video: オープンエンディングビデオ質問応答における大規模視覚言語モデルの自動ベンチマーク

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering ( http://arxiv.org/abs/2311.14906v2 )

ライセンス: Link先を確認
Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang, (参考訳) 我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。 AutoEval-Videoの包括性は2つの側面で示される。 1)AutoEval-Videoは,9つのスキルディメンション,知覚能力,理解力,生成能力に対処するオープンエンドビデオクエストを構築する。 2)AutoEval-Videoには、40以上の異なるテーマをカバーした、新たに収集されたビデオが含まれている。 オープンエンド質問に対する回答を効率よく評価するために,LLMに基づく評価手法を用いるが,単に参照回答を提供するのではなく,各インスタンス(ビデオ検索ペア)ごとに独自の評価ルールを注釈付けする。 これらのルールのロバスト性を最大化するために,新しい対角的アノテーション機構を開発する。 インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。 さらに,AutoEval-Videoを用いた8つの大規模視覚言語モデルの性能評価を行った。 GPT-4V(ision)は他のモデルよりも大幅に優れ、精度は32.2%に達した。 しかし、人間の精度は72.8%とかなり改善の余地がある。 広範囲にわたるケーススタディにより、時間的・動的理解の制限や過度に一般的な反応など、GPT-4Vのいくつかの欠点が明らかになった。 コードはhttps://github.com/Xiuyuan-Chen/AutoEval-Videoで入手できる。

We propose a novel and challenging benchmark, AutoEval-Video, to comprehensively evaluate large vision-language models in open-ended video question answering. The comprehensiveness of AutoEval-Video is demonstrated in two aspects: 1) AutoEval-Video constructs open-ended video-questions across 9 skill dimensions, addressing capabilities of perception, comprehension, and generation. 2) AutoEval-Video contains newly collected videos that cover over 40 distinct themes. To efficiently evaluate responses to the open-ended questions, we employ an LLM-based evaluation approach, but instead of merely providing a reference answer, we annotate unique evaluation rules for every single instance (video-question pair). To maximize the robustness of these rules, we develop a novel adversarial annotation mechanism. By using instance-specific rules as prompt, GPT-4, as an automatic evaluator, can achieve a stable evaluation accuracy of around 97.0%, comparable to the 94.9% - 97.5% accuracy of a human evaluator. Furthermore, we assess the performance of eight large vision-language models on AutoEval-Video. Among them, GPT-4V(ision) significantly outperforms other models, achieving an accuracy of 32.2%. However, there is still substantial room for improvement compared to human accuracy of 72.8%. By conducting an extensive case study, we uncover several drawbacks of GPT-4V, such as limited temporal and dynamic comprehension, and overly general responses. Code is available at https://github.com/Xiuyuan-Chen/AutoEval-Video.
翻訳日:2024-07-17 02:44:20 公開日:2024-07-15
# MagDiff:高忠実度ビデオ生成と編集のためのマルチアライメント拡散

MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing ( http://arxiv.org/abs/2311.17338v3 )

ライセンス: Link先を確認
Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang, (参考訳) 拡散モデルは、ビデオ生成またはビデオ編集に広く活用されている。 各フィールドにはタスク固有の問題があるため、両方のタスクを同時に完了するための単一の拡散を開発することは困難である。 テキストプロンプトに依存するビデオ拡散は、2つのタスクを統一するために適応することができる。 しかし、テキストと画像の間に不均一なモダリティを整列させる能力が欠如しており、様々なミスアライメント問題を引き起こしている。 本研究は,高忠実度ビデオ生成と編集の両方のタスクに対して,MagDiffと呼ばれる統合多面的拡散を提案する最初の試みである。 提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。 特に、被写体駆動アライメントは、イメージとテキストプロンプトをトレードオフするために前進し、両方のタスクの統一された基礎生成モデルとして機能する。 アダプティブプロンプトアライメントは、画像とテキストプロンプトに重みの異なる値を割り当てることで、同質なアライメントと異質なアライメントの異なる強度を強調するために導入された。 高忠実度アライメントは、被写体画像を追加のモデル入力として取り込むことにより、映像生成と編集の両方の忠実度をさらに向上させる。 4つのベンチマークによる実験結果から,提案手法は各タスクにおける前の手法よりも優れていたことが示唆された。

The diffusion model is widely leveraged for either video generation or video editing. As each field has its task-specific problems, it is difficult to merely develop a single diffusion for completing both tasks simultaneously. Video diffusion sorely relying on the text prompt can be adapted to unify the two tasks. However, it lacks a high capability of aligning heterogeneous modalities between text and image, leading to various misalignment problems. In this work, we are the first to propose a unified Multi-alignment Diffusion, dubbed as MagDiff, for both tasks of high-fidelity video generation and editing. The proposed MagDiff introduces three types of alignments, including subject-driven alignment, adaptive prompts alignment, and high-fidelity alignment. Particularly, the subject-driven alignment is put forward to trade off the image and text prompts, serving as a unified foundation generative model for both tasks. The adaptive prompts alignment is introduced to emphasize different strengths of homogeneous and heterogeneous alignments by assigning different values of weights to the image and the text prompts. The high-fidelity alignment is developed to further enhance the fidelity of both video generation and editing by taking the subject image as an additional model input. Experimental results on four benchmarks suggest that our method outperforms the previous method on each task.
翻訳日:2024-07-17 02:44:20 公開日:2024-07-15
# 曲線拡散:光学幾何学制御を用いた生成モデル

Curved Diffusion: A Generative Model With Optical Geometry Control ( http://arxiv.org/abs/2311.17609v2 )

ライセンス: Link先を確認
Andrey Voynov, Amir Hertz, Moab Arar, Shlomi Fruchter, Daniel Cohen-Or, (参考訳) 最先端拡散モデルは、テキスト、セグメンテーション、深さといった様々な条件に基づいて、非常にリアルな画像を生成することができる。 しかし、しばしば見過ごされる重要な側面は、画像キャプチャで使用される特定のカメラ形状である。 最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。 本研究では,テキスト・ツー・イメージ拡散モデルと,画像レンダリングに使用される特定のレンズ形状を密接に統合するフレームワークを提案する。 本手法は画素単位の座標条件付け法に基づいて,描画形状の制御を可能にする。 特に,魚眼,パノラマビュー,球面テクスチャといった多様な視覚効果を単一拡散モデルで再現し,曲率特性の操作を実演する。

State-of-the-art diffusion models can generate highly realistic images based on various conditioning like text, segmentation, and depth. However, an essential aspect often overlooked is the specific camera geometry used during image capture. The influence of different optical systems on the final scene appearance is frequently overlooked. This study introduces a framework that intimately integrates a text-to-image diffusion model with the particular lens geometry used in image rendering. Our method is based on a per-pixel coordinate conditioning method, enabling the control over the rendering geometry. Notably, we demonstrate the manipulation of curvature properties, achieving diverse visual effects, such as fish-eye, panoramic views, and spherical texturing using a single diffusion model.
翻訳日:2024-07-17 02:44:20 公開日:2024-07-15
# SparQ注意:バンド幅効率のLLM推論

SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v4 )

ライセンス: Link先を確認
Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr, (参考訳) 大規模言語モデル(LLM)推論の計算困難さは、広く展開する上で大きな障害となっている。 多くのアプリケーションが長い入力シーケンスをサポートし、それらを大きなバッチで処理する必要があるため、一般的にトークン生成はデータ転送によってボトルネックになる。 このため,キャッシュされた履歴を選択的にフェッチすることで,メモリ帯域幅をより効率的に利用することで,LLMの推論スループットを向上させる手法であるSparQ Attentionを導入する。 提案手法は,プレトレーニング設定の変更や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。 我々は,Llama 2, 3, Mistral, Gemma, Pythia の各モデルについて,広範囲な下流タスクで評価することにより,SparQ の注意データ転送の8倍のコスト削減を実現することを示す。

The computational difficulties of large language model (LLM) inference remain a significant obstacle to their widespread deployment. The need for many applications to support long input sequences and process them in large batches typically causes token-generation to be bottlenecked by data transfer. For this reason, we introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by utilising memory bandwidth more efficiently within the attention layers, through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show that SparQ Attention brings up to 8x savings in attention data transfers without substantial drops in accuracy, by evaluating Llama 2 and 3, Mistral, Gemma and Pythia models on a wide range of downstream tasks.
翻訳日:2024-07-17 02:44:20 公開日:2024-07-15
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v5 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Anh Tran, (参考訳) テキストプロンプトから高解像度で多様な画像を生成する能力があるにもかかわらず、テキストから画像への拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。 モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。 しかし, 従来の蒸留法では, 実際のデータから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。 この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。 入力プロンプトと整合する3次元ニューラルラディアンス場を,任意の3次元データ基底構造を使わずに,事前に2次元のテキスト・ツー・イメージ拡散から得ることができるテキスト・トゥ・3D合成からインスピレーションを得て,本手法では,事前学習した複数ステップのテキスト・ツー・イメージモデルを,単一の推論ステップで高忠実度画像を生成することができる学生ネットワークに抽出するのと同じ損失を生かした。 その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。 注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
翻訳日:2024-07-17 02:44:20 公開日:2024-07-15
# 人口規模推定のためのループ型視覚的Re-ID

Human-in-the-Loop Visual Re-ID for Population Size Estimation ( http://arxiv.org/abs/2312.05287v2 )

ライセンス: Link先を確認
Gustavo Perez, Daniel Sheldon, Grant Van Horn, Subhransu Maji, (参考訳) コンピュータビジョンに基づく再識別システム(Re-ID)は,大規模な画像収集において,個体群の大きさを推定するためにますます普及している。 しかし、タスクが困難であったり、新しいディストリビューションのデータにデプロイされた場合、推定サイズは著しく不正確になる可能性がある。 そこで本研究では,市販のRe-IDシステムから得られた2方向の類似性により,人口規模を推定する手法を提案する。 本手法は, ネストされた重要度サンプリングに基づいて, 両者の類似性によって駆動されるヒトのベッティング画像のペアを選択し, 関連した信頼区間を持つ漸近的に偏りのない個体群の大きさの推定値を生成する。 各種Re-IDデータセットの実験を行い,本手法が強いベースラインとアクティブクラスタリング手法より優れていることを示す。 多くの場合、推定サイズの誤差率を、CV単独で約80%から20%未満に下げることができる。 ベッティングのコストは精度の向上とともに減少し、Re-IDシステムを展開する際の所望の許容範囲内における人口規模推定の実践的アプローチを提供する。

Computer vision-based re-identification (Re-ID) systems are increasingly being deployed for estimating population size in large image collections. However, the estimated size can be significantly inaccurate when the task is challenging or when deployed on data from new distributions. We propose a human-in-the-loop approach for estimating population size driven by a pairwise similarity derived from an off-the-shelf Re-ID system. Our approach, based on nested importance sampling, selects pairs of images for human vetting driven by the pairwise similarity, and produces asymptotically unbiased population size estimates with associated confidence intervals. We perform experiments on various animal Re-ID datasets and demonstrate that our method outperforms strong baselines and active clustering approaches. In many cases, we are able to reduce the error rates of the estimated size from around 80% using CV alone to less than 20% by vetting a fraction (often less than 0.002%) of the total pairs. The cost of vetting reduces with the increase in accuracy and provides a practical approach for population size estimation within a desired tolerance when deploying Re-ID systems.
翻訳日:2024-07-17 02:34:28 公開日:2024-07-15
# ファウンデーションモデルの埋め込み

Interfacing Foundation Models' Embeddings ( http://arxiv.org/abs/2312.07532v2 )

ライセンス: Link先を確認
Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang, (参考訳) 基礎モデルは、モダリティをまたいだ推論と記憶において強力な能力を持っている。 基礎モデルの力をさらに解き放つために,ファウンデーションモデルの埋め込みと,モダリティと粒度にまたがるデータセットレベルの理解とを整合させる汎用インターフェースであるFINDを提案する。 ティーザー図に示すように、基礎モデルの重みを調整せずに軽量なトランスフォーマーインタフェースは、インターリーブ方式でセグメンテーション、接地、検索に十分である。 提案するインタフェースは,(1) 一般化可能な属性を持つ。 同じアーキテクチャと重みの下で、検索、セグメンテーション等にまたがる様々なタスクに適用される。 (2)インターリーブ可能。 マルチタスクマルチモーダルトレーニングの利点により、提案したインタフェースは、インターリーブされた共有埋め込み空間を生成する。 (3)拡張可能。 提案したインタフェースは、新しいタスクと新しいモデルに適応する。 インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。 私たちは、ファンデーションモデルの埋め込みを相互に理解するための最初の作業です。 一方,本手法はFIND-Bench上での最先端性能と,標準検索およびセグメンテーション設定における競合性能を実現する。

Foundation models possess strong capabilities in reasoning and memorizing across modalities. To further unleash the power of foundation models, we present FIND, a generalized interface for aligning foundation models' embeddings with unified image and dataset-level understanding spanning modality and granularity. As shown in the teaser figure, a lightweight transformer interface without tuning any foundation model weights is enough for segmentation, grounding, and retrieval in an interleaved manner. The proposed interface has the following favorable attributes: (1) Generalizable. It applies to various tasks spanning retrieval, segmentation, etc., under the same architecture and weights. (2) Interleavable. With the benefit of multi-task multi-modal training, the proposed interface creates an interleaved shared embedding space. (3) Extendable. The proposed interface is adaptive to new tasks, and new models. In light of the interleaved embedding space, we introduce FIND-Bench, which introduces new training and evaluation annotations to the COCO dataset for interleaved segmentation and retrieval. We are the first work aligning foundations models' embeddings for interleave understanding. Meanwhile, our approach achieves state-of-the-art performance on FIND-Bench and competitive performance on standard retrieval and segmentation settings.
翻訳日:2024-07-17 02:34:28 公開日:2024-07-15
# VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定

VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space ( http://arxiv.org/abs/2312.08291v4 )

ライセンス: Link先を確認
Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, Francesc Moreno-Noguer, (参考訳) RGB画像からのHuman Pose and Shape Estimation(HPSE)に関するこれまでの研究は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。 近年の非パラメトリック手法は, 人体メッシュの3次元座標を直接回帰することにより, 高精度化を実現している。 本研究はHPSE問題に対処する新しいパラダイムを導入し,人間のメッシュの低次元離散潜在表現とHPSEのフレーミングを分類課題とする。 身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現の予測に重点を置いており、これは登録された人間のメッシュにデコードできる。 この革新的なパラダイムには2つの大きな利点がある。 第一に、低次元の離散表現を予測することは、トレーニングデータが少ない場合でも、人為的ポーズや形状の空間に予測を限定する。 第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。 提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。 実験結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,少ないデータでトレーニングした場合のパラメトリック手法と同等に現実的な結果が得られることがわかった。 VQ-HPSはまた、大規模データセットのトレーニングにおいて有望な結果を示し、HPSEの分類アプローチの有意義な可能性を強調している。 プロジェクトページはhttps://g-fiche.github.io/research-pages/vqhps/にある。

Previous works on Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body mesh. This work introduces a novel paradigm to address the HPSE problem, involving a low-dimensional discrete latent representation of the human mesh and framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, we focus on predicting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages. Firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes even when little training data is available. Secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. The proposed model, VQ-HPS, predicts the discrete latent representation of the mesh. The experimental results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods when trained with little data. VQ-HPS also shows promising results when training on large-scale datasets, highlighting the significant potential of the classification approach for HPSE. See the project page at https://g-fiche.github.io/research-pages/vqhps/
翻訳日:2024-07-17 02:34:28 公開日:2024-07-15
# GOEmbed:表現に依存しない3D特徴学習のためのグラディエントオリジナル埋め込み

GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning ( http://arxiv.org/abs/2312.08744v2 )

ライセンス: Link先を確認
Animesh Karnewar, Roman Shapovalov, Tom Monnier, Andrea Vedaldi, Niloy J. Mitra, David Novotny, (参考訳) オブジェクトの2次元ビューから3次元表現に情報をエンコードすることは、一般化された3次元特徴抽出に不可欠である。 これらの機能は、3D再構成、3D生成、その他のアプリケーションを可能にする。 入力画像が大きな事前学習されたモデルから抽出された2D特徴を用いて符号化される場合や、カスタマイズされた特徴が異なる3D表現を扱うように設計されている場合や、さらに悪いことに、エンコーダは、MLPやハッシュグレードのような特殊な3D表現では利用できない場合など、任意の3D表現にインプット2D画像をエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。 提案するGOEmbedを,OmniObject3Dベンチマークで異なる実験条件下で広範囲に評価した。 まず,Plenoptic-Encoding(Plenoptic-Encoding)と呼ばれる図示実験を用いて,複数の3次元表現の先行符号化機構と比較した。 第2に,GOEmbed と DFM (Diffusion with Forward Models) を組み合わせた OmniObject3D 生成タスクにおいて,22.12 の SOTA FID を実現することで,GOEmbed 機構の有効性をさらに実証する。 最後に、GOEmbed機構がスパースビュー3D再構築パイプラインをどのように活性化するかを評価する。

Encoding information from 2D views of an object into a 3D representation is crucial for generalized 3D feature extraction. Such features can then enable 3D reconstruction, 3D generation, and other applications. We propose GOEmbed (Gradient Origin Embeddings) that encodes input 2D images into any 3D representation, without requiring a pre-trained image feature extractor; unlike typical prior approaches in which input images are either encoded using 2D features extracted from large pre-trained models, or customized features are designed to handle different 3D representations; or worse, encoders may not yet be available for specialized 3D neural representations such as MLPs and hash-grids. We extensively evaluate our proposed GOEmbed under different experimental settings on the OmniObject3D benchmark. First, we evaluate how well the mechanism compares against prior encoding mechanisms on multiple 3D representations using an illustrative experiment called Plenoptic-Encoding. Second, the efficacy of the GOEmbed mechanism is further demonstrated by achieving a new SOTA FID of 22.12 on the OmniObject3D generation task using a combination of GOEmbed and DFM (Diffusion with Forward Models), which we call GOEmbedFusion. Finally, we evaluate how the GOEmbed mechanism bolsters sparse-view 3D reconstruction pipelines.
翻訳日:2024-07-17 02:34:28 公開日:2024-07-15
# エージェント注意:ソフトマックスと線形注意の統合について

Agent Attention: On the Integration of Softmax and Linear Attention ( http://arxiv.org/abs/2312.08874v3 )

ライセンス: Link先を確認
Dongchen Han, Tianzhu Ye, Yizeng Han, Zhuofan Xia, Siyuan Pan, Pengfei Wan, Shiji Song, Gao Huang, (参考訳) attentionモジュールはTransformersの重要なコンポーネントである。 グローバルアテンションメカニズムは高い表現性を提供するが、その過剰な計算コストは様々なシナリオで適用性を制限する。 本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。 具体的には、エージェントアテンションは4倍の$(Q, A, K, V)$と表現され、従来のアテンションモジュールに追加のエージェントトークンセット$A$を導入する。 エージェントトークンは、まずクエリトークンのエージェントとして働き、$K$と$V$から情報を集約し、その後、$Q$にその情報をブロードキャストする。 エージェントトークンの数がクエリトークンの数よりもはるかに少ないように設計できることを考えると、エージェントアテンションはグローバルコンテキストモデリング能力を保ちながら広く採用されているSoftmaxアテンションよりもはるかに効率的である。 興味深いことに,提案するエージェントアテンションは線形アテンションの一般化形式と等価である。 したがって,エージェント・アテンションはソフトマックス・アテンションと高効率線形アテンションをシームレスに統合する。 画像分類,オブジェクト検出,セマンティックセグメンテーション,画像生成など,様々な視覚変換器によるエージェント注意の有効性を示す。 特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。 例えば、安定拡散に適用した場合、エージェントアテンションは生成を加速し、追加のトレーニングなしで画像生成品質を大幅に向上させる。 コードはhttps://github.com/LeapLabTHU/Agent-Attention.comで入手できる。

The attention module is the key component in Transformers. While the global attention mechanism offers high expressiveness, its excessive computational cost restricts its applicability in various scenarios. In this paper, we propose a novel attention paradigm, Agent Attention, to strike a favorable balance between computational efficiency and representation power. Specifically, the Agent Attention, denoted as a quadruple $(Q, A, K, V)$, introduces an additional set of agent tokens $A$ into the conventional attention module. The agent tokens first act as the agent for the query tokens $Q$ to aggregate information from $K$ and $V$, and then broadcast the information back to $Q$. Given the number of agent tokens can be designed to be much smaller than the number of query tokens, the agent attention is significantly more efficient than the widely adopted Softmax attention, while preserving global context modelling capability. Interestingly, we show that the proposed agent attention is equivalent to a generalized form of linear attention. Therefore, agent attention seamlessly integrates the powerful Softmax attention and the highly efficient linear attention. Extensive experiments demonstrate the effectiveness of agent attention with various vision Transformers and across diverse vision tasks, including image classification, object detection, semantic segmentation and image generation. Notably, agent attention has shown remarkable performance in high-resolution scenarios, owning to its linear attention nature. For instance, when applied to Stable Diffusion, our agent attention accelerates generation and substantially enhances image generation quality without any additional training. Code is available at https://github.com/LeapLabTHU/Agent-Attention.
翻訳日:2024-07-17 02:34:28 公開日:2024-07-15
# 自由形流を伴う多様体上の分布の学習

Learning Distributions on Manifolds with Free-form Flows ( http://arxiv.org/abs/2312.09852v2 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Ullrich Köthe, (参考訳) 本研究では,多様体上のデータ生成モデルであるManifold Free-Form Flows (M-FFF)を提案する。 任意の多様体上の分布を学習するための既存のアプローチは、サンプリングが微分方程式を解く必要があるため、推論時に費用がかかる。 本手法は, 単一関数評価におけるサンプリングにより, この制限を克服する。 鍵となる革新は、自由形式フローフレームワークをリーマン多様体に適応させることで可能な、多様体上の最大公理によるニューラルネットワークの最適化である。 M-FFF は、既知の射影を持つ任意の多様体に直接適応する。 特定の多様体に特化していた従来の単段階法と一貫して一致または性能が良く、典型的には2桁の高速な推論速度を持つ多段階法と競合する。 コードをhttps://github.com/vislearn/FFF.comで公開しています。

We propose Manifold Free-Form Flows (M-FFF), a simple new generative model for data on manifolds. The existing approaches to learning a distribution on arbitrary manifolds are expensive at inference time, since sampling requires solving a differential equation. Our method overcomes this limitation by sampling in a single function evaluation. The key innovation is to optimize a neural network via maximum likelihood on the manifold, possible by adapting the free-form flow framework to Riemannian manifolds. M-FFF is straightforwardly adapted to any manifold with a known projection. It consistently matches or outperforms previous single-step methods specialized to specific manifolds, and is competitive with multi-step methods with typically two orders of magnitude faster inference speed. We make our code public at https://github.com/vislearn/FFF.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# 効率的な忠実度推定:オルタナティブな導出とその応用

Efficient fidelity estimation: Alternative derivation and related applications ( http://arxiv.org/abs/2312.12438v4 )

ライセンス: Link先を確認
Diego S. Starke, Marcos L. W. Basso, Jonas Maziero, (参考訳) A. J. Baldwin と J. A. Jones は、[Phys. Rev. A 107, 012427 (2023)] において、Uhlmann-Jozsa の二つの量子状態 $\rho$ と $\sigma$,====(Tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}})^2$ の間の忠実さが、$F(\rho,\sigma) = (Tr\sqrt{\rho\sigma})^2$ として単純形式で書けることを証明した。 本稿では、関数列展開とトレース関数の性質を用いて、この結果の代替的証明を与える。 我々のアプローチは、単純化された式の有効性を補強するだけでなく、量子状態に対する新しい相似関数や密度作用素のより複雑なトレース関数の探索も促進する。

In [Phys. Rev. A 107, 012427 (2023)], A. J. Baldwin and J. A. Jones proved that Uhlmann-Jozsa's fidelity between two quantum states $\rho$ and $\sigma$, i.e., $F(\rho,\sigma)~:=~(Tr\sqrt{\sqrt{\rho}\sigma\sqrt{\rho}})^2$, can be written in a simplified form as $F(\rho,\sigma) = (Tr\sqrt{\rho\sigma})^2$. In this article, we give an alternative proof of this result, using a function power series expansion and the properties of the trace function. Our approach not only reinforces the validity of the simplified expression but also facilitates the exploration of novel dissimilarity functions for quantum states and more complex trace functions of a density operator.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# 物体中心の3次元ニューラルネットワークの深層学習

Deep Learning on Object-centric 3D Neural Fields ( http://arxiv.org/abs/2312.13277v2 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Luca De Luigi, Daniele Sirocchi, Adriano Cardace, Riccardo Spezialetti, Francesco Ballerini, Samuele Salti, Luigi Di Stefano, (参考訳) 近年、ニューラルフィールド(NF)は、画像、ビデオ、オーディオ、三次元形状などの多様な連続的な信号を符号化する有効なツールとして出現している。 3Dデータに適用すると、NFは離散表現に付随する断片化と制限に対する解決策を提供する。 しかし、NFが本質的にニューラルネットワークであることを考えると、下流タスクを解決するためにディープラーニングパイプラインにシームレスに統合できるかどうか、またどのようにしてできるのかは不明だ。 本稿では、この研究課題に対処し、単一の推論パスで入力NFに対してコンパクトな潜在表現を生成可能なフレームワークであるnf2vecを紹介する。 我々は,nf2vecが入力されたNFで表される3Dオブジェクトを効果的に埋め込むことを示した。 このフレームワークは、符号なし/符号なし距離や占有場などの3次元表面を表すために使用される複数のNF上でテストする。 さらに,ニューラルネットワークなどの3次元物体の形状と外観を包含する,より複雑なNFを用いたアプローチの有効性を示す。

In recent years, Neural Fields (NFs) have emerged as an effective tool for encoding diverse continuous signals such as images, videos, audio, and 3D shapes. When applied to 3D data, NFs offer a solution to the fragmentation and limitations associated with prevalent discrete representations. However, given that NFs are essentially neural networks, it remains unclear whether and how they can be seamlessly integrated into deep learning pipelines for solving downstream tasks. This paper addresses this research problem and introduces nf2vec, a framework capable of generating a compact latent representation for an input NF in a single inference pass. We demonstrate that nf2vec effectively embeds 3D objects represented by the input NFs and showcase how the resulting embeddings can be employed in deep learning pipelines to successfully address various tasks, all while processing exclusively NFs. We test this framework on several NFs used to represent 3D surfaces, such as unsigned/signed distance and occupancy fields. Moreover, we demonstrate the effectiveness of our approach with more complex NFs that encompass both geometry and appearance of 3D objects such as neural radiance fields.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# オフダイナミックス強化学習におけるFew-Shot転送の保守的アプローチ

A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning ( http://arxiv.org/abs/2312.15474v3 )

ライセンス: Link先を確認
Paul Daoudi, Christophe Prieur, Bogdan Robu, Merwan Barlier, Ludovic Dos Santos, (参考訳) オフダイナミックス強化学習(ODRL)は、異なるが類似したダイナミクスを特徴とする、ソース環境からターゲット環境へポリシーを転送することを目指している。 この文脈では、従来のRLエージェントは、ソース環境のダイナミクスに過度に依存しており、結果として、この環境で優れているが、ターゲット環境において適切なパフォーマンスを提供することができないポリシーが発見される。 数ショットのフレームワークでは、より効果的な転送を容易にするために、ターゲット環境からの遷移が限定的に導入される。 この課題に対処するため,Imitation Learningと保守的RLアルゴリズムの最近の進歩に触発された革新的なアプローチを提案する。 提案手法では,ソース学習ポリシーによって生成された軌道を規制するペナルティを導入する。 対象環境へのアクセスが極めて制限された多様なオフダイナミックス条件を示す様々な環境を対象に,本手法の評価を行った。 これらの実験には、現実世界の応用に関連する高次元システムが含まれる。 多くのテストシナリオにおいて,提案手法は既存のベースラインに比べて性能が向上したことを示す。

Off-dynamics Reinforcement Learning (ODRL) seeks to transfer a policy from a source environment to a target environment characterized by distinct yet similar dynamics. In this context, traditional RL agents depend excessively on the dynamics of the source environment, resulting in the discovery of policies that excel in this environment but fail to provide reasonable performance in the target one. In the few-shot framework, a limited number of transitions from the target environment are introduced to facilitate a more effective transfer. Addressing this challenge, we propose an innovative approach inspired by recent advancements in Imitation Learning and conservative RL algorithms. The proposed method introduces a penalty to regulate the trajectories generated by the source-trained policy. We evaluate our method across various environments representing diverse off-dynamics conditions, where access to the target environment is extremely limited. These experiments include high-dimensional systems relevant to real-world applications. Across most tested scenarios, our proposed method demonstrates performance improvements compared to existing baselines.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# マルチエージェント強化学習のためのコンテキスト認識コミュニケーション

Context-aware Communication for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2312.15600v3 )

ライセンス: Link先を確認
Xinran Li, Jun Zhang, (参考訳) マルチエージェント強化学習(MARL)における効果的なコミュニケーションプロトコルは,協調の促進とチームパフォーマンスの向上に不可欠である。 コミュニケーションを活用するために、ローカル情報を単一のメッセージに圧縮し、すべての到達可能なエージェントにブロードキャストする、という多くの以前の研究が提案されている。 しかし、この単純化されたメッセージングメカニズムは、特に帯域幅に制限のあるシナリオにおいて、個々のエージェントに適切な、クリティカルで、関連する情報を提供できない可能性がある。 これにより、異なるエージェントにパーソナライズされたメッセージを配信することを目的として、MARLのためのコンテキスト対応通信方式を開発する動機付けとなる。 通信プロトコルCACOMは2つの段階から構成される。 第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。 その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。 さらに、通信オーバーヘッドを低減するために、学習ステップサイズ量子化(LSQ)技術を用いてメッセージ量子化を行う。 CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。 協調型ベンチマークタスクにおける実験結果から,CACOMは通信制約シナリオ下でのベースラインよりも明らかな性能向上を提供することが示された。 コードはhttps://github.com/LXXXXR/CACOMで公開されている。

Effective communication protocols in multi-agent reinforcement learning (MARL) are critical to fostering cooperation and enhancing team performance. To leverage communication, many previous works have proposed to compress local information into a single message and broadcast it to all reachable agents. This simplistic messaging mechanism, however, may fail to provide adequate, critical, and relevant information to individual agents, especially in severely bandwidth-limited scenarios. This motivates us to develop context-aware communication schemes for MARL, aiming to deliver personalized messages to different agents. Our communication protocol, named CACOM, consists of two stages. In the first stage, agents exchange coarse representations in a broadcast fashion, providing context for the second stage. Following this, agents utilize attention mechanisms in the second stage to selectively generate messages personalized for the receivers. Furthermore, we employ the learned step size quantization (LSQ) technique for message quantization to reduce the communication overhead. To evaluate the effectiveness of CACOM, we integrate it with both actor-critic and value-based MARL algorithms. Empirical results on cooperative benchmark tasks demonstrate that CACOM provides evident performance gains over baselines under communication-constrained scenarios. The code is publicly available at https://github.com/LXXXXR/CACOM.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# PILoRA:Federated Class-Incremental LearningのためのプロトタイプインクリメンタルLoRA

PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning ( http://arxiv.org/abs/2401.02094v2 )

ライセンス: Link先を確認
Haiyang Guo, Fei Zhu, Wenzhuo Liu, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 既存のフェデレーション学習手法は、データプライバシや非IIDデータを含むシナリオにおいて、分散学習を効果的に扱う。 しかし、現実の状況では、各クライアントは新しいクラスを動的に学習し、グローバルモデルがすべてのクラスを分類する必要がある。 低通信コスト下での破滅的忘れとデータ不均一性を効果的に緩和するために,PILoRAという簡易かつ効果的な手法を提案する。 一方、我々はプロトタイプ学習を採用し、より優れた特徴表現を学習し、プロトタイプとクラスの特徴間のヒューリスティック情報を活用して、データの不均一性に起因する分類器バイアスを解決するために、プロトタイプの再重み付けモジュールを設計する。 一方,逐次学習は個別のタスクベクトルを学習し,それらを異なるLoRAパラメータにエンコードするプロセスであると考えている。 そこで我々は,破滅的な忘れを緩和するインクリメンタルロラを提案する。 標準データセットによる実験結果から,本手法は最先端の手法よりも優れていたことが示唆された。 さらに重要なことは、この手法は、異なる設定とデータの等質度において、強い堅牢性と優越性を示すことである。 コードは \url{https://github.com/Ghy0501/PILoRA} で公開されている。

Existing federated learning methods have effectively dealt with decentralized learning in scenarios involving data privacy and non-IID data. However, in real-world situations, each client dynamically learns new classes, requiring the global model to classify all seen classes. To effectively mitigate catastrophic forgetting and data heterogeneity under low communication costs, we propose a simple and effective method named PILoRA. On the one hand, we adopt prototype learning to learn better feature representations and leverage the heuristic information between prototypes and class features to design a prototype re-weight module to solve the classifier bias caused by data heterogeneity without retraining the classifier. On the other hand, we view incremental learning as the process of learning distinct task vectors and encoding them within different LoRA parameters. Accordingly, we propose Incremental LoRA to mitigate catastrophic forgetting. Experimental results on standard datasets indicate that our method outperforms the state-of-the-art approaches significantly. More importantly, our method exhibits strong robustness and superiority in different settings and degrees of data heterogeneity. The code is available at \url{https://github.com/Ghy0501/PILoRA}.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# PEGASUS:6DoFオブジェクト・ポース・データセット生成のための物理的に強化されたガウス・スプレイティング・シミュレーション・システム

PEGASUS: Physically Enhanced Gaussian Splatting Simulation System for 6DoF Object Pose Dataset Generation ( http://arxiv.org/abs/2401.02281v2 )

ライセンス: Link先を確認
Lukas Meyer, Floris Erich, Yusuke Yoshiyasu, Marc Stamminger, Noriaki Ando, Yukiyasu Domae, (参考訳) 本稿では,3次元ガウス分割に基づく多目的データセット生成システムである6DOFオブジェクトポーズデータセット生成のためのPhysically Enhanced Gaussian Splatting Simulation System (PEGASUS)を紹介する。 環境や物体の表現は、コモディティカメラを用いて容易に得ることができ、ガウススプラッティングで再構成することができる。 <i>PEGASUS</i>は,環境のガウススプラッティング点雲を1つまたは複数の物体と融合することにより,新たなシーンの合成を可能にする。 物理エンジンを活用することで、オブジェクトと環境のために抽出されたメッシュ間の相互作用を通じて、シーン内の自然なオブジェクト配置のシミュレーションが可能になる。 その結果、さまざまな環境とオブジェクトを組み合わせることで、大量の新しいシーン - 静的または動的 - を作成できる。 様々な視点からシーンをレンダリングすることで、RGB画像、深度マップ、セマンティックマスク、および6DoFオブジェクトポーズなどの多様なデータポイントを抽出することができる。 本研究では,PEGASUSが生成したデータに対するトレーニングにより,合成データから実世界のデータへのポーズ推定ネットワークの転送に成功していることを示す。 さらに,30個の日本製カップ麺品からなるラーメンデータセットについて紹介する。 このデータセットには、物体半球とガウススプラッティングの再構成の両方から画像をキャプチャする球面スキャンが含まれており、PEGASUSと互換性がある。

We introduce Physically Enhanced Gaussian Splatting Simulation System (PEGASUS) for 6DOF object pose dataset generation, a versatile dataset generator based on 3D Gaussian Splatting. Environment and object representations can be easily obtained using commodity cameras to reconstruct with Gaussian Splatting. <i>PEGASUS</i> allows the composition of new scenes by merging the respective underlying Gaussian Splatting point cloud of an environment with one or multiple objects. Leveraging a physics engine enables the simulation of natural object placement within a scene through interaction between meshes extracted for the objects and the environment. Consequently, an extensive amount of new scenes - static or dynamic - can be created by combining different environments and objects. By rendering scenes from various perspectives, diverse data points such as RGB images, depth maps, semantic masks, and 6DoF object poses can be extracted. Our study demonstrates that training on data generated by PEGASUS enables pose estimation networks to successfully transfer from synthetic data to real-world data. Moreover, we introduce the Ramen dataset, comprising 30 Japanese cup noodle items. This dataset includes spherical scans that captures images from both object hemisphere and the Gaussian Splatting reconstruction, making them compatible with PEGASUS.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# ダイアリゼーションLM:大規模言語モデルを用いた話者ダイアリゼーション後処理

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v7 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao, (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。 提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。 この枠組みでは、自動音声認識(ASR)と話者ダイアリゼーションシステムの出力を、任意に微調整されたLLMのプロンプトに含まれるコンパクトテキスト形式として表現する。 LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。 後処理のステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、市販のASRおよび話者ダイアリゼーションシステムに容易に適用することができる。 実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。 Fisher 電話の会話データセットで55.5%、rel。 44.9%であった。

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset.
翻訳日:2024-07-17 02:24:41 公開日:2024-07-15
# 量子シミュレーションにおけるMpemba効果の観測

Observing the quantum Mpemba effect in quantum simulations ( http://arxiv.org/abs/2401.04270v2 )

ライセンス: Link先を確認
Lata Kh Joshi, Johannes Franke, Aniket Rath, Filiberto Ares, Sara Murciano, Florian Kranzl, Rainer Blatt, Peter Zoller, Benoît Vermersch, Pasquale Calabrese, Christian F. Roos, Manoj K. Joshi, (参考訳) 多体量子系の非平衡物理学には、様々な非伝統的な現象がある。 本研究では,これらの現象の最も厄介な現象である量子Mpemba効果について実験的に検討し,傾いた強磁性体が対称状態から近いときよりも早く対称性を回復する。 トラップイオン量子シミュレータにおいて、この効果の発生に関する最初の実験的な証拠を示す。 対称性の破れと復元は、絡み合った非対称性を通して監視され、ランダム化測定によって探索され、古典的なシャドウ技術を用いて後処理される。 さらに, 実験状態と定常熱対称状態との間のフロベニウス距離を測定し, サブシステム熱化の直接的証拠を提供する。

The non-equilibrium physics of many-body quantum systems harbors various unconventional phenomena. In this study, we experimentally investigate one of the most puzzling of these phenomena -- the quantum Mpemba effect, where a tilted ferromagnet restores its symmetry more rapidly when it is farther from the symmetric state compared to when it is closer. We present the first experimental evidence of the occurrence of this effect in a trapped-ion quantum simulator. The symmetry breaking and restoration are monitored through entanglement asymmetry, probed via randomized measurements, and postprocessed using the classical shadows technique. Our findings are further substantiated by measuring the Frobenius distance between the experimental state and the stationary thermal symmetric theoretical state, offering direct evidence of subsystem thermalization.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# Parrot: テキスト・画像生成のためのパレット最適マルチリワード強化学習フレームワーク

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation ( http://arxiv.org/abs/2401.05675v2 )

ライセンス: Link先を確認
Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang, (参考訳) 近年の研究では、テキスト・ツー・イメージ(T2I)生成において、複数の品質報酬を持つ強化学習(RL)を使用することで、生成画像の品質を向上させることが示されている。 しかし、手動で報酬の重みを調整することは課題を引き起こし、特定の指標で過度に最適化される可能性がある。 そこで本研究では,多目的最適化によってこの問題に対処するParrotを提案し,Paretoを最適に近似する効果的なマルチリワード最適化手法を提案する。 ParrotはバッチワイドのPareto最適選択を利用して、さまざまな報酬の中から最適なトレードオフを自動的に識別する。 我々は,新たなマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化し,画像品質の大幅な向上と,推論中の報酬関連プロンプトを用いた報酬のトレードオフ制御を可能にする。 さらに,提案手法では,提案手法を推論時に導入し,ユーザ入力に対するインプットの正確性を確保する。 広範囲にわたる実験とユーザスタディは、美学、人間の嗜好、テキストイメージアライメント、イメージ感情など、さまざまな品質基準において、Parrotの優位性を検証する。

Recent works have demonstrated that using reinforcement learning (RL) with multiple quality rewards can improve the quality of generated images in text-to-image (T2I) generation. However, manually adjusting reward weights poses challenges and may cause over-optimization in certain metrics. To solve this, we propose Parrot, which addresses the issue through multi-objective optimization and introduces an effective multi-reward optimization strategy to approximate Pareto optimal. Utilizing batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards. We use the novel multi-reward optimization algorithm to jointly optimize the T2I model and a prompt expansion network, resulting in significant improvement of image quality and also allow to control the trade-off of different rewards using a reward related prompt during inference. Furthermore, we introduce original prompt-centered guidance at inference time, ensuring fidelity to user input after prompt expansion. Extensive experiments and a user study validate the superiority of Parrot over several baselines across various quality criteria, including aesthetics, human preference, text-image alignment, and image sentiment.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# 効率的な映像編集のためのオブジェクト中心拡散

Object-Centric Diffusion for Efficient Video Editing ( http://arxiv.org/abs/2401.05735v2 )

ライセンス: Link先を確認
Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian, (参考訳) 本稿では,ビデオフレーム間に存在する時間的冗長性を利用して,オブジェクト検出やセマンティックセグメンテーションなどのビデオストリーム処理を高速化することを目的とする。 光フローなどの運動アライメントを用いた伝播・ワープ機能の代わりに,デルタ蒸留という新しい知識蒸留方式を提案する。 本提案では,時間とともに教師の中間的特徴の変化を学習する。 ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。 前者はキーフレームのみに抽出された初期表現を提供することで、後者は連続したフレームに対してデルタを反復的に推定し、適用することで予測を行う。 さらに,エンド・ツー・エンドの学習可能なアーキテクチャ探索を含む,最適な学生アーキテクチャを学ぶための設計選択についても検討する。 最も効率的なものを含む、幅広いアーキテクチャに関する広範な実験により、デルタ蒸留は、ビデオにおけるセマンティックセグメンテーションとオブジェクト検出のための効率トレードオフの精度において、新しい最先端の状態を設定できることが実証された。 最後に, 副生成物としてデルタ蒸留により教師モデルの時間的一貫性が向上することを示す。

This paper aims to accelerate video stream processing, such as object detection and semantic segmentation, by leveraging the temporal redundancies that exist between video frames. Instead of propagating and warping features using motion alignment, such as optical flow, we propose a novel knowledge distillation schema coined as Delta Distillation. In our proposal, the student learns the variations in the teacher's intermediate features over time. We demonstrate that these temporal variations can be effectively distilled due to the temporal redundancies within video frames. During inference, both teacher and student cooperate for providing predictions: the former by providing initial representations extracted only on the key-frame, and the latter by iteratively estimating and applying deltas for the successive frames. Moreover, we consider various design choices to learn optimal student architectures including an end-to-end learnable architecture search. By extensive experiments on a wide range of architectures, including the most efficient ones, we demonstrate that delta distillation sets a new state of the art in terms of accuracy vs. efficiency trade-off for semantic segmentation and object detection in videos. Finally, we show that, as a by-product, delta distillation improves the temporal consistency of the teacher model.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# ベストエフォートLDMの学習

Learned Best-Effort LLM Serving ( http://arxiv.org/abs/2401.07886v2 )

ライセンス: Link先を確認
Siddharth Jha, Coleman Hooper, Xiaoxuan Liu, Sehoon Kim, Kurt Keutzer, (参考訳) 多くのアプリケーションは、ユーザに低レイテンシのLLMサービスを提供しなければならない。 しかし、変動する要求パターンを提供するための過剰なプロビジョニングリソースは、しばしば違法に高価である。 本研究では,タスク分布とシステム負荷に基づいてサービス品質を調整するために,深層強化学習を用いたベストプラクティス提供システムを提案する。 当社のベストプラクティスシステムは、10倍以上のクライアント要求率で可用性を維持し、ピークパフォーマンス4.1倍の96%以上、ピークパフォーマンス2.3倍の98%以上を提供する。 学習したルータは、到着とタスクの分配の両方のシフトに対して堅牢です。 静的サービスと比較すると、学習したベストエフォートサービスによって、ハードウェアユーティリティの増加によるコスト効率の高いサービスが可能になる。 さらに、学習したLLM提供のベストプラクティスは、さまざまな設定に適用可能であり、アプリケーション開発者に対して、それぞれのニーズを満たすための柔軟性を提供しています。

Many applications must provide low-latency LLM service to users or risk unacceptable user experience. However, over-provisioning resources to serve fluctuating request patterns is often prohibitively expensive. In this work, we present a best-effort serving system that employs deep reinforcement learning to adjust service quality based on the task distribution and system load. Our best-effort system can maintain availability with over 10x higher client request rates, serves above 96% of peak performance 4.1x more often, and serves above 98% of peak performance 2.3x more often than static serving on unpredictable workloads. Our learned router is robust to shifts in both the arrival and task distribution. Compared to static serving, learned best-effort serving allows for cost-efficient serving through increased hardware utility. Additionally, we argue that learned best-effort LLM serving is applicable in wide variety of settings and provides application developers great flexibility to meet their specific needs.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# ポテンシャルの解き放つ:多タスク深層学習による宇宙空間でのメタン塔の定量的モニタリング

Unlocking the Potential: Multi-task Deep Learning for Spaceborne Quantitative Monitoring of Fugitive Methane Plumes ( http://arxiv.org/abs/2401.12870v2 )

ライセンス: Link先を確認
Guoxin Si, Shiliang Fu, Wei Yao, (参考訳) 地球温暖化が増すにつれ、ごみ埋立地からのメタン排出の監視やガス配管の検知に注意が向けられている。 我々は,メタン濃度インバージョン,プルームセグメンテーション,エミッションレート推定の3つのサブタスクにメタン排出量モニタリングを分割した。 メタン濃度インバージョンは通常、大域スペクトル分布に敏感な整合フィルタを使用し、大きなノイズを生じさせる。 プルームセグメンテーションは、手動セグメンテーションに依存する多くの研究が主観的な研究である。 メタン排出率の推定には、気象観測データを必要とするIMEアルゴリズムが頻繁に用いられる。 香港のWENT埋立処分場とPRISMAハイパースペクトル衛星画像を用いて,物理シミュレーションに基礎を置いているリモートセンシング画像からメタン排出量の定量モニタリングを行うための,新しいディープラーニングベースのフレームワークを提案する。 我々は,大渦シミュレーション (LES) と放射移動方程式 (RTE) を用いた各種拡散放出の濃度マップを用いてメタンプラムを模擬し,擬似PRISMAデータセットの構築に拡張技術を適用した。 メタン濃度インバージョンのためのU-Netネットワーク,メタン配管セグメンテーションのためのMask R-CNNネットワーク,メタン排出率推定のためのResNet-50ネットワークを訓練する。 3つのディープネットワークは、従来のアルゴリズムよりも高い検証精度が得られる。 さらに,最初の2つのサブタスクと最後の2つのサブタスクを組み合わせて,マルチタスク学習モデルであるMTL-01とMTL-02を設計する。 本研究は,メタンの定量モニタリングにおけるマルチタスク深層学習の適用を実証し,幅広いメタンモニタリングタスクに一般化できることを示す。

As global warming intensifies, increased attention is being paid to monitoring fugitive methane emissions and detecting gas plumes from landfills. We have divided methane emission monitoring into three subtasks: methane concentration inversion, plume segmentation, and emission rate estimation. Traditional algorithms face certain limitations: methane concentration inversion typically employs the matched filter, which is sensitive to the global spectrum distribution and prone to significant noise. There is scant research on plume segmentation, with many studies depending on manual segmentation, which can be subjective. The estimation of methane emission rate frequently uses the IME algorithm, which necessitates meteorological measurement data. Utilizing the WENT landfill site in Hong Kong along with PRISMA hyperspectral satellite imagery, we introduce a novel deep learning-based framework for quantitative methane emission monitoring from remote sensing images that is grounded in physical simulation. We create simulated methane plumes using large eddy simulation (LES) and various concentration maps of fugitive emissions using the radiative transfer equation (RTE), while applying augmentation techniques to construct a simulated PRISMA dataset. We train a U-Net network for methane concentration inversion, a Mask R-CNN network for methane plume segmentation, and a ResNet-50 network for methane emission rate estimation. All three deep networks yield higher validation accuracy compared to traditional algorithms. Furthermore, we combine the first two subtasks and the last two subtasks to design multi-task learning models, MTL-01 and MTL-02, both of which outperform single-task models in terms of accuracy. Our research exemplifies the application of multi-task deep learning to quantitative methane monitoring and can be generalized to a wide array of methane monitoring tasks.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# SEDNet:脳腫瘍分離のための浅層エンコーダデコーダネットワーク

SEDNet: Shallow Encoder-Decoder Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2401.13403v2 )

ライセンス: Link先を確認
Chollette C. Olisah, (参考訳) いくつかのモデルが開発されている脳腫瘍セグメンテーションに対する計算モデリングの進歩にもかかわらず、まだ最高水準にある既存のモデルの計算複雑性から、臨床応用シナリオにおける性能と効率が制限されていることは明らかである。 そこで本研究では,脳腫瘍セグメント化のための浅層エンコーダとデコーダネットワークSEDNetを提案する。 提案するネットワークは,U-Net構造から適応する。 脳腫瘍は、従来のU-Netが設計したタスクのような複雑な構造を前提としないが、その外観、形状、境界の曖昧さの相違により、解決すべき複雑なタスクとなる。 SEDNetのアーキテクチャ設計は、脳画像における脳腫瘍の局所的な性質に着想を得ており、脳スライスにおける脳腫瘍の内在的な特徴を学習できるエンコーディング経路における十分な階層的畳み込みブロックと、脳腫瘍のグローバルレベルの特徴と並んで、局所的な局所的な空間的特徴を捉えるのに十分な選択的スキップパスを有する復号経路から構成される。 提案された前処理アルゴリズムとBraTS2020セットの最適化関数を統合したSEDNetは、それぞれ0.9308、0.9451、0.9026、0.7040、1.2866、0.7762、非エンハンシング腫瘍コア(NTC)、頭蓋周囲浮腫(ED)、拡張腫瘍(ET)をそれぞれ達成した。 さらに、SEDNetXと呼ばれる初期化SEDNet事前学習重みによる転送学習により、性能向上が観測された。 ダイスとハウスドルフのスコアはそれぞれ0.9336、0.9478、0.9061、0.6983、1.2691、0.7711である。 SEDNet(X)は、約130万のパラメータと、最先端のSEDNet(X)と比較すると、リアルタイム臨床診断において計算的に効率的であることが示されている。

Despite the advancement in computational modeling towards brain tumor segmentation, of which several models have been developed, it is evident from the computational complexity of existing models which are still at an all-time high, that performance and efficiency under clinical application scenarios are limited. Therefore, this paper proposes a shallow encoder and decoder network named SEDNet for brain tumor segmentation. The proposed network is adapted from the U-Net structure. Though brain tumors do not assume complex structures like the task the traditional U-Net was designed for, their variance in appearance, shape, and ambiguity of boundaries makes it a compelling complex task to solve. SEDNet architecture design is inspired by the localized nature of brain tumors in brain images, thus consists of sufficient hierarchical convolutional blocks in the encoding pathway capable of learning the intrinsic features of brain tumors in brain slices, and a decoding pathway with selective skip path sufficient for capturing miniature local-level spatial features alongside the global-level features of brain tumor. SEDNet with the integration of the proposed preprocessing algorithm and optimization function on the BraTS2020 set reserved for testing achieves impressive dice and Hausdorff scores of 0.9308, 0.9451, 0.9026, and 0.7040, 1.2866, 0.7762 for non-enhancing tumor core (NTC), peritumoral edema (ED), and enhancing tumor (ET), respectively. Furthermore, through transfer learning with initialized SEDNet pre-trained weights, termed SEDNetX, a performance increase is observed. The dice and Hausdorff scores recorded are 0.9336, 0.9478, 0.9061, 0.6983, 1.2691, and 0.7711 for NTC, ED, and ET, respectively. With about 1.3 million parameters and impressive performance in comparison to the state-of-the-art, SEDNet(X) is shown to be computationally efficient for real-time clinical diagnosis.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# 部品ベース3次元表面再構成のための埋め込み型インシシットIUVD表現法

An Embeddable Implicit IUVD Representation for Part-based 3D Human Surface Reconstruction ( http://arxiv.org/abs/2401.16810v2 )

ライセンス: Link先を確認
Baoxing Li, Yong Deng, Yehui Yang, Xu Zhao, (参考訳) 単一の画像から3次元の人体表面を再構築するには、人間のポーズ、形状、衣服の詳細を同時に検討することが重要である。 近年のアプローチでは、身体のポーズや形状を捉えるパラメトリックボディモデル(SMPLなど)と、衣服の詳細を柔軟に学習する神経暗黙の機能を組み合わせている。 しかし、この組み合わせ表現は、例えば3次元体の特徴抽出におけるg符号距離の計算を導入し、暗黙のクエリ・アンド・インファープロセスにおける冗長性をもたらし、基礎となる体形を事前に保存しない。 これらの問題に対処するために、IUVD占有関数とフィードバッククエリアルゴリズムからなる新しいIUVD-Feedback表現を提案する。 この表現は、SMPL UVマップを利用して、IUVD空間における単純な線形変換に時間を要する符号距離計算を置き換える。 さらに、フィードバックメカニズムを通じて冗長なクエリポイントを削減し、より合理的な3Dボディ特徴とより効果的なクエリポイントをもたらし、パラメトリックボディを事前に保存する。 さらに、IUVD-Feedback表現は、トレーニングされたニューラルネットワークの変更を必要とせずに、既存の暗黙の人間の再構築パイプラインに組み込むことができる。 THuman2.0データセットの実験では、提案したIUVD-Feedback表現が結果のロバスト性を改善し、クエリ・アンド・インファーの3倍の高速化を実現している。 さらに、この表現は、パラメトリックボディモデルから固有の意味情報を活用することによって、生成的応用の可能性を秘めている。

To reconstruct a 3D human surface from a single image, it is crucial to simultaneously consider human pose, shape, and clothing details. Recent approaches have combined parametric body models (such as SMPL), which capture body pose and shape priors, with neural implicit functions that flexibly learn clothing details. However, this combined representation introduces additional computation, e.g. signed distance calculation in 3D body feature extraction, leading to redundancy in the implicit query-and-infer process and failing to preserve the underlying body shape prior. To address these issues, we propose a novel IUVD-Feedback representation, consisting of an IUVD occupancy function and a feedback query algorithm. This representation replaces the time-consuming signed distance calculation with a simple linear transformation in the IUVD space, leveraging the SMPL UV maps. Additionally, it reduces redundant query points through a feedback mechanism, leading to more reasonable 3D body features and more effective query points, thereby preserving the parametric body prior. Moreover, the IUVD-Feedback representation can be embedded into any existing implicit human reconstruction pipeline without requiring modifications to the trained neural networks. Experiments on the THuman2.0 dataset demonstrate that the proposed IUVD-Feedback representation improves the robustness of results and achieves three times faster acceleration in the query-and-infer process. Furthermore, this representation holds potential for generative applications by leveraging its inherent semantic information from the parametric body model.
翻訳日:2024-07-17 02:14:47 公開日:2024-07-15
# CRUD-RAG: 大規模言語モデルの検索強化のための総合的な中国語ベンチマーク

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2401.17043v3 )

ライセンス: Link先を確認
Yuanjie Lyu, Zhiyu Li, Simin Niu, Feiyu Xiong, Bo Tang, Wenjin Wang, Hao Wu, Huanyong Liu, Tong Xu, Enhong Chen, (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。 この方法は、古い情報や不正確な「ハロゲン化」コンテンツを生成する傾向を含む、一般的なLCM制限に対処する。 しかしながら、既存のベンチマークはスコープと多様性に制限があるため、RAGシステムの評価は困難である。 現在のベンチマークのほとんどは、RAGが有利であることを証明できるより広い範囲の状況を見越して、質問応答アプリケーションを評価している。 さらに、実験では、RAGパイプラインのLLMコンポーネントの性能のみを評価し、検索コンポーネントと外部知識データベースの影響を無視する。 これらの課題に対処するため,大規模で包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。 具体的には、RAGアプリケーションの範囲を4つの異なるタイプ(Create、Read、Update、Delete(CRUD))に分類しました。 クリート(Create)とは、オリジナルで多様なコンテンツの生成を必要とするシナリオのこと。 読み」とは、知識集約的な状況において複雑な質問に答えることである。 アップデート」は、既存のテキストにおける不正確さや不整合の修正と修正に焦点を当てている。 『削除』は、広義のテキストをより簡潔な形式に要約する作業である。 これらのCRUDカテゴリのそれぞれに対して、RAGシステムの性能を評価するための包括的なデータセットを開発しました。 また,レトリバー,コンテキスト長,知識ベース構築,LLMなど,RAGシステムの様々な構成要素の影響も分析する。 最後に、異なるシナリオに対してRAG技術を最適化するのに有用な洞察を提供する。

Retrieval-Augmented Generation (RAG) is a technique that enhances the capabilities of large language models (LLMs) by incorporating external knowledge sources. This method addresses common LLM limitations, including outdated information and the tendency to produce inaccurate "hallucinated" content. However, the evaluation of RAG systems is challenging, as existing benchmarks are limited in scope and diversity. Most of the current benchmarks predominantly assess question-answering applications, overlooking the broader spectrum of situations where RAG could prove advantageous. Moreover, they only evaluate the performance of the LLM component of the RAG pipeline in the experiments, and neglect the influence of the retrieval component and the external knowledge database. To address these issues, this paper constructs a large-scale and more comprehensive benchmark, and evaluates all the components of RAG systems in various RAG application scenarios. Specifically, we have categorized the range of RAG applications into four distinct types-Create, Read, Update, and Delete (CRUD), each representing a unique use case. "Create" refers to scenarios requiring the generation of original, varied content. "Read" involves responding to intricate questions in knowledge-intensive situations. "Update" focuses on revising and rectifying inaccuracies or inconsistencies in pre-existing texts. "Delete" pertains to the task of summarizing extensive texts into more concise forms. For each of these CRUD categories, we have developed comprehensive datasets to evaluate the performance of RAG systems. We also analyze the effects of various components of the RAG system, such as the retriever, the context length, the knowledge base construction, and the LLM. Finally, we provide useful insights for optimizing the RAG technology for different scenarios.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 深部スペクトルクラスタリングによるデータキューブセグメンテーション

Datacube segmentation via Deep Spectral Clustering ( http://arxiv.org/abs/2401.17695v2 )

ライセンス: Link先を確認
Alessandro Bombini, Fernando García-Avello Bofías, Caterina Bracci, Michele Ginolfi, Chiara Ruberto, (参考訳) 拡張ビジョン技術は物理学においてユビキタスである。 しかし、そのような分析から蒸散するデータキューブは、データキューブを構成するスペクトルから関連する情報を識別することが本質的に困難であるため、解釈においてしばしば困難となる。 さらに、データキューブのスペクトルの巨大な次元性は、その統計的解釈において複雑なタスクとなるが、しかしながら、この複雑さは、十分に定義された低次元埋め込み空間で実行されるデータキューブのスペクトルの(深い)クラスタリングを通して画像セグメンテーションを得ることが出来る、ケーススタディのいくつかの基本的な性質を概説するために、教師なしの方法で活用できる膨大な統計情報を含んでいる。 この課題に対処するために、符号化された空間に教師なしクラスタリング手法を適用する可能性、すなわち、データキューブ画素のスペクトル特性に深いクラスタリングを行う可能性を検討する。 スペクトルを低次元距離空間にマッピングするアドホック訓練(可変)オートエンコーダにより統計的次元還元が行われ、クラスタリングプロセスは(学習可能な)反復K-Meansクラスタリングアルゴリズムによって実行される。 本手法は, 画像芸術におけるX線蛍光(MA-XRF)合成データの集合と, シミュレーションされた天体物理観測のデータセットの2つの異なる物理的起源のユースケースに適用する。

Extended Vision techniques are ubiquitous in physics. However, the data cubes steaming from such analysis often pose a challenge in their interpretation, due to the intrinsic difficulty in discerning the relevant information from the spectra composing the data cube. Furthermore, the huge dimensionality of data cube spectra poses a complex task in its statistical interpretation; nevertheless, this complexity contains a massive amount of statistical information that can be exploited in an unsupervised manner to outline some essential properties of the case study at hand, e.g.~it is possible to obtain an image segmentation via (deep) clustering of data-cube's spectra, performed in a suitably defined low-dimensional embedding space. To tackle this topic, we explore the possibility of applying unsupervised clustering methods in encoded space, i.e. perform deep clustering on the spectral properties of datacube pixels. A statistical dimensional reduction is performed by an ad hoc trained (Variational) AutoEncoder, in charge of mapping spectra into lower dimensional metric spaces, while the clustering process is performed by a (learnable) iterative K-Means clustering algorithm. We apply this technique to two different use cases, of different physical origins: a set of Macro mapping X-Ray Fluorescence (MA-XRF) synthetic data on pictorial artworks, and a dataset of simulated astrophysical observations.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 患者の画像データを記憶する非条件潜時拡散モデル:オープン共有合成データへの意味

Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data ( http://arxiv.org/abs/2402.01054v2 )

ライセンス: Link先を確認
Salman Ul Hassan Dar, Marvin Seyfarth, Jannik Kahmann, Isabelle Ayx, Theano Papavassiliu, Stefan O. Schoenberg, Norbert Frey, Bettina Baeßler, Sebastian Foersch, Daniel Truhn, Jakob Nikolas Kather, Sandy Engelhardt, (参考訳) AIモデルは医学の分野で幅広い応用を提示する。 しかし、最適なパフォーマンスを達成するには広範な医療データへのアクセスが必要である。 さらに、患者のプライバシを維持する義務は、サードパーティや機関内でも、患者のデータ共有を制限する。 近年、生成AIモデルは、実際の患者データのサロゲートとして合成データを提案することで、オープンデータ共有を促進するために牽引されている。 約束にもかかわらず、これらのモデルは患者データの暗記に影響を受けやすく、新しい合成サンプルではなく、患者データのコピーを生成する。 問題の重要性を考えると、医療画像のコミュニティではほとんど注目されていない。 この目的のために、無条件潜時拡散モデルにおける記憶の評価を行う。 我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。 その後、自己教師型アプローチを用いて記憶されたトレーニングデータの量を検出し、記憶に影響を及ぼす様々な要因を更に調査する。 実験の結果, 患者データの約40.9%が記憶され, 78.5%が平均的な患者データコピーとして同定された。 さらに、トレーニング中に強化戦略を用いることで、過度にトレーニングしながら記憶を減らし、それを強化できることが明らかとなった。 データセットのサイズが大きくなると記憶が減少せず、さらに強化される可能性があるが、患者データコピーである合成サンプルの確率は低下する。 本研究は, 医用医用画像データセットにおける生成モデルを慎重に訓練することの重要性を強調し, 患者プライバシを確保するため, 医療研究や応用のために共有する前に, 合成データを調べることの重要性を強調した。

AI models present a wide range of applications in the field of medicine. However, achieving optimal performance requires access to extensive healthcare data, which is often not readily available. Furthermore, the imperative to preserve patient privacy restricts patient data sharing with third parties and even within institutes. Recently, generative AI models have been gaining traction for facilitating open-data sharing by proposing synthetic data as surrogates of real patient data. Despite the promise, these models are susceptible to patient data memorization, where models generate patient data copies instead of novel synthetic samples. Considering the importance of the problem, it has received little attention in the medical imaging community. To this end, we assess memorization in unconditional latent diffusion models. We train 2D and 3D latent diffusion models on CT, MR, and X-ray datasets for synthetic data generation. Afterwards, we detect the amount of training data memorized utilizing our self-supervised approach and further investigate various factors that can influence memorization. Our findings show a surprisingly high degree of patient data memorization across all datasets, with approximately 40.9% of patient data being memorized and 78.5% of synthetic samples identified as patient data copies on average in our experiments. Further analyses reveal that using augmentation strategies during training can reduce memorization while over-training the models can enhance it. Although increasing the dataset size does not reduce memorization and might even enhance it, it does lower the probability of a synthetic sample being a patient data copy. Collectively, our results emphasize the importance of carefully training generative models on private medical imaging datasets, and examining the synthetic data to ensure patient privacy before sharing it for medical research and applications.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 適応的勾配法で正方根を除去できるか? : 2次視点

Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v7 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani, (参考訳) Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。 彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。 これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。 本研究では,適応手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを強化するかを検討する。 意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。 2階の観点は、プリコンディショナー不変性の概念を通じて任意の曲率近似を組み込むことができる非対角法の開発にも実用的な利点がある。 シャンプーのような根ベースの手法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要としないため、半精度でうまく高速に機能する。 本研究は,適応的手法の開発に関する新たな知見を提供し,その成功における適応性の役割について重要な疑問を提起するものである。 (実験コード:https://github.com/yorkerlin/remove-the-square-root Optimizationr code:https://github.com/f-dangel/sirfshampoo)

Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e., strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for developing non-diagonal methods that can incorporate arbitrary curvature approximations through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, root-free counterparts work well and fast with half-precision since they do not require numerically unstable matrix root decompositions and inversions. Overall, our findings provide new insights into the development of adaptive methods and raise important questions regarding the overlooked role of adaptivity in their success. (experiment code: https://github.com/yorkerlin/remove-the-square-root optimizer code: https://github.com/f-dangel/sirfshampoo)
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# CLIF: スパイクニューラルネットワークのための相補的漏洩積分と火炎ニューロン

CLIF: Complementary Leaky Integrate-and-Fire Neuron for Spiking Neural Networks ( http://arxiv.org/abs/2402.04663v4 )

ライセンス: Link先を確認
Yulong Huang, Xiaopeng Lin, Hongwei Ren, Haotian Fu, Yue Zhou, Zunchang Liu, Biao Pan, Bojun Cheng, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。 従来のディープニューラルネットワーク(ANN)と比較して、SNNは時間情報を処理するための優れた効率と能力を示す。 しかし、SNNのスパイク機構の区別が難しいため、SNNを訓練することは依然として困難である。 シュロゲート勾配法は一般にSNNの訓練に使用されるが、ANNに比べて精度が劣ることが多い。 我々は、分解された精度と時間次元の勾配の消失を、Leaky Integrate-and-Fire(LIF)neuron-based SNNのトレーニング過程の分析および実験的研究を通して関連付ける。 さらに,CLIF(Complementary Leaky Integrate-and-Fire)ニューロンを提案する。 CLIFは、バイナリ出力を維持しながら、時間勾配の計算におけるバックプロパゲーションを容易にするために、余分なパスを生成する。 CLIFはハイパーパラメータフリーで、幅広い適用性を備えている。 さまざまなデータセットに対する大規模な実験は、他のニューロンモデルに対するCLIFの明確なパフォーマンス上の優位性を示している。 さらに、CLIFのパフォーマンスは、ネットワーク構造とトレーニング条件が同じである優れたANNをわずかに上回っている。 コードはhttps://github.com/HuuYuLong/Complementary-LIFで公開されている。

Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Compared to conventional deep Artificial Neural Networks (ANNs), SNNs exhibit superior efficiency and capability to process temporal information. However, it remains a challenge to train SNNs due to their undifferentiable spiking mechanism. The surrogate gradients method is commonly used to train SNNs, but often comes with an accuracy disadvantage over ANNs counterpart. We link the degraded accuracy to the vanishing of gradient on the temporal dimension through the analytical and experimental study of the training process of Leaky Integrate-and-Fire (LIF) Neuron-based SNNs. Moreover, we propose the Complementary Leaky Integrate-and-Fire (CLIF) Neuron. CLIF creates extra paths to facilitate the backpropagation in computing temporal gradient while keeping binary output. CLIF is hyperparameter-free and features broad applicability. Extensive experiments on a variety of datasets demonstrate CLIF's clear performance advantage over other neuron models. Furthermore, the CLIF's performance even slightly surpasses superior ANNs with identical network structure and training conditions. The code is available at https://github.com/HuuYuLong/Complementary-LIF.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 多元的アライメントへの道程

A Roadmap to Pluralistic Alignment ( http://arxiv.org/abs/2402.05070v2 )

ライセンス: Link先を確認
Taylor Sorensen, Jared Moore, Jillian Fisher, Mitchell Gordon, Niloofar Mireshghallah, Christopher Michael Rytting, Andre Ye, Liwei Jiang, Ximing Lu, Nouha Dziri, Tim Althoff, Yejin Choi, (参考訳) AIシステムのパワー向上と普及により、AIシステムはあらゆる、すなわちさまざまな価値と視点を持つ人々に役立つように設計されていることがますます重要になる。 しかし、多元的人間の価値を提供するためにモデルを整列させることは、オープンな研究課題である。 本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。 AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。 1) 合理的応答のスペクトルを示すオーバートン多元性モデル 2) 一定の視点を反映できる安定多元性モデル,及び 3)分布の集団によく分類された分布多元性モデル。 また、多元性ベンチマークの3つの可能なクラスを形式化し、議論する。 1)多目的ベンチマーク 2 任意のトレードオフを行うためのモデルにインセンティブを与える、トレードオフ可能なベンチマーク 3) 多様な人間格付けを明示的にモデル化した鑑定的ベンチマーク。 この枠組みは、現在のアライメント技術は、基本的には多元的AIに限られていると論じるために用いられるが、実際、我々は、我々の実験と他の研究の両方から、標準アライメント手順はモデルにおける分散多元主義を減らし、多元的アライメントに関するさらなる研究の必要性を動機付けている、経験的な証拠を強調している。

With increased power and prevalence of AI systems, it is ever more critical that AI systems are designed to serve all, i.e., people with diverse values and perspectives. However, aligning models to serve pluralistic human values remains an open research question. In this piece, we propose a roadmap to pluralistic alignment, specifically using language models as a test bed. We identify and formalize three possible ways to define and operationalize pluralism in AI systems: 1) Overton pluralistic models that present a spectrum of reasonable responses; 2) Steerably pluralistic models that can steer to reflect certain perspectives; and 3) Distributionally pluralistic models that are well-calibrated to a given population in distribution. We also formalize and discuss three possible classes of pluralistic benchmarks: 1) Multi-objective benchmarks, 2) Trade-off steerable benchmarks, which incentivize models to steer to arbitrary trade-offs, and 3) Jury-pluralistic benchmarks which explicitly model diverse human ratings. We use this framework to argue that current alignment techniques may be fundamentally limited for pluralistic AI; indeed, we highlight empirical evidence, both from our own experiments and from other work, that standard alignment procedures might reduce distributional pluralism in models, motivating the need for further research on pluralistic alignment.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 思考の拡散:拡散言語モデルにおける思考の連鎖推論

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models ( http://arxiv.org/abs/2402.07754v2 )

ライセンス: Link先を確認
Jiacheng Ye, Shansan Gong, Liheng Chen, Lin Zheng, Jiahui Gao, Han Shi, Chuan Wu, Xin Jiang, Zhenguo Li, Wei Bi, Lingpeng Kong, (参考訳) 近年、拡散モデルは、従来の自己回帰モデルに比べて多くの潜在的な利点があるため、テキスト処理分野への大きな関心を集めている。 本研究では,拡散モデルとChain-of-Thoughtを統合する新しい手法であるDiffusion-of-Thought (DoT)を提案する。 左右のトークン・バイ・トークン方式で意思決定を行う自動回帰言語モデルとは対照的に、DoTでは、拡散言語モデルを通じて時間とともに推論ステップが拡散し、推論性能のためのトレードオフ計算の柔軟性が向上する。 実験により,多桁乗算,ブール論理,小学生数学問題におけるDoTの有効性が実証された。 さらにDoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。 本研究は,拡散言語モデルを用いた推論の理解と発展に寄与する。

Recently, diffusion models have garnered significant interest in the field of text processing due to their many potential advantages compared to conventional autoregressive models. In this work, we propose Diffusion-of-Thought (DoT), a novel approach that integrates diffusion models with Chain-of-Thought, a well-established technique for improving the reasoning ability of autoregressive language models. In contrast to autoregressive language models that make decisions in a left-to-right, token-by-token manner, DoT allows reasoning steps to diffuse over time through a diffusion language model and offers greater flexibility in trading-off computation for reasoning performance. Our experimental results demonstrate the effectiveness of DoT in multi-digit multiplication, boolean logic, and grade school math problems, with a small diffusion model outperforming a much larger autoregressive model in both efficiency and accuracy. In addition to that, DoT showcases promising self-correction abilities and benefits from existing reasoning-enhancing techniques like self-consistency decoding. Our findings contribute to the understanding and development of reasoning with diffusion language models.
翻訳日:2024-07-17 02:05:02 公開日:2024-07-15
# 大規模言語モデルのための機械アンラーニングの再考

Rethinking Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2402.08787v5 )

ライセンス: Link先を確認
Sijia Liu, Yuanshun Yao, Jinghan Jia, Stephen Casper, Nathalie Baracaldo, Peter Hase, Yuguang Yao, Chris Yuhao Liu, Xiaojun Xu, Hang Li, Kush R. Varshney, Mohit Bansal, Sanmi Koyejo, Yang Liu, (参考訳) LLMアンラーニングと呼ばれる大規模言語モデル(LLM)の領域における機械学習(MU)について検討する。 このイニシアチブは、本質的な知識生成の完全性を維持しつつ、因果関係のない情報に影響を与えないまま、望ましくないデータの影響(機密情報、違法情報など)と関連するモデル機能を排除することを目的としている。 我々は、LLMのライフサイクル管理において、LLMのアンラーニングが重要な要素となり、安全で安全で信頼性の高いだけでなく、完全な再トレーニングを必要とせずに、資源効率の高い生成AIを開発する上で、不可欠な基盤となる可能性があると想定している。 概念的定式化や方法論,メトリクス,アプリケーションから,LLMにおける未学習の風景をナビゲートする。 特に,既存のLLMアンラーニング研究,例えば,未学習のスコープ,データ-モデル相互作用,多面的有効性評価など,見過ごされがちな側面を強調した。 また、LLMアンラーニングと、モデル編集、影響関数、モデル説明、対人訓練、強化学習などの関連分野の関連性も描いている。 さらに,LLMアンラーニングのための効果的なアセスメントフレームワークについて概説し,著作権とプライバシ保護,社会工学的害軽減への応用について検討する。

We explore machine unlearning (MU) in the domain of large language models (LLMs), referred to as LLM unlearning. This initiative aims to eliminate undesirable data influence (e.g., sensitive or illegal information) and the associated model capabilities, while maintaining the integrity of essential knowledge generation and not affecting causally unrelated information. We envision LLM unlearning becoming a pivotal element in the life-cycle management of LLMs, potentially standing as an essential foundation for developing generative AI that is not only safe, secure, and trustworthy, but also resource-efficient without the need of full retraining. We navigate the unlearning landscape in LLMs from conceptual formulation, methodologies, metrics, and applications. In particular, we highlight the often-overlooked aspects of existing LLM unlearning research, e.g., unlearning scope, data-model interaction, and multifaceted efficacy assessment. We also draw connections between LLM unlearning and related areas such as model editing, influence functions, model explanation, adversarial training, and reinforcement learning. Furthermore, we outline an effective assessment framework for LLM unlearning and explore its applications in copyright and privacy safeguards and sociotechnical harm reduction.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# オーディオ再生のための拡散モデル

Diffusion Models for Audio Restoration ( http://arxiv.org/abs/2402.09821v2 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Julius Richter, Simon Welker, Eloi Moliner, Vesa Välimäki, Timo Gerkmann, (参考訳) オーディオ再生装置や高速データ伝送装置の開発により、エンターテイメントとコミュニケーションの両方において、高品質な音質の需要が高まっている。 より良い音質を求めるこの探求において、録音側で発生する歪みや干渉、あるいは不完全な伝送パイプラインによって生じる問題が発生する。 この問題に対処するために、音声復元手法は、劣化した入力データからクリーンな音声信号を復元することを目的としている。 本稿では,拡散モデルに基づく音声復元アルゴリズムについて述べる。 伝統的アプローチは、しばしば手作りの規則と統計的ヒューリスティックに基礎を置いており、音声信号の理解を形作っている。 過去数十年間、DNNのモデリング機能を利用するデータ駆動方式への顕著なシフトがあった。 深層生成モデル、中でも拡散モデルが、複雑なデータ分布を学習するための強力な技術として登場した。 しかし、DNNベースの学習アプローチのみに依存すると、特にエンドツーエンドモデルを採用する場合、解釈可能性を減らすリスクが生じる。 それでも、データ駆動のアプローチは、統計モデルベースのフレームワークと比較して柔軟性が増し、そのパフォーマンスは保証が難しい分布や統計的な仮定に依存する。 ここでは,拡散モデルが両世界の長所を組み合わせることを示し,音質の面で優れた解釈性と優れた性能で音声復元アルゴリズムを設計する機会を提供する。 拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。 拡散モデルは、自然に聞こえる新しい音響復元アルゴリズムを創出し、難聴時にも頑健な研究分野を開拓する可能性があると信じている。

With the development of audio playback devices and fast data transmission, the demand for high sound quality is rising for both entertainment and communications. In this quest for better sound quality, challenges emerge from distortions and interferences originating at the recording side or caused by an imperfect transmission pipeline. To address this problem, audio restoration methods aim to recover clean sound signals from the corrupted input data. We present here audio restoration algorithms based on diffusion models, with a focus on speech enhancement and music restoration tasks. Traditional approaches, often grounded in handcrafted rules and statistical heuristics, have shaped our understanding of audio signals. In the past decades, there has been a notable shift towards data-driven methods that exploit the modeling capabilities of DNNs. Deep generative models, and among them diffusion models, have emerged as powerful techniques for learning complex data distributions. However, relying solely on DNN-based learning approaches carries the risk of reducing interpretability, particularly when employing end-to-end models. Nonetheless, data-driven approaches allow more flexibility in comparison to statistical model-based frameworks, whose performance depends on distributional and statistical assumptions that can be difficult to guarantee. Here, we aim to show that diffusion models can combine the best of both worlds and offer the opportunity to design audio restoration algorithms with a good degree of interpretability and a remarkable performance in terms of sound quality. We explain the diffusion formalism and its application to the conditional generation of clean audio signals. We believe that diffusion models open an exciting field of research with the potential to spawn new audio restoration algorithms that are natural-sounding and remain robust in difficult acoustic situations.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# RLHFにおける探索駆動型政策最適化:効率的なデータ利用に関する理論的考察

Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization ( http://arxiv.org/abs/2402.10342v2 )

ライセンス: Link先を確認
Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、少数の人間のフィードバックを頼りながら、印象的な経験的成功を達成した。 しかし、この現象の理論的正当化は限られている。 さらに、最近の研究では、ポリシーベースのアルゴリズムの実証的な成功にもかかわらず、価値に基づくアルゴリズムに焦点を当てている。 本稿ではポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムについて考察する。 このアルゴリズムは、報酬関数の知識を前提とした、人気のあるポリシカバー・ポリティ・グラディエント(PC-PG)アルゴリズムに基づいている。 PO-RLHFでは、報酬関数の知識は仮定されず、そのアルゴリズムは軌道に基づく比較フィードバックを用いて報酬関数を推測する。 クエリの複雑さが低いPO-RLHFの性能バウンダリを提供し、RLHFで優れたパフォーマンスを達成するのに、なぜ少量の人間からのフィードバックが十分なのかを洞察する。 重要な新規性は、(数値的な報酬観察ではなく)比較フィードバックが与えられるときの報酬推定誤差を境界とする軌道レベルの楕円ポテンシャル解析である。 線形関数近似とニューラル関数近似の2つの設定に対して、PG-RLHFとNN-PG-RLHFをそれぞれ解析する。

Reinforcement Learning from Human Feedback (RLHF) has achieved impressive empirical successes while relying on a small amount of human feedback. However, there is limited theoretical justification for this phenomenon. Additionally, most recent studies focus on value-based algorithms despite the recent empirical successes of policy-based algorithms. In this work, we consider an RLHF algorithm based on policy optimization (PO-RLHF). The algorithm is based on the popular Policy Cover-Policy Gradient (PC-PG) algorithm, which assumes knowledge of the reward function. In PO-RLHF, knowledge of the reward function is not assumed, and the algorithm uses trajectory-based comparison feedback to infer the reward function. We provide performance bounds for PO-RLHF with low query complexity, which provides insight into why a small amount of human feedback may be sufficient to achieve good performance with RLHF. A key novelty is a trajectory-level elliptical potential analysis, which bounds the reward estimation error when comparison feedback (rather than numerical reward observation) is given. We provide and analyze algorithms PG-RLHF and NN-PG-RLHF for two settings: linear and neural function approximation, respectively.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# ミニマックス最適化における代替更新の基本的利点

Fundamental Benefit of Alternating Updates in Minimax Optimization ( http://arxiv.org/abs/2402.10475v2 )

ライセンス: Link先を確認
Jaewook Lee, Hanseul Cho, Chulhee Yun, (参考訳) 最小最適化問題を解決するために設計されたグラディエントDescent-Ascent(GDA)アルゴリズムは、降下と昇降を同時に行う(Sim-GDA)か、交互に(Alt-GDA)。 一般にAlt-GDAはより速く収束することが観察されるが、この2つの間の性能差は理論上はまだよく理解されていない。 この理論-実践的ギャップに対処するために、強凸-強凸-凹面およびリプシッツ-勾配目的に対する両アルゴリズムの微細収束解析を提案する。 我々の新しい反復複雑性上界 Alt-GDA は、Sim-GDA の下限よりも厳密に小さく、すなわち Alt-GDA は証明的に高速である。 さらに,Sim-GDA と Alt-GDA を置換するアルゴリズムフレームワークである Alternating-Extrapolation GDA (Alex-GDA) を提案する。 この結果から,Alex-GDA は増進法と同一の最小限の反復複雑性を満足するが,勾配計算は必要としないことを示す。 また、Alex-GDA が双線型問題に対する線形収束を楽しみ、Sim-GDA も Alt-GDA も全く収束しないことを示す。

The Gradient Descent-Ascent (GDA) algorithm, designed to solve minimax optimization problems, takes the descent and ascent steps either simultaneously (Sim-GDA) or alternately (Alt-GDA). While Alt-GDA is commonly observed to converge faster, the performance gap between the two is not yet well understood theoretically, especially in terms of global convergence rates. To address this theory-practice gap, we present fine-grained convergence analyses of both algorithms for strongly-convex-strongly-concave and Lipschitz-gradient objectives. Our new iteration complexity upper bound of Alt-GDA is strictly smaller than the lower bound of Sim-GDA; i.e., Alt-GDA is provably faster. Moreover, we propose Alternating-Extrapolation GDA (Alex-GDA), a general algorithmic framework that subsumes Sim-GDA and Alt-GDA, for which the main idea is to alternately take gradients from extrapolations of the iterates. We show that Alex-GDA satisfies a smaller iteration complexity bound, identical to that of the Extra-gradient method, while requiring less gradient computations. We also prove that Alex-GDA enjoys linear convergence for bilinear problems, for which both Sim-GDA and Alt-GDA fail to converge at all.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# 未学習の学習:コントラスト学習における特徴抑制の緩和

Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning ( http://arxiv.org/abs/2402.11816v3 )

ライセンス: Link先を確認
Jihai Zhang, Xiang Lan, Xiaoye Qu, Yu Cheng, Mengling Feng, Bryan Hooi, (参考訳) 自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。 しかし、単項学習とマルチモーダル学習の両方を妨げる大きな課題は特徴抑制であり、これはトレーニングされたモデルが、他の潜在的に価値のあるコンテンツを見下ろしながら、入力データから限られた情報のみをキャプチャする現象である。 この問題は、しばしば視覚的に類似しているが意味的に異なる入力に対する識別不可能な表現をもたらし、特に厳密な意味理解を必要とするダウンストリームタスクのパフォーマンスに悪影響を及ぼす。 そこで本研究では,モデルに依存しないMCL(Multi stage Contrastive Learning)フレームワークを提案する。 1つの偏りのある特徴分布を本質的にキャプチャする標準的なコントラスト学習とは異なり、MCLは各段階で特徴認識の負のサンプリングを通じて、予め学習されていない特徴を段階的に学習し、アンカーの負のサンプルは前段に割り当てられたクラスタからのみ選択される。 一方、MCLは、すべてのステージにまたがって機能を統合して最終的な表現を形成することで、これまでよく知られた機能を維持している。 我々の総合評価は、ResNet から Vision Transformers (ViT) までのモデルアーキテクチャにまたがる、一様および多モードのコントラスト学習における MCL の有効性と優位性を実証している。 注目すべきなのは、オリジナルのCLIPモデルが制限されたタスクにおいて、MCLはパフォーマンスを劇的に向上させ、最近提案されたMMVPベンチマークで、特定の属性を最大3倍に改善する。

Self-Supervised Contrastive Learning has proven effective in deriving high-quality representations from unlabeled data. However, a major challenge that hinders both unimodal and multimodal contrastive learning is feature suppression, a phenomenon where the trained model captures only a limited portion of the information from the input data while overlooking other potentially valuable content. This issue often leads to indistinguishable representations for visually similar but semantically different inputs, adversely affecting downstream task performance, particularly those requiring rigorous semantic comprehension. To address this challenge, we propose a novel model-agnostic Multistage Contrastive Learning (MCL) framework. Unlike standard contrastive learning which inherently captures one single biased feature distribution, MCL progressively learns previously unlearned features through feature-aware negative sampling at each stage, where the negative samples of an anchor are exclusively selected from the cluster it was assigned to in preceding stages. Meanwhile, MCL preserves the previously well-learned features by cross-stage representation integration, integrating features across all stages to form final representations. Our comprehensive evaluation demonstrates MCL's effectiveness and superiority across both unimodal and multimodal contrastive learning, spanning a range of model architectures from ResNet to Vision Transformers (ViT). Remarkably, in tasks where the original CLIP model has shown limitations, MCL dramatically enhances performance, with improvements up to threefold on specific attributes in the recently proposed MMVP benchmark.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# 拡散テンパリングは正規微分方程式に対する確率積分器によるパラメータ推定を改善する

Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations ( http://arxiv.org/abs/2402.12231v4 )

ライセンス: Link先を確認
Jonas Beck, Nathanael Bosch, Michael Deistler, Kyra L. Kadhim, Jakob H. Macke, Philipp Hennig, Philipp Berens, (参考訳) 通常微分方程式(ODE)は科学の力学系を記述するために広く用いられているが、実験的な測定を説明するパラメータを特定することは困難である。 特に、ODEは微分可能であり、勾配に基づくパラメータ最適化が可能であるが、ODEの非線形ダイナミクスは多くの場合、多くの局所最小化と初期条件に対する極度な感度をもたらす。 そこで我々は,ODEにおける勾配に基づくパラメータ最適化の収束性を改善する確率的数値法の新しい正規化手法である拡散テンパリングを提案する。 確率積分器の雑音パラメータを反復的に低減することにより、提案手法は真のパラメータにより確実に収束する。 本手法は複雑性の異なる力学系に対して有効であることを示すとともに,実際に関連するパラメータ数を持つHodgkin-Huxleyモデルに対して,信頼性の高いパラメータ推定値が得られることを示す。

Ordinary differential equations (ODEs) are widely used to describe dynamical systems in science, but identifying parameters that explain experimental measurements is challenging. In particular, although ODEs are differentiable and would allow for gradient-based parameter optimization, the nonlinear dynamics of ODEs often lead to many local minima and extreme sensitivity to initial conditions. We therefore propose diffusion tempering, a novel regularization technique for probabilistic numerical methods which improves convergence of gradient-based parameter optimization in ODEs. By iteratively reducing a noise parameter of the probabilistic integrator, the proposed method converges more reliably to the true parameters. We demonstrate that our method is effective for dynamical systems of different complexity and show that it obtains reliable parameter estimates for a Hodgkin-Huxley model with a practically relevant number of parameters.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# 無障害Sachdev-Ye-Kitaevモデル:統合性とカオスの前駆体

Disorder-free Sachdev-Ye-Kitaev models: Integrability and a precursor of chaos ( http://arxiv.org/abs/2402.13154v3 )

ライセンス: Link先を確認
Soshun Ozaki, Hosho Katsura, (参考訳) 本稿では、Sachdev-Ye-Kitaevモデル(SYK)の2つの障害のない変種を紹介し、それらの可積分性を実証し、それらの静的および動的性質について検討する。 図式的手法とは異なり、これらのモデルの可積分性は、マヨラナフェルミオンの数が有限である場合でも、動的相関関数を得ることができる。 これらの解から、これらのモデルにおける時間外相関器(OTOC)は、障害や外的キック項のような量子カオス系と同様、早期に指数関数的な成長を示すことが分かる。 逆に、我々の分析では、レベル統計学やスペクトル形状因子におけるランダム行列の挙動の証拠は示されていない。 以上の結果から,SYKモデルのクリーンバージョンは,OTOCのカオス的挙動を示す乱れのない量子多体系の単純かつ非自明な例であることがわかった。

We introduce two disorder-free variants of the Sachdev-Ye-Kitaev (SYK) model, demonstrate their integrability, and study their static and dynamical properties. Unlike diagrammatic techniques, the integrability of these models allows us to obtain dynamical correlation functions even when the number of Majorana fermions is finite. From the solutions, we find that out-of-time-order correlators (OTOCs) in these models exhibit exponential growth at early times, resembling that of quantum chaotic systems such as those with disorder or external kick terms. Conversely, our analysis shows no evidence of random-matrix behavior in level statistics or the spectral form factor. Our findings illustrate that the clean versions of the SYK models represent simple but nontrivial examples of disorder-free quantum many-body systems displaying chaos-like behavior of OTOCs.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# スロットル弁ベンチマークによる強化学習による比例積分制御系の改良

Improving a Proportional Integral Controller with Reinforcement Learning on a Throttle Valve Benchmark ( http://arxiv.org/abs/2402.13654v2 )

ライセンス: Link先を確認
Paul Daoudi, Bojan Mavkov, Bogdan Robu, Christophe Prieur, Emmanuel Witrant, Merwan Barlier, Ludovic Dos Santos, (参考訳) 本稿では,非線形スロットル弁を非対称なヒステリシスで制御する学習型制御手法を提案する。 本稿では,RL(Reinforcement Learning, Reinforcement Learning, 強化学習)の最近の進歩を活用して, 弁との付加的な相互作用から学習することで, 閉ループ動作を改善することを目指す。 提案手法を3つの異なるバルブ上で様々なシナリオで検証し, PIとRLを併用することにより, 非線形確率系における制御性能を向上させることの利点を浮き彫りにした。 すべての試験ケースにおいて、結果のエージェントは従来のRLエージェントよりもサンプリング効率が良く、PIコントローラよりも優れています。

This paper presents a learning-based control strategy for non-linear throttle valves with an asymmetric hysteresis, leading to a near-optimal controller without requiring any prior knowledge about the environment. We start with a carefully tuned Proportional Integrator (PI) controller and exploit the recent advances in Reinforcement Learning (RL) with Guides to improve the closed-loop behavior by learning from the additional interactions with the valve. We test the proposed control method in various scenarios on three different valves, all highlighting the benefits of combining both PI and RL frameworks to improve control performance in non-linear stochastic systems. In all the experimental test cases, the resulting agent has a better sample efficiency than traditional RL agents and outperforms the PI controller.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# ニューロ・シンボリック統合のためのシンプルかつ効果的なトランスファー学習

Simple and Effective Transfer Learning for Neuro-Symbolic Integration ( http://arxiv.org/abs/2402.14047v2 )

ライセンス: Link先を確認
Alessandro Daniele, Tommaso Campari, Sagar Malhotra, Luciano Serafini, (参考訳) 近年,ディープラーニング(DL)技術は目覚ましい成功を収めている。 しかし、推論タスクを一般化し実行する能力は依然として課題である。 この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。 これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。 これらの手法は、完全なニューラルネットワークアーキテクチャよりも優れた一般化能力を示す。 しかし、それらは、緩やかな収束、複雑な知覚課題の学習困難、局所的なミニマへの収束など、いくつかの問題に悩まされている。 本稿では,これらの問題を改善するための簡易かつ効果的な方法を提案する。 キーとなるアイデアは、下流タスクでニューラルモデルを事前訓練することだ。 次に、NeSyモデルを転送学習により同一タスクでトレーニングし、事前に訓練されたネットワークから知覚部分の重みを注入する。 私たちの研究の重要な観察は、ニューラルネットワークが認識からシンボルへのマッピングを完全に学習しながら、記号部分のレベルでのみ一般化できないことです。 我々は、様々なSOTA NeSyメソッドとデータセットでトレーニング戦略を検証し、上記の問題の一貫した改善を実証した。

Deep Learning (DL) techniques have achieved remarkable successes in recent years. However, their ability to generalize and execute reasoning tasks remains a challenge. A potential solution to this issue is Neuro-Symbolic Integration (NeSy), where neural approaches are combined with symbolic reasoning. Most of these methods exploit a neural network to map perceptions to symbols and a logical reasoner to predict the output of the downstream task. These methods exhibit superior generalization capacity compared to fully neural architectures. However, they suffer from several issues, including slow convergence, learning difficulties with complex perception tasks, and convergence to local minima. This paper proposes a simple yet effective method to ameliorate these problems. The key idea involves pretraining a neural model on the downstream task. Then, a NeSy model is trained on the same task via transfer learning, where the weights of the perceptual part are injected from the pretrained network. The key observation of our work is that the neural network fails to generalize only at the level of the symbolic part while being perfectly capable of learning the mapping from perceptions to symbols. We have tested our training strategy on various SOTA NeSy methods and datasets, demonstrating consistent improvements in the aforementioned problems.
翻訳日:2024-07-17 01:55:15 公開日:2024-07-15
# ゼプト秒スケール単一光子ジャイロスコープ

Zeptosecond-scale single-photon gyroscope ( http://arxiv.org/abs/2402.15385v2 )

ライセンス: Link先を確認
Fabrizio Sgobba, Danilo Triggiani, Vincenzo Tamma, Paolo De Natale, Gianluca Gagliardi, Saverio Avino, Luigi Santamaria Amato, (参考訳) 本稿では, 自発パラメトリックダウン変換結晶を用いた全ファイバーテレコムレンジ光ジャイロスコープを提案し, ヘラルド光子の1つをトレーシングアウトして超低強度熱光を発生させる。 試作機は、平均時間72$sの光子遅延測定に249$z、平均時間26zの差分遅延測定に$t=10^4$sの光子遅延測定に制限を課している。 検出スキームは最も資源効率が良いことを証明し、Cram\'er-Rao 境界の$>99.5\%を飽和させる。 これらの結果は、低光子状態の量子気象学の文脈において画期的なものであり、特殊あるいは一般相対性理論で量子光学を橋渡しするための新しい実験的な構成の道を開いた。

This paper presents an all-fiber telecom-range optical gyroscope employing a spontaneous parametric down conversion crystal to produce ultra-low intensity thermal light by tracing-out one of the heralded photons. The prototype exhibits a detection limit on photon delay measurements of $249$ zs over a $72$ s averaging time and 26 zs in differential delay measurements at $t=10^4$ s averaging. The detection scheme proves to be the most resource-efficient possible, saturating $>99.5\%$ of the Cram\'er-Rao bound. These results are groundbreaking in the context of low-photon regime quantum metrology, paving the way to novel experimental configurations to bridge quantum optics with special or general relativity.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# PandoraのWhite-Box:大規模言語モデルにおける精密トレーニングデータの検出と抽出

Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models ( http://arxiv.org/abs/2402.17012v4 )

ライセンス: Link先を確認
Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel, (参考訳) 本稿では,Large Language Models (LLMs) に対する最先端のプライバシ攻撃について述べる。 我々の見出しは、ベースラインアタックの数百倍の精度を持つ事前訓練されたLLMに対する新たなメンバシップ推論アタック(MIA)と、自然条件下で微調整されたLLMから、細調整されたデータセットの50%以上(!)を抽出できることを示すパイプラインである。 基礎となるモデルへの様々なアクセス、事前学習および微調整データ、MIAとトレーニングデータ抽出の両方について検討する。 プレトレーニングデータには,モデル勾配に基づいてトレーニングデータメンバシップを予測する教師付きニューラルネットワーク分類器と,最近のLCMにおけるモデルスティーリング作業を活用することで,モデルへのロジットアクセスのみを必要とするこの攻撃のバリエーションという,2つの新しいMIAを提案する。 私たちの知る限り、これはモデルステアリング情報を明示的に組み込んだ最初のMIAです。 どちらの攻撃も既存のブラックボックスベースラインより優れており、我々の監視された攻撃は、LSMに対するMIA攻撃の成功と、他の機械学習モデルにとって最も強力な攻撃とのギャップを埋める。 微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。 私たちのコードはgithub.com/safr-ai-lab/pandora-llmで利用可能です。

In this paper we develop state-of-the-art privacy attacks against Large Language Models (LLMs), where an adversary with some access to the model tries to learn something about the underlying training data. Our headline results are new membership inference attacks (MIAs) against pretrained LLMs that perform hundreds of times better than baseline attacks, and a pipeline showing that over 50% (!) of the fine-tuning dataset can be extracted from a fine-tuned LLM in natural settings. We consider varying degrees of access to the underlying model, pretraining and fine-tuning data, and both MIAs and training data extraction. For pretraining data, we propose two new MIAs: a supervised neural network classifier that predicts training data membership on the basis of (dimensionality-reduced) model gradients, as well as a variant of this attack that only requires logit access to the model by leveraging recent model-stealing work on LLMs. To our knowledge this is the first MIA that explicitly incorporates model-stealing information. Both attacks outperform existing black-box baselines, and our supervised attack closes the gap between MIA attack success against LLMs and the strongest known attacks for other machine learning models. In fine-tuning, we find that a simple attack based on the ratio of the loss between the base and fine-tuned models is able to achieve near-perfect MIA performance; we then leverage our MIA to extract a large fraction of the fine-tuning dataset from fine-tuned Pythia and Llama models. Our code is available at github.com/safr-ai-lab/pandora-llm.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# 大規模言語モデルとゲーム: 調査とロードマップ

Large Language Models and Games: A Survey and Roadmap ( http://arxiv.org/abs/2402.18659v2 )

ライセンス: Link先を確認
Roberto Gallotta, Graham Todd, Marvin Zammit, Sam Earle, Antonios Liapis, Julian Togelius, Georgios N. Yannakakis, (参考訳) 近年、大型言語モデル(LLM)の研究が爆発的に増加し、この話題に対する公的な関与が伴っている。 自然言語処理におけるニッチな領域として始まったが、LLMはゲームを含む幅広いアプリケーションや領域で顕著なポテンシャルを示してきた。 本稿では,ゲームにおけるLLMの様々な応用における現状を調査し,ゲーム内でLLMが果たす役割について述べる。 ここでは,ゲーム分野におけるLLMの潜在的な可能性と限界を整理し,ゲーム分野におけるLLMの今後の活用に向けた未探索領域と将来的な方向性について論じる。 LLMとゲームの交差点における最初の総合的な調査とロードマップとして、このエキサイティングな新しい分野において、この論文が画期的な研究とイノベーションの基礎となることを期待する。

Recent years have seen an explosive increase in research on large language models (LLMs), and accompanying public engagement on the topic. While starting as a niche area within natural language processing, LLMs have shown remarkable potential across a broad range of applications and domains, including games. This paper surveys the current state of the art across the various applications of LLMs in and for games, and identifies the different roles LLMs can take within a game. Importantly, we discuss underexplored areas and promising directions for future uses of LLMs in games and we reconcile the potential and limitations of LLMs within the games domain. As the first comprehensive survey and roadmap at the intersection of LLMs and games, we are hopeful that this paper will serve as the basis for groundbreaking research and innovation in this exciting new field.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# 重力波の再正規化を伴う量子ベイズ推論

Quantum Bayesian Inference with Renormalization for Gravitational Waves ( http://arxiv.org/abs/2403.00846v2 )

ライセンス: Link先を確認
Gabriel Escrig, Roberto Campos, Hong Qi, M. A. Martin-Delgado, (参考訳) 重力波干渉計の進歩、特に次世代は、重力波天文学とマルチメースセンガー天体物理学に大きな影響を与える可能性がある。 重力波干渉計で検出された小型のバイナリコレッセンスからパラメータの量子推論を行うために,ハイブリッド量子アルゴリズムを提案する。 量子ベイズ推論(Quantum Bayesian Inference with Renormalization and Downsampling)を行う。 LIGO観測所から二元ブラックホール(BBH)の融合をアルゴリズムをテストする最初のケースとして選択するが、その応用はより一般的なインスタンスに拡張できる。 量子アルゴリズムは、ゼロノイズ、ガウスノイズ、実データを含む既知の射影パラメータ値を持つ模擬重力波の推測により、チャープ質量、質量比、スピンなどの関連するパラメータのコーナープロットを生成することができ、古典的なマルコフ・チェイン・モンテカルロ推定と同等の精度を回復することができる。 シミュレーションは2と4のパラメータのセットで実行される。 これらの結果から,より長い時間にわたって,また重力波パラメータ推定の精度と速さを延ばす低い周波数で,コリネッションからの信号を追跡できる能力が拡張される可能性が示唆された。

Advancements in gravitational-wave interferometers, particularly the next generation, are poised to profoundly impact gravitational wave astronomy and multimessenger astrophysics. A hybrid quantum algorithm is proposed to carry out quantum inference of parameters from compact binary coalescences detected in gravitational-wave interferometers. It performs quantum Bayesian Inference with Renormalization and Downsampling (qBIRD). We choose binary black hole (BBH) mergers from LIGO observatories as the first case to test the algorithm, but its application can be extended to more general instances. The quantum algorithm is able to generate corner plots of relevant parameters such as chirp mass, mass ratio, spins, etc. by inference of simulated gravitational waves with known injected parameter values with zero noise, Gaussian noise and real data, thus recovering an accuracy equivalent to that of classical Markov Chain Monte Carlo inferences. The simulations are performed with sets of 2 and 4 parameters. These results enhance the possibilities to extend our capacity to track signals from coalescences over longer durations and at lower frequencies extending the accuracy and promptness of gravitational wave parameter estimation.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# LLMを用いた製品属性値の抽出と正規化

Using LLMs for the Extraction and Normalization of Product Attribute Values ( http://arxiv.org/abs/2403.02130v4 )

ライセンス: Link先を確認
Alexander Brinkmann, Nick Baumann, Christian Bizer, (参考訳) eコマースウェブサイトでの製品提供は、しばしば製品タイトルとテキストによる製品記述から構成される。 ファセット商品検索や製品比較表作成などの機能を実現するためには、構造化されていない製品タイトルや記述から構造化された属性値ペアを抽出し、抽出した値を各属性に対して単一の統一スケールに正規化する必要がある。 本稿では, GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。 属性値ペアの抽出と正規化をLLMに指示するために,異なるゼロショットおよび少数ショットプロンプトテンプレートを用いて実験を行った。 実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。 WDC-PAVEは、スキーマ.orgアノテーションを提供する59の異なるウェブサイトから提供される製品である。 提供物は5つの異なる製品カテゴリに属し、それぞれに特定の属性のセットがある。 データセットは、手動で検証された属性値のペアを2つの形式で提供する。 (i)直接抽出された値 (ii)正規化属性値。 属性値の正規化には、名前展開、一般化、測定単位の変換、文字列ラングリングといった操作を行うシステムが必要である。 GPT-4は,SU-OpenTag,AVEQA,MAVEQAを10%向上させ,F1スコア91%を達成した。 製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開において強い一方で、抽出シナリオと同じような性能を達成する。

Product offers on e-commerce websites often consist of a product title and a textual product description. In order to enable features such as faceted product search or to generate product comparison tables, it is necessary to extract structured attribute-value pairs from the unstructured product titles and descriptions and to normalize the extracted values to a single, unified scale for each attribute. This paper explores the potential of using large language models (LLMs), such as GPT-3.5 and GPT-4, to extract and normalize attribute values from product titles and descriptions. We experiment with different zero-shot and few-shot prompt templates for instructing LLMs to extract and normalize attribute-value pairs. We introduce the Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) benchmark dataset for our experiments. WDC-PAVE consists of product offers from 59 different websites which provide schema.org annotations. The offers belong to five different product categories, each with a specific set of attributes. The dataset provides manually verified attribute-value pairs in two forms: (i) directly extracted values and (ii) normalized attribute values. The normalization of the attribute values requires systems to perform the following types of operations: name expansion, generalization, unit of measurement conversion, and string wrangling. Our experiments demonstrate that GPT-4 outperforms the PLM-based extraction methods SU-OpenTag, AVEQA, and MAVEQA by 10%, achieving an F1-score of 91%. For the extraction and normalization of product attribute values, GPT-4 achieves a similar performance to the extraction scenario, while being particularly strong at string wrangling and name expansion.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# 直流電流印加によるグラフェンの高調波発生:摂動状態から非摂動状態へ

High-harmonic generation in graphene under the application of a DC electric current: From perturbative to nonperturbative regimes ( http://arxiv.org/abs/2403.03523v2 )

ライセンス: Link先を確認
Minoru Kanega, Masahiro Sato, (参考訳) 直流電界下におけるハニカム格子グラフェンモデルにおける高調波発生(HHG)について理論的に検討した。 量子マスター方程式とボルツマン方程式を統合することにより、直流電流下での多電子格子系のレーザー駆動力学を計算する数値計算法を開発した。 本手法は, 弱レーザー(摂動)と強レーザー(摂動)の両方を統一的に処理し, 実験的に避けられない消散効果を考慮した。 得られたHHGスペクトルは, レーザ周波数, レーザ強度, レーザ磁場方向, 直流電流強度に依存する。 特に2n+1)$th, $2n$th, or $3n$th-order harmonics ("n\in \mathbb Z$") の存在または存在しない場合において、この対称性の破れはHHGスペクトルの形状を大きく変化させる。 また、レーザー強度、周波数、偏光は、HHGスペクトルの形状に影響を与えることが示されている。 その結果, 導電性電子系のHHGスペクトルは, 様々な外部パラメータを調整することによって定量的に, 定性的に制御できることが示唆された。

We theoretically investigate high-harmonic generation (HHG) in honeycomb-lattice graphene models when subjected to a DC electric field. By integrating the quantum master equation with the Boltzmann equation, we develop a numerical method to compute laser-driven dynamics in many-electron lattice systems under DC electric current. The method enables us to treat both the weak-laser (perturbative) and intense-laser (nonperturbative) regimes in a unified way, accounting for the experimentally inevitable dissipation effects. From it, we obtain the HHG spectra and analyze their dependence on laser frequency, laser intensity, laser-field direction, and DC current strength. We show that the dynamical and static symmetries are partially broken by a DC current or staggered potential term, and such symmetry breakings drastically change the shape of the HHG spectra, especially in terms of the presence or absence of $(2n+1)$th-, $2n$th-, or $3n$th-order harmonics ($n\in \mathbb Z$). The laser intensity, frequency, and polarization are also shown to affect the shape of the HHG spectra. Our findings indicate that HHG spectra in conducting electron systems can be quantitatively or qualitatively controlled by tuning various external parameters, and DC electric current is used as such an efficient parameter.
翻訳日:2024-07-17 01:45:18 公開日:2024-07-15
# 条件付き可逆ニューラルネットワークを用いた網膜補綴刺激の最適化

Optimizing Retinal Prosthetic Stimuli with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2403.04884v2 )

ライセンス: Link先を確認
Yuli Wu, Julian Wittmann, Peter Walter, Johannes Stegmaier, (参考訳) インプラント可能な網膜補綴は、網膜の損傷した光受容体細胞を回避し、残りの機能性網膜細胞を直接刺激することにより、部分的な視覚を回復するための有望な解決策を提供する。 しかし、カメラと網膜細胞間の情報伝達は、電極アレイの低分解能と異なるガングリオン細胞タイプに対する特異性の欠如によって制限され、その結果、至適刺激が生じる。 本研究では,フローベース条件付き非可逆ニューラルネットワークを正規化して網膜インプラント刺激を教師なしで最適化する手法を提案する。 これらのネットワークの可逆性により、入力されたカメラ信号を電極アレイ上で最適化された電気刺激に符号化しながら、視覚系の計算モデルの代理として使用できる。 自明なダウンサンプリング、線形モデル、フィードフォワードの畳み込みニューラルネットワークなどの他の手法と比較して、フローベースの可逆的ニューラルネットワークとその条件付き拡張は、生理学的に検証されたシミュレーションツールを使用して、様々なメトリクスの視覚的再構成品質を向上させる。

Implantable retinal prostheses offer a promising solution to restore partial vision by circumventing damaged photoreceptor cells in the retina and directly stimulating the remaining functional retinal cells. However, the information transmission between the camera and retinal cells is often limited by the low resolution of the electrode array and the lack of specificity for different ganglion cell types, resulting in suboptimal stimulations. In this work, we propose to utilize normalizing flow-based conditional invertible neural networks to optimize retinal implant stimulation in an unsupervised manner. The invertibility of these networks allows us to use them as a surrogate for the computational model of the visual system, while also encoding input camera signals into optimized electrical stimuli on the electrode array. Compared to other methods, such as trivial downsampling, linear models, and feed-forward convolutional neural networks, the flow-based invertible neural network and its conditional extension yield better visual reconstruction qualities w.r.t. various metrics using a physiologically validated simulation tool.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# 高い更新率でDeep RLを分離する - 価値の多様性を議論する

Dissecting Deep RL with High Update Ratios: Combatting Value Divergence ( http://arxiv.org/abs/2403.05996v2 )

ライセンス: Link先を確認
Marcel Hussing, Claas Voelcker, Igor Gilitschenski, Amir-massoud Farahmand, Eric Eaton, (参考訳) 本研究では, ネットワークパラメータをリセットすることなく, 深層強化学習アルゴリズムが学習能力を維持できることを示す。 大規模な更新とデータ比の下で、Nikishinらによる2022年の最近の研究は、エージェントが早期の相互作用と後期の体験に過度に適合し、学習能力を損なうという、予備主義バイアスの出現を示唆している。 本研究では,プライマリーバイアスの原因となる現象について検討する。 学習の失敗の原因と推測されたトレーニングの初期段階を調べ、一つの根本的な課題は長年の知人:値関数の発散であることを示す。 オーバーインフレーションされたQ値は分布外だけでなく分布内データにも見出され、オプティマイザ運動量によって推進される見えない動作予測の過大評価に関連付けられる。 我々は,大規模な更新率での学習を可能にし,広く使用されているdm_controlスイートで有効性を示し,モデルベースアプローチと競合する課題のドッグタスクにおいて高い性能が得られる,シンプルな単球正規化を採用している。 以上の結果から,初期データの過度な適合による準最適学習の事前説明が疑問視された。

We show that deep reinforcement learning algorithms can retain their ability to learn without resetting network parameters in settings where the number of gradient updates greatly exceeds the number of environment samples by combatting value function divergence. Under large update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the emergence of a primacy bias, in which agents overfit early interactions and downplay later experience, impairing their ability to learn. In this work, we investigate the phenomena leading to the primacy bias. We inspect the early stages of training that were conjectured to cause the failure to learn and find that one fundamental challenge is a long-standing acquaintance: value function divergence. Overinflated Q-values are found not only on out-of-distribution but also in-distribution data and can be linked to overestimation on unseen action prediction propelled by optimizer momentum. We employ a simple unit-ball normalization that enables learning under large update ratios, show its efficacy on the widely used dm_control suite, and obtain strong performance on the challenging dog tasks, competitive with model-based approaches. Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting early data.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# PreSight:都市規模のNeRFプリミティブによる自動運転車の認識向上

PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors ( http://arxiv.org/abs/2403.09079v3 )

ライセンス: Link先を確認
Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao, (参考訳) 自動運転車は周囲をナビゲートし解釈するために認識システムに大きく依存している。 最近のシステムでは大きな進歩があったが、排他的、極端な照明、不慣れな都市部といった条件下では課題が続いている。 これらのシステムとは異なり、人間は環境を知覚する瞬間的な観察にのみ依存するわけではない。 新しい都市をナビゲートする際、人間は徐々に、その後の訪問中にリアルタイムの知覚を補うための予備的なメンタルマップを開発していく。 このような人間的アプローチにインスパイアされたPreSightは、過去のトラバーサルを利用して静的な事前記憶を構築し、後続のナビゲーションにおけるオンライン認識を高める新しいフレームワークである。 提案手法では, 都市規模のニューラルレージアンスフィールドを, 過去の旅行データで最適化し, ニューラル先行データを生成する。 これらの先行は意味論と幾何学的詳細に富み、手動のアノテーションなしで導出され、様々な最先端の知覚モデルをシームレスに拡張し、最小限の計算コストで有効性を向上させることができる。 nuScenesデータセットの実験結果は、様々なオンライン知覚モデルとの高い互換性を示す。 具体的には、HDマップの構築と占有予測タスクの大幅な改善を示し、自動運転システムの新しい認識フレームワークとしての可能性を強調している。 私たちのコードはhttps://github.com/yuantianyuan01/PreSight.com/でリリースされます。

Autonomous vehicles rely extensively on perception systems to navigate and interpret their surroundings. Despite significant advancements in these systems recently, challenges persist under conditions like occlusion, extreme lighting, or in unfamiliar urban areas. Unlike these systems, humans do not solely depend on immediate observations to perceive the environment. In navigating new cities, humans gradually develop a preliminary mental map to supplement real-time perception during subsequent visits. Inspired by this human approach, we introduce a novel framework, PreSight, that leverages past traversals to construct static prior memories, enhancing online perception in later navigations. Our method involves optimizing a city-scale neural radiance field with data from previous journeys to generate neural priors. These priors, rich in semantic and geometric details, are derived without manual annotations and can seamlessly augment various state-of-the-art perception models, improving their efficacy with minimal additional computational cost. Experimental results on the nuScenes dataset demonstrate the framework's high compatibility with diverse online perception models. Specifically, it shows remarkable improvements in HD-map construction and occupancy prediction tasks, highlighting its potential as a new perception framework for autonomous driving systems. Our code will be released at https://github.com/yuantianyuan01/PreSight.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# ConDiSR: Contrastive Disentanglement and Style Regularization for Single Domain Generalization

ConDiSR: Contrastive Disentanglement and Style Regularization for Single Domain Generalization ( http://arxiv.org/abs/2403.09400v2 )

ライセンス: Link先を確認
Aleksandr Matsun, Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub, (参考訳) 医療データは、しばしば分散シフトを示し、標準的な教師付き学習パイプラインを使用してトレーニングされたディープラーニングモデルのテスト時のパフォーマンス劣化を引き起こす。 この課題は、単一ドメイン一般化(SDG)のサブフィールドであるドメイン一般化(DG)の分野で解決されている。 既存のアンタングルメントベースのSDG法は、セグメンテーションマスクに埋め込まれた構造情報に大きく依存しているが、分類ラベルはそのような密集した情報を提供していない。 本研究は,チャネルワイドのコントラスト的絡み合いを利用した医用画像分類のための新しいSDG手法を提案する。 さらに、異なるスタイルと構造的特徴表現の抽出を保証するために、再構築ベースのスタイル正規化によって強化されている。 本手法は多心組織像分類の複雑な課題について検討し,SOTA (State-of-the-art) SDGベースラインと比較した。 以上の結果から,本手法は平均精度1%の誤差でSOTAを上回り,より安定した性能を示した。 本研究は,分類タスクの文脈におけるSDGフレームワークの探索の重要性と課題を明らかにする。 コードはhttps://github.com/BioMedIA-MBzuAI/ConDiSRで公開されている。

Medical data often exhibits distribution shifts, which cause test-time performance degradation for deep learning models trained using standard supervised learning pipelines. This challenge is addressed in the field of Domain Generalization (DG) with the sub-field of Single Domain Generalization (SDG) being specifically interesting due to the privacy- or logistics-related issues often associated with medical data. Existing disentanglement-based SDG methods heavily rely on structural information embedded in segmentation masks, however classification labels do not provide such dense information. This work introduces a novel SDG method aimed at medical image classification that leverages channel-wise contrastive disentanglement. It is further enhanced with reconstruction-based style regularization to ensure extraction of distinct style and structure feature representations. We evaluate our method on the complex task of multicenter histopathology image classification, comparing it against state-of-the-art (SOTA) SDG baselines. Results demonstrate that our method surpasses the SOTA by a margin of 1% in average accuracy while also showing more stable performance. This study highlights the importance and challenges of exploring SDG frameworks in the context of the classification task. The code is publicly available at https://github.com/BioMedIA-MBZUAI/ConDiSR
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# エタインバージョン:拡散に基づく実画像編集のための最適エタ関数の設計

Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing ( http://arxiv.org/abs/2403.09468v2 )

ライセンス: Link先を確認
Wonjun Kang, Kevin Galim, Hyung Il Koo, (参考訳) 拡散モデルはテキスト誘導画像生成の領域において顕著な成功を収め、最近ではテキスト誘導画像編集において顕著な成功を収めている。 実際の画像を編集するための一般的に採用されている戦略は、拡散過程を反転させて元の画像のノイズ表現を取得し、所望の編集を達成するためにデノライズされる。 しかし、現在の拡散反転法は、しばしば特定のテキストプロンプトに忠実で、ソース画像によく似ている編集を生成するのに苦労する。 これらの制約を克服するために, DDIMサンプリング式における$\eta$の役割の理論的解析を基礎とした, 実画像編集のための新規かつ適応的な拡散反転手法を提案する。 時間および地域依存の$\eta$関数で普遍拡散反転法を設計することにより、編集範囲を柔軟に制御できる。 定量的および定性的評価の包括的シリーズを通じて,近年の手法との比較を行い,本手法の優位性を実証した。 提案手法は,新しいベンチマークをフィールドに設定するだけでなく,既存の戦略を著しく上回っている。

Diffusion models have achieved remarkable success in the domain of text-guided image generation and, more recently, in text-guided image editing. A commonly adopted strategy for editing real images involves inverting the diffusion process to obtain a noisy representation of the original image, which is then denoised to achieve the desired edits. However, current methods for diffusion inversion often struggle to produce edits that are both faithful to the specified text prompt and closely resemble the source image. To overcome these limitations, we introduce a novel and adaptable diffusion inversion technique for real image editing, which is grounded in a theoretical analysis of the role of $\eta$ in the DDIM sampling equation for enhanced editability. By designing a universal diffusion inversion method with a time- and region-dependent $\eta$ function, we enable flexible control over the editing extent. Through a comprehensive series of quantitative and qualitative assessments, involving a comparison with a broad array of recent methods, we demonstrate the superiority of our approach. Our method not only sets a new benchmark in the field but also significantly outperforms existing strategies.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# 目が閉じて安全:画像からテキストへの変換によるマルチモーダルLCMの保護

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation ( http://arxiv.org/abs/2403.09572v3 )

ライセンス: Link先を確認
Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang, (参考訳) マルチモーダルな大言語モデル (MLLM) は印象的な推論能力を示している。 しかし、彼らはLLMの前任者よりもジェイルブレイク攻撃に弱い。 安全でない応答を検出できるが,画像特徴の導入により,MLLMにおける予め整列されたLLMの安全性機構が容易に回避できることが観察された。 堅牢なMLLMを構築するために、我々は、MLLMの固有の安全意識を生かし、安全でない画像をテキストに適応的に変換して安全応答を生成し、MLLMにおける予め整列されたLCMの本質的な安全性メカニズムを活性化する新しいトレーニング不要な保護手法ECSO(Eyes Closed, Safety On)を提案する。 最先端(SoTA)の5つのMLLMの実験では、ECSOはモデルの安全性を大幅に向上する(例えば、MM-SafetyBench(SD+OCR)と71.3%のVLSafeとLLaVA-1.5-7B)。 さらに,人間の介入なしにMLLMアライメントのための教師付きファインタニング(SFT)データを生成するために,ECSOをデータエンジンとして使用できることを示す。

Multimodal large language models (MLLMs) have shown impressive reasoning abilities. However, they are also more vulnerable to jailbreak attacks than their LLM predecessors. Although still capable of detecting the unsafe responses, we observe that safety mechanisms of the pre-aligned LLMs in MLLMs can be easily bypassed with the introduction of image features. To construct robust MLLMs, we propose ECSO (Eyes Closed, Safety On), a novel training-free protecting approach that exploits the inherent safety awareness of MLLMs, and generates safer responses via adaptively transforming unsafe images into texts to activate the intrinsic safety mechanism of pre-aligned LLMs in MLLMs. Experiments on five state-of-the-art (SoTA) MLLMs demonstrate that ECSO enhances model safety significantly (e.g.,, 37.6% improvement on the MM-SafetyBench (SD+OCR) and 71.3% on VLSafe with LLaVA-1.5-7B), while consistently maintaining utility results on common MLLM benchmarks. Furthermore, we show that ECSO can be used as a data engine to generate supervised-finetuning (SFT) data for MLLM alignment without extra human intervention.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# エキスパートアノテーションによる医用マルチモーダルコントラスト学習の改善

Improving Medical Multi-modal Contrastive Learning with Expert Annotations ( http://arxiv.org/abs/2403.10153v3 )

ライセンス: Link先を確認
Yogesh Kumar, Pekka Marttinen, (参考訳) そこで我々は,CLIPモデルの強化版であるeCLIPを紹介した。 対照的なマルチモーダルな医療画像分析において、特にデータ不足と"モダリティギャップ" -- 表現の質を低下させ、モダリティ間の相互運用性を損なうような、画像とテキストの埋め込みとの大きな相違 -- に対処する。 eCLIPは、ヒートマッププロセッサを統合し、ミックスアップ拡張を利用して、不足する専門家アノテーションを効率的に活用することで、モデルの学習効率を向上する。 eCLIPは、コアアーキテクチャの変更を必要とせずに、CLIPのあらゆる変種に適用できるように設計されている。 ゼロショット推論、線形探索、クロスモーダル検索、凍結したLarge Language Modelを用いた放射線学レポートの検索拡張生成(RAG)など、様々なタスクの詳細な評価を通じて、eCLIPは埋め込み品質を一貫した改善を示す。 その結果, 医用画像領域における高次マルチモーダル分析のために, 高品質なアノテーションを活用するeCLIPの能力が確認された。

We introduce eCLIP, an enhanced version of the CLIP model that integrates expert annotations in the form of radiologist eye-gaze heatmaps. It tackles key challenges in contrastive multi-modal medical imaging analysis, notably data scarcity and the "modality gap" -- a significant disparity between image and text embeddings that diminishes the quality of representations and hampers cross-modal interoperability. eCLIP integrates a heatmap processor and leverages mixup augmentation to efficiently utilize the scarce expert annotations, thus boosting the model's learning effectiveness. eCLIP is designed to be generally applicable to any variant of CLIP without requiring any modifications of the core architecture. Through detailed evaluations across several tasks, including zero-shot inference, linear probing, cross-modal retrieval, and Retrieval Augmented Generation (RAG) of radiology reports using a frozen Large Language Model, eCLIP showcases consistent improvements in embedding quality. The outcomes reveal enhanced alignment and uniformity, affirming eCLIP's capability to harness high-quality annotations for enriched multi-modal analysis in the medical imaging domain.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# 静止画をダイナミックビデオに変える「Animate Your Motion」

Animate Your Motion: Turning Still Images into Dynamic Videos ( http://arxiv.org/abs/2403.10179v2 )

ライセンス: Link先を確認
Mingxiao Li, Bo Wan, Marie-Francine Moens, Tinne Tuytelaars, (参考訳) 近年、拡散モデルはテキスト・ビデオ生成において顕著な進歩を遂げており、ユーザの意図をより正確に反映するために、ビデオ出力の制御を強化しようと試みている。 従来の取り組みは主に、画像や深度マップのようなセマンティックな手がかりや、スケッチやオブジェクト境界ボックスの移動といったモーションベースの条件の採用に重点を置いている。 セマンティックな入力はリッチなシーンコンテキストを提供するが、詳細な動きの特異性は欠く; 逆に、モーションインプットは正確な軌跡情報を提供するが、より広いセマンティックな物語を見逃す。 図1に示すように、ビデオ生成のための拡散モデルにおいて、セマンティックキューとモーションキューの両方を初めて統合する。 この目的のために,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介した。 認識された動作条件モジュールを組み込み、シーン条件を統合する様々なアプローチを調査し、異なるモーダル間のシナジーを促進する。 モデルトレーニングでは、2つのモードの条件を分離し、2段階のトレーニングパイプラインを導入します。 実験により,映像品質,動作精度,セマンティックコヒーレンスを著しく向上させることが示された。

In recent years, diffusion models have made remarkable strides in text-to-video generation, sparking a quest for enhanced control over video outputs to more accurately reflect user intentions. Traditional efforts predominantly focus on employing either semantic cues, like images or depth maps, or motion-based conditions, like moving sketches or object bounding boxes. Semantic inputs offer a rich scene context but lack detailed motion specificity; conversely, motion inputs provide precise trajectory information but miss the broader semantic narrative. For the first time, we integrate both semantic and motion cues within a diffusion model for video generation, as demonstrated in Fig 1. To this end, we introduce the Scene and Motion Conditional Diffusion (SMCD), a novel methodology for managing multimodal inputs. It incorporates a recognized motion conditioning module and investigates various approaches to integrate scene conditions, promoting synergy between different modalities. For model training, we separate the conditions for the two modalities, introducing a two-stage training pipeline. Experimental results demonstrate that our design significantly enhances video quality, motion precision, and semantic coherence.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# タスク難易度に基づく拡散モデルの学習カリキュラム

Denoising Task Difficulty-based Curriculum for Training Diffusion Models ( http://arxiv.org/abs/2403.10348v2 )

ライセンス: Link先を確認
Jin-Young Kim, Hyojun Go, Soonwoo Kwon, Hyun-Gyoon Kim, (参考訳) 拡散に基づく生成モデルは、生成モデリングの領域において強力なツールとして登場した。 様々な時間経過と騒音レベルを横断する認知度に関する広範な研究にもかかわらず、認知度タスクの相対的困難に関する紛争が続いている。 様々な研究が、より低いタイムステップはより困難なタスクをもたらすと主張する一方で、より高いタイムステップはより困難であると主張する者もいる。 この対立に対処するため,本研究では,時間経過間の連続確率分布間の収束挙動と相対エントロピーの変化に着目し,タスクの難易度を総合的に検討した。 以上の結果から, 早期の認知障害は, 緩やかな収束と高い相対エントロピーを特徴とする課題を呈し, より低い時間でのタスクの難易度の増加が示唆された。 本研究は,これらの観察に基づいて,拡散モデルの学習プロセスを強化するため,カリキュラム学習からの学習方法を提案する。 時間ステップやノイズレベルをクラスタに整理し,より難易度の高いトレーニングモデルを構築することにより,オーダーアウェアなトレーニング体制の促進と,より容易なタスクからより難しいタスクへと進むこと,これにより,すべてのタイムステップで同時に拡散モデルのトレーニングを行う従来のアプローチから逸脱することが可能になる。 提案手法は,カリキュラム学習の利点を活用しつつ,既存の拡散学習技術の改良と直交性を維持しながら,性能の向上と収束の高速化につながる。 非条件,クラス条件,テキスト・ツー・イメージ生成など,画像生成タスクの総合的な実験を通じて,これらの利点を検証する。

Diffusion-based generative models have emerged as powerful tools in the realm of generative modeling. Despite extensive research on denoising across various timesteps and noise levels, a conflict persists regarding the relative difficulties of the denoising tasks. While various studies argue that lower timesteps present more challenging tasks, others contend that higher timesteps are more difficult. To address this conflict, our study undertakes a comprehensive examination of task difficulties, focusing on convergence behavior and changes in relative entropy between consecutive probability distributions across timesteps. Our observational study reveals that denoising at earlier timesteps poses challenges characterized by slower convergence and higher relative entropy, indicating increased task difficulty at these lower timesteps. Building on these observations, we introduce an easy-to-hard learning scheme, drawing from curriculum learning, to enhance the training process of diffusion models. By organizing timesteps or noise levels into clusters and training models with ascending orders of difficulty, we facilitate an order-aware training regime, progressing from easier to harder denoising tasks, thereby deviating from the conventional approach of training diffusion models simultaneously across all timesteps. Our approach leads to improved performance and faster convergence by leveraging benefits of curriculum learning, while maintaining orthogonality with existing improvements in diffusion training techniques. We validate these advantages through comprehensive experiments in image generation tasks, including unconditional, class-conditional, and text-to-image generation.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# ソーシャルメディアメッセージングにおける潜在テーマの発見--LLMを統合したマシン・イン・ザ・ループアプローチ

Discovering Latent Themes in Social Media Messaging: A Machine-in-the-Loop Approach Integrating LLMs ( http://arxiv.org/abs/2403.10707v2 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser, (参考訳) ソーシャルメディアコンテンツのテーマをグラッピングすることは、世論や行動に影響を与える物語を理解するための鍵となる。 テーマ分析は、しばしば最も広いパターンのみを捉え、「予防接種に対する公的な感情」や「気候政策を取り巻く政治談話」といった、具体的で実行可能なテーマについて深い洞察を与える、伝統的なトピックレベルの分析に留まらない。 本稿では,ソーシャルメディアメッセージングにおける潜在テーマを明らかにするための新しいアプローチを提案する。 従来のトピックレベルの分析の限界を認識して、よりきめ細かなテーマ中心の探索の必要性を強調する。 伝統的なテーマ発見手法は、通常、手動のプロセスと人間のループへのアプローチを含む。 価値はあるものの、これらの手法は時間とコストの観点からスケーラビリティ、一貫性、リソース強度の課題に直面します。 これらの課題に対処するため,我々はLarge Language Models (LLMs) の高度な機能を活用するマシン・イン・ザ・ループアプローチを提案する。 当社のアプローチを実証するために,気候論争やワクチン論争といった論争的な話題に我々の枠組みを適用した。 1)Facebook広告21kの気候キャンペーンデータセットと、(2)Facebook広告9kの新型コロナウイルスワクチンキャンペーンデータセットである。 定量的および定性的な分析により,本手法はベースラインよりも精度が高く,解釈可能な結果をもたらすことが示された。 本研究の結果は,潜在テーマを明らかにする上でのアプローチの有効性を実証するだけでなく,ソーシャルメディアの文脈において,これらのテーマが階層的ターゲットにどのように適合しているかを示すものである。 さらに、私たちの仕事はソーシャルメディアのダイナミックな性質に光を当て、現実の出来事に対するメッセージのテーマ的焦点の変化を明らかにします。

Grasping the themes of social media content is key to understanding the narratives that influence public opinion and behavior. The thematic analysis goes beyond traditional topic-level analysis, which often captures only the broadest patterns, providing deeper insights into specific and actionable themes such as "public sentiment towards vaccination", "political discourse surrounding climate policies," etc. In this paper, we introduce a novel approach to uncovering latent themes in social media messaging. Recognizing the limitations of the traditional topic-level analysis, which tends to capture only overarching patterns, this study emphasizes the need for a finer-grained, theme-focused exploration. Traditional theme discovery methods typically involve manual processes and a human-in-the-loop approach. While valuable, these methods face challenges in scalability, consistency, and resource intensity in terms of time and cost. To address these challenges, we propose a machine-in-the-loop approach that leverages the advanced capabilities of Large Language Models (LLMs). To demonstrate our approach, we apply our framework to contentious topics, such as climate debate and vaccine debate. We use two publicly available datasets: (1) the climate campaigns dataset of 21k Facebook ads and (2) the COVID-19 vaccine campaigns dataset of 9k Facebook ads. Our quantitative and qualitative analysis shows that our methodology yields more accurate and interpretable results compared to the baselines. Our results not only demonstrate the effectiveness of our approach in uncovering latent themes but also illuminate how these themes are tailored for demographic targeting in social media contexts. Additionally, our work sheds light on the dynamic nature of social media, revealing the shifts in the thematic focus of messaging in response to real-world events.
翻訳日:2024-07-17 01:35:33 公開日:2024-07-15
# SQ-LLaVA:大規模視覚言語支援のためのセルフクエスト

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant ( http://arxiv.org/abs/2403.11299v2 )

ライセンス: Link先を確認
Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao, (参考訳) 近年の視覚言語モデルの進歩は、視覚的命令チューニングによる広範囲なタスクの顕著な一般化を示している。 しかし、事前訓練されたビジョンエンコーダと大規模言語モデル(LLM)のギャップを埋めることは、ネットワーク全体のボトルネックとなる。 クロスモーダルアライメントを改善するために、既存の研究は通常、より広い範囲の視覚タスクをカバーする視覚的インストラクションデータから質問応答モデルの微調整を行う。 本稿ではまず,視覚的インストラクションデータの中で見過ごされる状況を利用して,高品質な質問を自己指導する「学習」を訓練する。 本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示し、より高度な一般化された視覚的理解のレベルを示す。 さらに、高品質な命令データに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能が向上している。 この改善は、様々な文脈における視覚的内容のより深く、よりニュアンスな理解を達成するための、セルフクエスト技術の有効性を強調している。

Recent advances in vision-language models have shown notable generalization in broad tasks through visual instruction tuning. However, bridging the gap between the pre-trained vision encoder and the large language models (LLMs) becomes the whole network's bottleneck. To improve cross-modality alignment, existing works usually consider more visual instruction data covering a broader range of vision tasks to fine-tune the model for question-answering, which, however, is costly to obtain and has not thoroughly explored the rich contextual information contained in images. This paper first attempts to harness the overlooked context within visual instruction data, training the model to self-supervised "learning" how to ask high-quality questions. In this way, we introduce a novel framework named SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant. SQ-LLaVA exhibits proficiency in generating flexible and meaningful image-related questions while analyzing the visual clue and prior language knowledge, signifying an advanced level of generalized visual understanding. Moreover, fine-tuning SQ-LLaVA on higher-quality instruction data shows a performance improvement compared with traditional visual-instruction tuning methods. This improvement highlights the efficacy of self-questioning techniques in achieving a deeper and more nuanced comprehension of visual content across various contexts.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# VideoAgent: ビデオ理解のためのメモリ拡張マルチモーダルエージェント

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding ( http://arxiv.org/abs/2403.11481v2 )

ライセンス: Link先を確認
Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li, (参考訳) 本稿では,複数の基礎モデル(大規模言語モデルと視覚言語モデル)を新しい統一記憶機構と組み合わせることで,ビデオ理解の難しさ,特に長大なビデオにおける長期的時間的関係の把握にどう取り組むかを検討する。 特に、提案されているマルチモーダルエージェント VideoAgent: 1) ビデオの時間的事象記述とオブジェクト中心追跡状態の両方を格納するための構造化メモリを構築する。 2) インプットタスククエリでは,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと他の視覚的基礎モデルを用いて対話的にタスクを解決し,LDMのゼロショットツール使用能力を活用している。 VideoAgentは、いくつかの長距離ビデオ理解ベンチマークで印象的なパフォーマンスを示し、ベースライン上でNExT-QAが6.6%、EgoSchemaが26.0%上昇し、オープンソースのモデルとGemini 1.5 Proを含むプライベートなモデルとのギャップを埋める。

We explore how reconciling several foundation models (large language models and vision-language models) with a novel unified memory mechanism could tackle the challenging video understanding problem, especially capturing the long-term temporal relations in lengthy videos. In particular, the proposed multimodal agent VideoAgent: 1) constructs a structured memory to store both the generic temporal event descriptions and object-centric tracking states of the video; 2) given an input task query, it employs tools including video segment localization and object memory querying along with other visual foundation models to interactively solve the task, utilizing the zero-shot tool-use ability of LLMs. VideoAgent demonstrates impressive performances on several long-horizon video understanding benchmarks, an average increase of 6.6% on NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between open-sourced models and private counterparts including Gemini 1.5 Pro.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# DreamMotion:ゼロショットビデオ編集のための時空間自己相似スコア蒸留

DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing ( http://arxiv.org/abs/2403.12002v2 )

ライセンス: Link先を確認
Hyeonho Jeong, Jinho Chang, Geon Yeong Park, Jong Chul Ye, (参考訳) テキスト駆動拡散に基づくビデオ編集は、実際の動きを確立するという、画像編集の文献で遭遇しない独特な課題を提示する。 既存のビデオ編集手法とは異なり,本研究では,通常の逆拡散過程を回避し,すでに自然な動きを示すビデオから最適化を開始するために,スコア蒸留サンプリングに焦点を当てる。 分析の結果, ビデオスコア蒸留は, ターゲットテキストで示される新しいコンテンツを効果的に導入できる一方で, 重要な構造や動きのずれを引き起こす可能性があることがわかった。 これに対抗するために,本研究では,原ビデオと編集ビデオの時空間自己相似性をスコア蒸留中にマッチングすることを提案する。 スコア蒸留の応用により,本手法はモデル非依存であり,カスケードおよび非カスケードビデオ拡散フレームワークにも適用可能である。 先行手法との比較により,従来の構造と動きを正確に保ちながら外観を変化させる上で,その優位性を示す。

Text-driven diffusion-based video editing presents a unique challenge not encountered in image editing literature: establishing real-world motion. Unlike existing video editing approaches, here we focus on score distillation sampling to circumvent the standard reverse diffusion process and initiate optimization from videos that already exhibit natural motion. Our analysis reveals that while video score distillation can effectively introduce new content indicated by target text, it can also cause significant structure and motion deviation. To counteract this, we propose to match space-time self-similarities of the original video and the edited video during the score distillation. Thanks to the use of score distillation, our approach is model-agnostic, which can be applied for both cascaded and non-cascaded video diffusion frameworks. Through extensive comparisons with leading methods, our approach demonstrates its superiority in altering appearances while accurately preserving the original structure and motion.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# 学習可能なプロンプトを用いたテキスト・画像拡散モデルにおける望ましくない概念の除去

Removing Undesirable Concepts in Text-to-Image Diffusion Models with Learnable Prompts ( http://arxiv.org/abs/2403.12326v2 )

ライセンス: Link先を確認
Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung, (参考訳) 拡散モデルは、テキスト記述から視覚的に印象的なコンテンツを生成する際、顕著な能力を示した。 しかし、これらのモデルは膨大なインターネットデータに基づいて訓練されており、その多くは機密性のあるコンテンツ、著作権のある素材、非倫理的または有害な概念などの望ましくない要素を含んでいる。 したがって、高品質なコンテンツを生成すること以外にも、これらのモデルがこれらの望ましくない要素を伝播しないようにすることが不可欠である。 そこで本研究では,学習可能なプロンプトをクロスアテンションモジュールに組み込むことにより,テキスト・画像拡散モデルから望ましくない概念を除去する手法を提案する。 この学習可能なプロンプトは追加のメモリとして機能し、望ましくない概念の知識を取り込み、モデルパラメータと対応するテキスト入力への依存を減らす。 この知識を即座に伝達することにより、望ましくない概念の消去はより安定し、他の概念に最小限の負の影響を与える。 本研究では,本手法の安定拡散モデルにおける有効性を示すとともに,非関係要素を保存しつつ,望ましくないコンテンツを除去する最先端の消去法よりも優れていることを示す。

Diffusion models have shown remarkable capability in generating visually impressive content from textual descriptions. However, these models are trained on vast internet data, much of which contains undesirable elements such as sensitive content, copyrighted material, and unethical or harmful concepts. Therefore, beyond generating high-quality content, it is crucial to ensure these models do not propagate these undesirable elements. To address this issue, we propose a novel method to remove undesirable concepts from text-to-image diffusion models by incorporating a learnable prompt into the cross-attention module. This learnable prompt acts as additional memory, capturing the knowledge of undesirable concepts and reducing their dependency on the model parameters and corresponding textual inputs. By transferring this knowledge to the prompt, erasing undesirable concepts becomes more stable and has minimal negative impact on other concepts. We demonstrate the effectiveness of our method on the Stable Diffusion model, showcasing its superiority over state-of-the-art erasure methods in removing undesirable content while preserving unrelated elements.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# PCT:マルチカメラBEVセグメンテーションのためのパースペクティブキュートレーニングフレームワーク

PCT: Perspective Cue Training Framework for Multi-Camera BEV Segmentation ( http://arxiv.org/abs/2403.12530v2 )

ライセンス: Link先を確認
Haruya Ishikawa, Takumi Iida, Yoshinori Konishi, Yoshimitsu Aoki, (参考訳) 鳥眼ビュー(BEV)セグメンテーションのためのアノテーションの生成は、シーンの複雑さと手作業によるアノテーションのコストが高いため、大きな課題となる。 本研究では、利用可能なラベルなしデータの豊富さを活用することで、これらの課題に対処する。 本研究では,大規模なストリートビューデータセットでトレーニングされた公開セマンティックセグメンテーションモデルを用いて,ラベルのない視点画像から生成された擬似ラベルを利用する新しいトレーニングフレームワークであるパースペクティブキュートレーニング(PCT)フレームワークを提案する。 PCTは、BEVセグメンテーションヘッドと共有される画像エンコーダにビュービュータスクヘッドを適用し、生成した擬似ラベルでトレーニングされるラベルなしデータを効果的に活用する。 ほぼ全てのカメラベースのBEVセグメンテーションアーキテクチャに画像エンコーダが存在するため、PCTは柔軟であり、既存のBEVアーキテクチャにも適用可能である。 PCTはラベルのないデータが利用できる様々な設定に適用できる。 本稿では,半教師付き学習(SSL)と教師なしドメイン適応(UDA)にPCTを適用した。 さらに,カメラドロップアウト(CamDrop)による強い入力摂動と,BEV機能ドロップアウト(BFD)による特徴摂動を導入する。 私たちの包括的なアプローチはシンプルで柔軟なものですが、SSLやUDAのさまざまなベースラインよりも大幅に改善されています。

Generating annotations for bird's-eye-view (BEV) segmentation presents significant challenges due to the scenes' complexity and the high manual annotation cost. In this work, we address these challenges by leveraging the abundance of unlabeled data available. We propose the Perspective Cue Training (PCT) framework, a novel training framework that utilizes pseudo-labels generated from unlabeled perspective images using publicly available semantic segmentation models trained on large street-view datasets. PCT applies a perspective view task head to the image encoder shared with the BEV segmentation head, effectively utilizing the unlabeled data to be trained with the generated pseudo-labels. Since image encoders are present in nearly all camera-based BEV segmentation architectures, PCT is flexible and applicable to various existing BEV architectures. PCT can be applied to various settings where unlabeled data is available. In this paper, we applied PCT for semi-supervised learning (SSL) and unsupervised domain adaptation (UDA). Additionally, we introduce strong input perturbation through Camera Dropout (CamDrop) and feature perturbation via BEV Feature Dropout (BFD), which are crucial for enhancing SSL capabilities using our teacher-student framework. Our comprehensive approach is simple and flexible but yields significant improvements over various baselines for SSL and UDA, achieving competitive performances even against the current state-of-the-art.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# 一度だけサンプル: 自己協力的拡散GANによるワンステップテキスト・画像合成

You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs ( http://arxiv.org/abs/2403.12931v4 )

ライセンス: Link先を確認
Yihong Luo, Xiaolong Chen, Xinghua Qu, Jing Tang, (参考訳) 高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであるYOSOを紹介する。 YOSOは拡散過程をGANと統合し、2つの世界のベストを達成する。 具体的には、デノナイジングジェネレータ自体による分布を円滑にし、自己協調学習を行う。 提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。 さらに,本手法は,LoRAファインチューニングにおいても,高品質なワンステップテキスト・ツー・イメージ合成を実現するために,事前学習したテキスト・ツー・イメージ拡散を微調整できることを示す。 特に、512の解像度で訓練された1ステップで画像を生成できる最初の拡散トランスフォーマーを提供する。 私たちのコードはhttps://github.com/Luo-Yihong/YOSOで提供されます。

We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. YOSO integrates the diffusion process with GANs to achieve the best of two worlds. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without extra explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# 連続検出における記憶ネットワークによる破滅的偽造防止

Preventing Catastrophic Forgetting through Memory Networks in Continuous Detection ( http://arxiv.org/abs/2403.14797v2 )

ライセンス: Link先を確認
Gaurav Bhatt, James Ross, Leonid Sigal, (参考訳) 現代の事前訓練されたアーキテクチャは、新しいタスクを継続的に微調整しながら、以前の情報を維持するのに苦労している。 連続的な分類の顕著な進歩にもかかわらず、検出やセグメンテーションのような複雑な視覚タスク用に設計されたシステムは、良好な性能を達成するのに苦戦している。 本研究では,メモリベースの検出トランスフォーマアーキテクチャを導入し,事前学習したDETR型検出器を新しいタスクに適用し,従来のタスクからの知識を保存した。 本稿では,メモリ単位からの効率的な情報検索のための新しい局所化クエリ関数を提案する。 さらに、バックグラウンドレグレゲーションと呼ばれる連続検出における根本的な課題を同定する。 これは、過去のタスクからのオブジェクトカテゴリが、ラベルなしで、潜在的に将来のタスクで再び現れて、暗黙的にバックグラウンドとして扱われるときに発生する。 これは連続検出やセグメンテーションでは避けられない問題である。 連続最適化技術の導入は、この課題に効果的に取り組む。 最後に,提案システムの性能を連続検出ベンチマークで評価し,提案手法が既存の最先端技術よりも優れていることを示し,MS-COCOとPASCAL-VOCを連続検出タスクで5-7%改善した。

Modern pre-trained architectures struggle to retain previous information while undergoing continuous fine-tuning on new tasks. Despite notable progress in continual classification, systems designed for complex vision tasks such as detection or segmentation still struggle to attain satisfactory performance. In this work, we introduce a memory-based detection transformer architecture to adapt a pre-trained DETR-style detector to new tasks while preserving knowledge from previous tasks. We propose a novel localized query function for efficient information retrieval from memory units, aiming to minimize forgetting. Furthermore, we identify a fundamental challenge in continual detection referred to as background relegation. This arises when object categories from earlier tasks reappear in future tasks, potentially without labels, leading them to be implicitly treated as background. This is an inevitable issue in continual detection or segmentation. The introduced continual optimization technique effectively tackles this challenge. Finally, we assess the performance of our proposed system on continual detection benchmarks and demonstrate that our approach surpasses the performance of existing state-of-the-art resulting in 5-7% improvements on MS-COCO and PASCAL-VOC on the task of continual detection.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# 量子近似最適化による非構造探索の深さスケーリング

Depth scaling of unstructured search via quantum approximate optimization ( http://arxiv.org/abs/2403.15540v2 )

ライセンス: Link先を確認
Ernesto Campos, Daniil Rabinovich, Alexey Uvarov, (参考訳) 変分量子アルゴリズムは、現在の量子計算のデファクトモデルとなっている。 このようなアルゴリズムの顕著な例である量子近似最適化アルゴリズム(QAOA)は、もともと組合せ最適化タスクのために設計されたものであるが、他の様々な問題に対して成功したことが示されている。 しかし、これらの問題の多くは最適回路深さが不明である。 そのような問題の1つは、特定のビット文字列を見つけること、または同等に、ターゲット状態と高い重なり合う状態を作成することで構成される非構造化探索である。 このような問題に対して最適なQAOA深さをバウンドするには、その既知の解を連続時間量子ウォーク(CTQW)で構築する。 我々はCTQWを用いてQAOAシークエンスを復元し、ターゲット状態とほぼ完全に重なる状態を作成するのに必要なクエリ複雑性(回路深さ)を束縛するために、最近のトロッター公式理論の進歩を利用する。 得られた複雑性はグロバーのアルゴリズムの複雑さ$O\left(N^\frac{1}{2}\right)$を超えるが、古典解よりもQAOAの量子的優位性を示す任意の$c>0$に対して$O \left(N^{\frac{1}{2}+c}\right)$よりも小さい。 我々は,最大68量子ビットの数値シミュレーションにより解析的予測を検証し,この結果から,少なくとも多項式係数による散乱CTQWから得られたQAOA層数を過大評価することを示した。

Variational quantum algorithms have become the de facto model for current quantum computations. A prominent example of such algorithms -- the quantum approximate optimization algorithm (QAOA) -- was originally designed for combinatorial optimization tasks, but has been shown to be successful for a variety of other problems. However, for most of these problems the optimal circuit depth remains unknown. One such problem is unstructured search which consists on finding a particular bit string, or equivalently, preparing a state of high overlap with a target state. To bound the optimal QAOA depth for such problem we build on its known solution in a continuous time quantum walk (CTQW). We trotterize a CTQW to recover a QAOA sequence, and employ recent advances on the theory of Trotter formulas to bound the query complexity (circuit depth) needed to prepare a state of almost perfect overlap with the target state. The obtained complexity exceeds the Grover's algorithm complexity $O\left(N^\frac{1}{2}\right)$, but remains smaller than $O \left(N^{\frac{1}{2}+c}\right)$ for any $c>0$, which shows quantum advantage of QAOA over classical solutions. We verify our analytical predictions by numerical simulations of up to 68 qubits, which demonstrate that our result overestimates the number of QAOA layers resulting from a trotterized CTQW by at most a polynomial factor.
翻訳日:2024-07-17 01:25:37 公開日:2024-07-15
# コンシューマIoTトラフィックに関する調査 - セキュリティとプライバシ

A Survey on Consumer IoT Traffic: Security and Privacy ( http://arxiv.org/abs/2403.16149v2 )

ライセンス: Link先を確認
Yan Jia, Yuxin Song, Zihou Liu, Qingyin Tan, Yang Song, Yu Zhang, Zheli Liu, (参考訳) CIoTは日々のアクティビティの利便性を改善しているが、新たなセキュリティとプライバシに関する懸念も導入している。 セキュリティコミュニティが採用する一般的な技術であるネットワークトラフィック分析は、セキュリティとプライバシに関する懸念の調査に広く利用されており、CIoTにも適用されている。 しかし、モバイルアプリやWebサイトなどの他の分野のネットワークトラフィック分析と比較して、CIoTは特別な新しい特徴を示しており、新たな課題や研究機会がもたらされる可能性がある。 本研究では,2018年1月から2023年12月までの期間を対象として,CIoTセキュリティとプライバシドメイン内のトラフィック分析に関する310の論文をレビューした。 当初、我々はCIoTトラフィック分析プロセスを要約し、新たに識別されたCIoTの特徴を強調した。 その後,デバイスフィンガープリント,ユーザ活動推定,悪意のあるトラフィック検出,計測など,既存の研究を応用目的に応じて分類した。 最後に,新たな課題と今後の研究の道を探る。

Although CIoT has improved the convenience of daily activities, it also introduces new security and privacy concerns. Network traffic analysis, a common technique employed by the security community, has been extensively utilized to investigate security and privacy concerns, and it has also been applied to CIoT. However, compared to network traffic analysis in other fields such as mobile apps and websites, CIoT presents special new characteristics, which may introduce new challenges and research opportunities. In this study, we reviewed 310 publications on traffic analysis within the CIoT security and privacy domain, covering the period from January 2018 to December 2023. Initially, we summarized the CIoT traffic analysis process, highlighting the newly identified characteristics of CIoT. Subsequently, we classified existing research according to its application objectives: device fingerprinting, user activity inference, malicious traffic detection, and measurement. Lastly, we explore emerging challenges and potential future research avenues.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# PathoTune: 病理専門医にビジュアルファウンデーションモデルを適用する

PathoTune: Adapting Visual Foundation Model to Pathological Specialists ( http://arxiv.org/abs/2403.16497v2 )

ライセンス: Link先を確認
Jiaxuan Lu, Fang Yan, Xiaofan Zhang, Yue Gao, Shaoting Zhang, (参考訳) 自然画像の理解は、訓練前ファイナチューン時代に向かっているため、病理画像の研究は同時に進化している。 病理基礎モデルの事前訓練に重点を置いているにもかかわらず、下流のタスクに基礎モデルを適応する方法はほとんど調査されていない。 下流適応には、ファンデーション・タスクギャップとタスク・インスタンスギャップという2つの領域ギャップが存在する。 このギャップを軽減するためにPathoTuneを導入する。PathoTuneは、マルチモーダル・プロンプト・チューニングにより、病理モデルや視覚的基礎モデルを病理固有のタスクに効率的に適応するように設計されたフレームワークである。 提案フレームワークは、タスク固有のVisual Promptsとタスク固有のTextual Promptsを活用して、タスクに関連する機能を特定し、インスタンス固有のVisual Promptsを1つの病理画像の特徴を符号化する。 パッチレベルとWSIレベルの複数のデータセットにまたがる結果は、単一モードのプロンプトチューニングアプローチよりも優れたパフォーマンスを示している。 重要なこととして、PathoTuneは、自然な視覚基盤モデルの病理的タスクへの直接的な適応を促進し、単純な線形探索による病理基礎モデルを大幅に上回っている。 コードはhttps://github.com/openmedlab/PathoDuet.comで公開されている。

As natural image understanding moves towards the pretrain-finetune era, research in pathology imaging is concurrently evolving. Despite the predominant focus on pretraining pathological foundation models, how to adapt foundation models to downstream tasks is little explored. For downstream adaptation, we propose the existence of two domain gaps, i.e., the Foundation-Task Gap and the Task-Instance Gap. To mitigate these gaps, we introduce PathoTune, a framework designed to efficiently adapt pathological or even visual foundation models to pathology-specific tasks via multi-modal prompt tuning. The proposed framework leverages Task-specific Visual Prompts and Task-specific Textual Prompts to identify task-relevant features, along with Instance-specific Visual Prompts for encoding single pathological image features. Results across multiple datasets at both patch-level and WSI-level demonstrate its superior performance over single-modality prompt tuning approaches. Significantly, PathoTune facilitates the direct adaptation of natural visual foundation models to pathological tasks, drastically outperforming pathological foundation models with simple linear probing. The code is available at https://github.com/openmedlab/PathoDuet.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# CoDA:重度対応型ビジュアルプロンプトチューニングによるドメイン適応の指導

CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning ( http://arxiv.org/abs/2403.17369v3 )

ライセンス: Link先を確認
Ziyang Gong, Fuhao Li, Yupeng Deng, Deblina Bhattacharjee, Xianzheng Ma, Xiangwei Zhu, Zhenming Ji, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインへのモデルを適応することを目的としている。 悪い場面に適応する場合、既存のUDA手法は指示の欠如によりうまく機能せず、そのモデルがすべての悪い場面で相違点を見落としてしまう。 そこで本研究では,シーンレベルと画像レベルにおいて,これらの相違点を識別,焦点付け,学習するようにモデルに指示するCoDAを提案する。 具体的には、CoDAはChain-of-Domain(CoD)戦略とSeverity-Aware Visual Prompt Tuning(SAVPT)メカニズムで構成される。 CoDは、すべての悪いシーンを、簡単で困難なシーンに分割するためのシーンレベルの指示に焦点を当て、ソースから容易なシーンイメージのドメインに適応するモデルを誘導し、そして、ハードなシーンイメージのドメインに適応させる。 この基盤の上に構築されたSAVPTを用いて、より詳細な画像レベルのインストラクションを掘り下げ、パフォーマンスを向上させる。 SAVPTは、すべての有害なシーンイメージを低重度と高重度に分割する新しいメトリクスの重大度を特徴としている。 次に、Severityは視覚的なプロンプトとアダプタを指示し、モデルアーキテクチャに複雑さを加えることなく、シーン固有の機能ではなく、統一された深刻度機能に集中するようモデルに指示する。 CoDAは、あらゆる悪い場面で広く使用されているベンチマークでSOTAのパフォーマンスを達成する。 特にCoDAは、フォギー・ドライビングとフォギー・チューリッヒのベンチマークで、既存のものよりも4.6%、mIoUが10.3%上回っている。 私たちのコードはhttps://github.com/Cuzyoung/CoDAで利用可能です。

Unsupervised Domain Adaptation (UDA) aims to adapt models from labeled source domains to unlabeled target domains. When adapting to adverse scenes, existing UDA methods fail to perform well due to the lack of instructions, leading their models to overlook discrepancies within all adverse scenes. To tackle this, we propose CoDA which instructs models to distinguish, focus, and learn from these discrepancies at scene and image levels. Specifically, CoDA consists of a Chain-of-Domain (CoD) strategy and a Severity-Aware Visual Prompt Tuning (SAVPT) mechanism. CoD focuses on scene-level instructions to divide all adverse scenes into easy and hard scenes, guiding models to adapt from source to easy domains with easy scene images, and then to hard domains with hard scene images, thereby laying a solid foundation for whole adaptations. Building upon this foundation, we employ SAVPT to dive into more detailed image-level instructions to boost performance. SAVPT features a novel metric Severity that divides all adverse scene images into low-severity and high-severity images. Then Severity directs visual prompts and adapters, instructing models to concentrate on unified severity features instead of scene-specific features, without adding complexity to the model architecture. CoDA achieves SOTA performances on widely-used benchmarks under all adverse scenes. Notably, CoDA outperforms the existing ones by 4.6%, and 10.3% mIoU on the Foggy Driving, and Foggy Zurich benchmarks, respectively. Our code is available at https://github.com/Cuzyoung/CoDA
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# セキュアなアグリゲーションは、メンバーシップ推論攻撃に対してプライベートではない

Secure Aggregation is Not Private Against Membership Inference Attacks ( http://arxiv.org/abs/2403.17775v3 )

ライセンス: Link先を確認
Khac-Hoang Ngo, Johan Östman, Giuseppe Durisi, Alexandre Graell i Amat, (参考訳) セキュアアグリゲーション(SecAgg)は、フェデレーション学習において一般的に使用されるプライバシ強化メカニズムであり、個々の更新の機密性を保護しながら、モデルの更新の集約にのみアクセスすることができる。 SecAggのプライバシ保護機能に関する広範な主張にもかかわらず、そのプライバシに関する公式な分析は欠如しており、そのような推測は正当化されていない。 本稿では、SecAggのプライバシーへの影響を各ローカル更新のローカル差分プライバシ(LDP)メカニズムとして扱うことにより調べる。 本研究では,SecAggのもとでの1回の学習ラウンドにおいて,クライアントが提出したベクタを2つの可能なベクタから識別する単純な攻撃を設計する。 プライバシ監査を行うことで、この攻撃の成功確率を評価し、SecAggが提供するLCP保証を定量化する。 我々の数値結果は、一般的な主張とは対照的に、SecAggは1回のトレーニングラウンドでもメンバーシップ推論攻撃に対して弱いプライバシーを提供します。 実際、更新が高次元である場合、他の独立したローカルアップデートを追加することで、ローカルアップデートを隠すのは難しい。 本研究は,フェデレート学習において,ノイズ注入などの付加的なプライバシ向上機構の必要性を浮き彫りにした。

Secure aggregation (SecAgg) is a commonly-used privacy-enhancing mechanism in federated learning, affording the server access only to the aggregate of model updates while safeguarding the confidentiality of individual updates. Despite widespread claims regarding SecAgg's privacy-preserving capabilities, a formal analysis of its privacy is lacking, making such presumptions unjustified. In this paper, we delve into the privacy implications of SecAgg by treating it as a local differential privacy (LDP) mechanism for each local update. We design a simple attack wherein an adversarial server seeks to discern which update vector a client submitted, out of two possible ones, in a single training round of federated learning under SecAgg. By conducting privacy auditing, we assess the success probability of this attack and quantify the LDP guarantees provided by SecAgg. Our numerical results unveil that, contrary to prevailing claims, SecAgg offers weak privacy against membership inference attacks even in a single training round. Indeed, it is difficult to hide a local update by adding other independent local updates when the updates are of high dimension. Our findings underscore the imperative for additional privacy-enhancing mechanisms, such as noise injection, in federated learning.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# 信仰の信条:モデルメカニズムを見つけるときの回路オーバーラップを超えて行く

Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms ( http://arxiv.org/abs/2403.17806v2 )

ライセンス: Link先を確認
Michael Hanna, Sandro Pezzelle, Yonatan Belinkov, (参考訳) 近年の言語モデル (LM) の解釈可能性に関する多くの研究は、与えられたタスク上でのLMの振る舞いを説明する最小限の計算部分グラフ(英語版)または回路を見つけることを目的とした回路フレームワークを採用している。 ほとんどの研究は、それぞれのエッジに対して因果干渉を独立に行うことによって、どのエッジがLM回路に属するかを決定するが、これはモデルサイズに悪影響を及ぼす。 エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。 本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。 回路は、回路の外側のすべてのモデルエッジがタスクのモデルの性能を変えることなく緩和できるならば忠実である;忠実さは、完全なモデルではなく、学習回路を正当化するものである。 EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。 より一般に、モデルがタスクを解くために使用するメカニズムを比較するために回路を使用する場合、重なりではなく忠実さが測定すべきものであると結論付けている。

Many recent language model (LM) interpretability studies have adopted the circuits framework, which aims to find the minimal computational subgraph, or circuit, that explains LM behavior on a given task. Most studies determine which edges belong in a LM's circuit by performing causal interventions on each edge independently, but this scales poorly with model size. Edge attribution patching (EAP), gradient-based approximation to interventions, has emerged as a scalable but imperfect solution to this problem. In this paper, we introduce a new method - EAP with integrated gradients (EAP-IG) - that aims to better maintain a core property of circuits: faithfulness. A circuit is faithful if all model edges outside the circuit can be ablated without changing the model's performance on the task; faithfulness is what justifies studying circuits, rather than the full model. Our experiments demonstrate that circuits found using EAP are less faithful than those found using EAP-IG, even though both have high node overlap with circuits found previously using causal interventions. We conclude more generally that when using circuits to compare the mechanisms models use to solve tasks, faithfulness, not overlap, is what should be measured.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# Dense Retrievalのためのスケーリング法則

Scaling Laws For Dense Retrieval ( http://arxiv.org/abs/2403.18684v2 )

ライセンス: Link先を確認
Yan Fang, Jingtao Zhan, Qingyao Ai, Jiaxin Mao, Weihang Su, Jia Chen, Yiqun Liu, (参考訳) ニューラルネットワークのスケールアップは、特に言語生成において、幅広いタスクにおいて大きな進歩をもたらした。 従来の研究では、ニューラルネットワークの性能は予測可能なスケーリング法則によく準拠し、トレーニングセットのサイズやモデルサイズなどの要因と相関していた。 この洞察は、特に大規模な実験が資源集約化の度合いを増すにつれて、貴重である。 しかし、このようなスケーリング法則は、検索指標の離散的性質と、検索タスクにおけるトレーニングデータとモデルサイズの間の複雑な関係により、厳密な検索において完全には研究されていない。 本研究では,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを検討する。 そこで本研究では,異なるパラメータで実装し,異なる量の注釈付きデータで訓練した高密度検索モデルを用いて,比較対数類似度を評価指標として使用し,広範な実験を行うことを提案する。 その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。 さらに、アノテーションの品質への影響を評価するために、一般的なデータ拡張手法によるスケーリングについて検討し、予算制約の下で最適なリソース配分戦略を見つけるために、スケーリング法を適用した。 これらの知見は,高密度検索モデルのスケーリング効果の理解に大きく貢献し,今後の研究に有意義なガイダンスを提供すると考えられる。

Scaling up neural models has yielded significant advancements in a wide array of tasks, particularly in language generation. Previous studies have found that the performance of neural models frequently adheres to predictable scaling laws, correlated with factors such as training set size and model size. This insight is invaluable, especially as large-scale experiments grow increasingly resource-intensive. Yet, such scaling law has not been fully explored in dense retrieval due to the discrete nature of retrieval metrics and complex relationships between training data and model sizes in retrieval tasks. In this study, we investigate whether the performance of dense retrieval models follows the scaling law as other neural models. We propose to use contrastive log-likelihood as the evaluation metric and conduct extensive experiments with dense retrieval models implemented with different numbers of parameters and trained with different amounts of annotated data. Results indicate that, under our settings, the performance of dense retrieval models follows a precise power-law scaling related to the model size and the number of annotations. Additionally, we examine scaling with prevalent data augmentation methods to assess the impact of annotation quality, and apply the scaling law to find the best resource allocation strategy under a budget constraint. We believe that these insights will significantly contribute to understanding the scaling effect of dense retrieval models and offer meaningful guidance for future research endeavors.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# データポジショニング攻撃時の数値属性に対するLPPプロトコルのロバスト性について

On the Robustness of LDP Protocols for Numerical Attributes under Data Poisoning Attacks ( http://arxiv.org/abs/2403.19510v3 )

ライセンス: Link先を確認
Xiaoguang Li, Zitao Li, Ninghui Li, Wenhai Sun, (参考訳) 近年の研究では、LDP(ローカルディファレンシャルプライバシ)プロトコルは、LDPの特性を活用して、少数の制御されたローカルクライアントから慎重にデータを送信することで、攻撃者がサーバ上で最終的な見積を操作できるデータ中毒攻撃に対して脆弱であることが示されている。 この脆弱性は、敵対的環境におけるLDPの堅牢性と信頼性に関する懸念を引き起こす。 本稿では,数値特性,すなわち分類周波数オーラクル(CFO)の結合と整合性,分布再構成に対する最新式LDPプロトコルの堅牢性について,系統的に検討する。 攻撃駆動方式を用いてプロトコルのロバスト性を評価し,クロスプロトコール攻撃ゲイン測定のための新しい指標を提案する。 その結果,サーバ設定におけるSquare WaveとCFOベースのプロトコルは,ユーザ設定におけるCFOベースのプロトコルと比較して,攻撃に対してより堅牢であることが示唆された。 また, LDP のセキュリティと設計選択の新たな関連性についても検討した。 ローカルハッシュベースのLDPにおけるハッシュドメインサイズは、ユーティリティに対するよく知られた影響を超えて、プロトコルの堅牢性に大きな影響を及ぼすことがわかった。 さらに,リッチな再構成分布情報を利用したゼロショット攻撃検出を提案する。 実験の結果,既存の手法を大幅に改善し,挑戦的なシナリオにおけるデータ操作を効果的に識別できることがわかった。

Recent studies reveal that local differential privacy (LDP) protocols are vulnerable to data poisoning attacks where an attacker can manipulate the final estimate on the server by leveraging the characteristics of LDP and sending carefully crafted data from a small fraction of controlled local clients. This vulnerability raises concerns regarding the robustness and reliability of LDP in hostile environments. In this paper, we conduct a systematic investigation of the robustness of state-of-the-art LDP protocols for numerical attributes, i.e., categorical frequency oracles (CFOs) with binning and consistency, and distribution reconstruction. We evaluate protocol robustness through an attack-driven approach and propose new metrics for cross-protocol attack gain measurement. The results indicate that Square Wave and CFO-based protocols in the Server setting are more robust against the attack compared to the CFO-based protocols in the User setting. Our evaluation also unfolds new relationships between LDP security and its inherent design choices. We found that the hash domain size in local-hashing-based LDP has a profound impact on protocol robustness beyond the well-known effect on utility. Further, we propose a zero-shot attack detection by leveraging the rich reconstructed distribution information. The experiment show that our detection significantly improves the existing methods and effectively identifies data manipulation in challenging scenarios.
翻訳日:2024-07-17 01:15:36 公開日:2024-07-15
# 関数エッジネットワークモデリング

Functional-Edged Network Modeling ( http://arxiv.org/abs/2404.00218v2 )

ライセンス: Link先を確認
Haijie Xu, Chen Zhang, (参考訳) ノードを関数とみなし、異なる関数間の関係を表現するためにエッジを使用する既存の作業とは対照的である。 エッジが関数データであるネットワークモデリングを対象とし、隣接行列を機能的隣接テンソルに変換し、関数表現専用の追加次元を導入する。 タッカー関数分解は機能的隣接テンソルに使われ、ノード間のコミュニティをさらに考慮するために、基底行列を対称的に正則化する。 さらに, 関数エッジの不規則な観測に対処するため, モデル推論を行い, テンソル完備化問題を解く。 リーマン共役勾配降下法により最適化される。 これらに加えて、関数型エッジネットワークモデルの望ましい性質を示すために、いくつかの定理も導出する。 最後に,本モデルの有効性を,香港とシンガポールのシミュレーションデータと実際のメトロシステムデータを用いて評価した。

Contrasts with existing works which all consider nodes as functions and use edges to represent the relationships between different functions. We target at network modeling whose edges are functional data and transform the adjacency matrix into a functional adjacency tensor, introducing an additional dimension dedicated to function representation. Tucker functional decomposition is used for the functional adjacency tensor, and to further consider the community between nodes, we regularize the basis matrices to be symmetrical. Furthermore, to deal with irregular observations of the functional edges, we conduct model inference to solve a tensor completion problem. It is optimized by a Riemann conjugate gradient descent method. Besides these, we also derive several theorems to show the desirable properties of the functional edged network model. Finally, we evaluate the efficacy of our proposed model using simulation data and real metro system data from Hong Kong and Singapore.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# OmniGS:全方位ガウススプラッティングによる高速放射界再構成

OmniGS: Fast Radiance Field Reconstruction using Omnidirectional Gaussian Splatting ( http://arxiv.org/abs/2404.03202v3 )

ライセンス: Link先を確認
Longwei Li, Huajian Huang, Sai-Kit Yeung, Hui Cheng, (参考訳) 3次元ガウス散乱を利用した光現実的再構成は、様々な領域において有望な可能性を示している。 しかし,現在の3次元ガウス散乱システムは,歪みのない視点像を用いた放射場再構成しかサポートしていない。 本稿では,全方位全方位撮影システムであるOmniGSについて,高速放射野再構成のための全方位画像の活用について述べる。 具体的には,3次元ガウス散乱における球面カメラモデル導関数の理論解析を行う。 導出物によれば、3Dガウスを正方形スクリーン空間に直接配置し、全方位画像レンダリングを行うGPU加速全方位ラスタライザを新たに実装する。 立方体写像の補正や接面近似を必要とせずに全方位放射場の微分可能最適化を実現する。 エゴセントリックおよびローミングのシナリオで実施された大規模な実験により,本手法は全方位画像を用いて最先端の復元品質と高速なレンダリングを実現することを示した。 コードは公開されます。

Photorealistic reconstruction relying on 3D Gaussian Splatting has shown promising potential in various domains. However, the current 3D Gaussian Splatting system only supports radiance field reconstruction using undistorted perspective images. In this paper, we present OmniGS, a novel omnidirectional Gaussian splatting system, to take advantage of omnidirectional images for fast radiance field reconstruction. Specifically, we conduct a theoretical analysis of spherical camera model derivatives in 3D Gaussian Splatting. According to the derivatives, we then implement a new GPU-accelerated omnidirectional rasterizer that directly splats 3D Gaussians onto the equirectangular screen space for omnidirectional image rendering. We realize differentiable optimization of the omnidirectional radiance field without the requirement of cube-map rectification or tangent-plane approximation. Extensive experiments conducted in egocentric and roaming scenarios demonstrate that our method achieves state-of-the-art reconstruction quality and high rendering speed using omnidirectional images. The code will be publicly available.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# 両腕マニピュレーション向上のための複合形状上の拘束6-DoFグラフ生成

Constrained 6-DoF Grasp Generation on Complex Shapes for Improved Dual-Arm Manipulation ( http://arxiv.org/abs/2404.04643v2 )

ライセンス: Link先を確認
Gaurav Singh, Sanket Kalwar, Md Faizal Karim, Bipasha Sen, Nagamanikandan Govindan, Srinath Sridhar, K Madhava Krishna, (参考訳) 物体の特定の領域に合わせたグリップポーズを効果的に生成することは、様々なロボット操作作業、特にデュアルアーム設定において不可欠である。 このシナリオは、局所幾何学の深い理解が必要であり、指定された制約された領域の把握を効率的に行うため、複雑な幾何学が関与しているため、重大な課題となる。 既存のメソッドはテーブルトップ/小さなオブジェクトを含む設定のみを探索し、トレーニングに拡張データセットを必要とし、複雑なオブジェクトのパフォーマンスを制限する。 CGDF(Constrained Grasp Diffusion Fields)は、任意のジオメトリを持つ物体に一般化する拡散型グリップ生成モデルであり、対象領域の密接なグリップを生成する。 CGDFは部分誘導拡散方式を採用しており、大量の制約付きデータセットを明示的にトレーニングすることなく、制約付き把握において高いサンプル効率を得ることができる。 本研究では,解析的指標を用いた定性的・定量的な比較とシミュレーションにおいて,制約のない条件と制約のない条件の両方において,本手法が複雑なオブジェクトの安定な把握(特にデュアルアーム操作設定に有用である)を一般化できることを示す。

Efficiently generating grasp poses tailored to specific regions of an object is vital for various robotic manipulation tasks, especially in a dual-arm setup. This scenario presents a significant challenge due to the complex geometries involved, requiring a deep understanding of the local geometry to generate grasps efficiently on the specified constrained regions. Existing methods only explore settings involving table-top/small objects and require augmented datasets to train, limiting their performance on complex objects. We propose CGDF: Constrained Grasp Diffusion Fields, a diffusion-based grasp generative model that generalizes to objects with arbitrary geometries, as well as generates dense grasps on the target regions. CGDF uses a part-guided diffusion approach that enables it to get high sample efficiency in constrained grasping without explicitly training on massive constraint-augmented datasets. We provide qualitative and quantitative comparisons using analytical metrics and in simulation, in both unconstrained and constrained settings to show that our method can generalize to generate stable grasps on complex objects, especially useful for dual-arm manipulation settings, while existing methods struggle to do so.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# 対数トフォリ数とゲート深さを用いた1量子回転アルゴリズム

Single-qubit rotation algorithm with logarithmic Toffoli count and gate depth ( http://arxiv.org/abs/2404.05618v3 )

ライセンス: Link先を確認
Christoffer Hindlycke, Jan-Åke Larsson, (参考訳) Clifford+Toffoli ゲートセットを用いた単一キュービットに対して、回転 $R_{\theta^\ast}$, $\epsilon$-close を所望の回転 $R_\theta$ に適用するための直接(再帰的でない)アルゴリズムを提案する。 我々のアルゴリズムは固定回転を繰り返すのではなく、直ちに$R_{\theta^\ast}$を適用する。 厳密に1/2$以上の確率で成功し、予想されるトフォリ数対数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線数線

We propose a direct (non-recursive) algorithm for applying a rotation $R_{\theta^\ast}$, $\epsilon$-close to a desired rotation $R_\theta$, to a single qubit using the Clifford+Toffoli gate set. Our algorithm does not rely on repeatedly applying a fixed rotation, but immediately applies $R_{\theta^\ast}$. It succeeds with probability strictly greater than $1/2$, has an expected number of repetitions strictly less than 2, expected Toffoli count logarithmic in $\tfrac{1}{\epsilon}$, and expected gate depth also logarithmic in $\tfrac{1}{\epsilon}$.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# 移動境界を持つ箱内の古典的および量子場理論:動的カシミール効果の数値的研究

Classical and quantum field theory in a box with moving boundaries: A numerical study of the Dynamical Casimir Effect ( http://arxiv.org/abs/2404.06166v2 )

ライセンス: Link先を確認
Alberto García Martín-Caro, Gerardo García-Moreno, Javier Olmedo, Jose M. Sánchez Velázquez, (参考訳) 完全に反射する運動境界を持つ空洞に閉じ込められた平坦な時空における量子スカラー場理論の詳細な記述を示す。 さらに,静的ディリクレ境界条件を持つ音響測定値に対して,時間依存性の設定と場理論の等価性を確立する。 後者の観点から理論の古典的および量子的側面について議論し、任意の境界軌道に適用可能な動的カシミール効果に起因する粒子生成の(摂動的でない)計算のために設計された新しい数値的手法を導入する。 これらの手法の具体例として、1+1次元の無質量場に対する粒子生成を計算する。 特に、我々のアプローチは、大規模フィールドや高次元を含むシナリオまで容易に拡張できる。

We present a detailed description of a quantum scalar field theory within a flat spacetime confined to a cavity with perfectly reflecting moving boundaries. Moreover, we establish an equivalence between this time-dependent setting and a field theory on an acoustic metric with static Dirichlet boundary conditions. We discuss the classical and quantum aspects of the theory from the latter perspective, accompanied by the introduction of novel numerical techniques designed for the (nonperturbative) computation of particle production attributed to the Dynamical Casimir effect, applicable to arbitrary boundary trajectories. As an illustrative example of these methodologies, we compute the particle production for a massless field in 1+1 dimensions. Notably, our approaches readily extend to encompass scenarios involving massive fields and higher dimensions
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# 2022年ACLおよびEMNLP会議におけるデータセットの動向

Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences ( http://arxiv.org/abs/2404.08666v2 )

ライセンス: Link先を確認
Jesse Atuhurra, Hidetaka Kamigaito, (参考訳) 自然言語処理(NLP)はTransformerアーキテクチャの出現以来、大きく成長している。 トランスフォーマーは、事前訓練された大規模言語モデル(PLM)を生んだ。 いくつかのタスクでNLPシステムの性能が大幅に向上した。 NLPシステムは、特定のタスクを達成する上で人間よりも優れている場合もあります。 しかしながら、プレトレーニング時の \emph{better 品質データセットは、タスクに関わらず PLM がより良いパフォーマンスを達成することができるという規範は、依然として残っている。 品質データセットの必要性は、NLP研究者が特定のニーズを満たすために新しいデータセットを作成し続けるきっかけとなった。 例えば、上位2つのNLPカンファレンスであるACLとEMNLPは、2022年に92の論文を受け入れ、新しいデータセットを導入した。 この研究は、これらのデータセットに含まれるトレンドと洞察を明らかにすることを目的としている。 さらに,将来,データセットのキュレーションに関心のある研究者に対して,貴重な提案を行う。

Natural language processing (NLP) has grown significantly since the advent of the Transformer architecture. Transformers have given birth to pre-trained large language models (PLMs). There has been tremendous improvement in the performance of NLP systems across several tasks. NLP systems are on par or, in some cases, better than humans at accomplishing specific tasks. However, it remains the norm that \emph{better quality datasets at the time of pretraining enable PLMs to achieve better performance, regardless of the task.} The need to have quality datasets has prompted NLP researchers to continue creating new datasets to satisfy particular needs. For example, the two top NLP conferences, ACL and EMNLP, accepted ninety-two papers in 2022, introducing new datasets. This work aims to uncover the trends and insights mined within these datasets. Moreover, we provide valuable suggestions to researchers interested in curating datasets in the future.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# オールインワンシミュレーションに基づく推論

All-in-one simulation-based inference ( http://arxiv.org/abs/2404.09636v3 )

ライセンス: Link先を確認
Manuel Gloeckler, Michael Deistler, Christian Weilbach, Frank Wood, Jakob H. Macke, (参考訳) 償却ベイズ推論は、モデルシミュレーションを用いて確率的推論問題を解決するためにニューラルネットワークを訓練し、新たに観測されたデータに対してベイズ推論を迅速に実行できるようにする。 しかし、現在のシミュレーションベースの償却推論手法は、シミュレーションに長けており、非柔軟である: 固定パラメトリック事前、シミュレータ、推論タスクを事前に指定する必要がある。 ここでは、これらの制限を克服する新しい償却推論手法、Simformerを提案する。 トランスフォーマーアーキテクチャで確率的拡散モデルをトレーニングすることにより、Simformerは、現在の最先端のアモート化推論アプローチをベンチマークタスクで上回り、より柔軟になる。関数値パラメータを持つモデルに適用でき、欠落したデータや非構造データで推論シナリオを処理でき、後と後の両方を含むパラメータとデータの結合分布の任意の条件をサンプリングすることができる。 生態学,疫学,神経科学のシミュレータ上でのSimformerの性能と柔軟性を実証し,シミュレーションベースモデルによるベイズ推定に対する新たな可能性と応用領域を開くことを実証した。

Amortized Bayesian inference trains neural networks to solve stochastic inference problems using model simulations, thereby making it possible to rapidly perform Bayesian inference for any newly observed data. However, current simulation-based amortized inference methods are simulation-hungry and inflexible: They require the specification of a fixed parametric prior, simulator, and inference tasks ahead of time. Here, we present a new amortized inference method -- the Simformer -- which overcomes these limitations. By training a probabilistic diffusion model with transformer architectures, the Simformer outperforms current state-of-the-art amortized inference approaches on benchmark tasks and is substantially more flexible: It can be applied to models with function-valued parameters, it can handle inference scenarios with missing or unstructured data, and it can sample arbitrary conditionals of the joint distribution of parameters and data, including both posterior and likelihood. We showcase the performance and flexibility of the Simformer on simulators from ecology, epidemiology, and neuroscience, and demonstrate that it opens up new possibilities and application domains for amortized Bayesian inference on simulation-based models.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# 二重複写のない絡み合いエントロピーの実験的下界

Experimental lower bounds on entanglement entropy without twin copy ( http://arxiv.org/abs/2404.09935v3 )

ライセンス: Link先を確認
Yannick Meurice, (参考訳) 我々は,フォン・ノイマンエンタングルメントエントロピー$S_{A}^{vN}$の対称二部量子系$AB$を,準備状態の基本的測定値を用いて実験的に推定する可能性について議論する。 レードベルク原子の鎖とはしごの公用QuEra施設で実行される正確な対角化とアナログシミュレーションを用いて、不定形地盤状態の実験測定と、実験確率をBドルの半分以上の確率で追跡して得られるShannon entropy $S_AB}^X$を計算した。 S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$ が 1 よりわずかに大きい比例を示す。 我々は、より一般的な状況において、不等式 $S_{A}^{vN}\geq(2S_A^X-S_{AB}^X)$ を持つべきであると主張する。 2S_A^X-S_{AB}^X$は、多くの量子ビットプラットフォームで容易に計算でき、測定誤差の下では一般に堅牢であるように見える。 同様の結果は第二次 R'enyi 絡み合いエントロピーにも見られる。

We discuss the possibility of estimating experimentally the von Neumann entanglement entropy $S_{A}^{vN}$ of a symmetric bi-partite quantum system $AB$ by using the basic measurement counts for a it $single$ copy of a prepared state. Using exact diagonalization and analog simulations performed with the publicly available QuEra facilities for chains and ladders of Rydberg atoms, we calculate the Shannon entropy $S_{AB}^X$ associated with the experimental measurements of adiabatically prepared ground states and the reduced entropy $S_A^X$ obtained by tracing the experimental probabilities over the $B$ half of the system. We show several examples for which, in good approximation, $S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$ with a constant of proportionality slightly larger than one. We argue that one should have the inequality $S_{A}^{vN}\geq(2S_A^X-S_{AB}^X)$ holding in more general circumstances. $2S_A^X-S_{AB}^X$ can be calculated easily for many qubit platforms and appears to be generically robust under measurement errors. Similar results are found for the second order R\'enyi entanglement entropy.
翻訳日:2024-07-17 01:05:49 公開日:2024-07-15
# LLMs-in-the-Loop戦略によるソーシャルメディアメッセージングにおける潜在的論点の解明

Uncovering Latent Arguments in Social Media Messaging by Employing LLMs-in-the-Loop Strategy ( http://arxiv.org/abs/2404.10259v2 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser, (参考訳) ソーシャルメディアの普及により、世論分析の自動化手法として人気が高まっている。 改訂された手法はテキストの分類に適しているが、ソーシャルメディアの議論のダイナミックな性質は、焦点の連続的なシフトにより、これらの技術に継続的な挑戦をもたらす。 一方,トピックモデリングなどの話題からテーマを抽出する従来の教師なし手法では,特定のニュアンスを捉えないような過度なパターンがしばしば現れる。 その結果、ソーシャルメディアの談話研究のかなりの部分は、労働集約的な手作業によるコーディング技術と、時間と費用のかかる人道的なアプローチに依存している。 本研究では,特定のテーマに関連付けられた議論の発見問題について考察する。 本稿では,Large Language Models (LLM) の高度な機能を活用し,ソーシャルメディアのメッセージから潜在的議論を抽出する汎用 LLM-in-the-Loop 戦略を提案する。 このアプローチを実証するために、我々のフレームワークを議論の多いトピックに適用する。 1) テーマが25のFacebook広告14kの気候キャンペーンデータセットと,(2) テーマが14のFacebook広告9kの新型コロナウイルスワクチンキャンペーンデータセットである。 さらに,気候論争における発話点を活用した姿勢予測として,下流課題を設計する。 さらに、実世界の出来事に基づいて、人口統計ターゲティングとメッセージの適応を分析する。

The widespread use of social media has led to a surge in popularity for automated methods of analyzing public opinion. Supervised methods are adept at text categorization, yet the dynamic nature of social media discussions poses a continual challenge for these techniques due to the constant shifting of the focus. On the other hand, traditional unsupervised methods for extracting themes from public discourse, such as topic modeling, often reveal overarching patterns that might not capture specific nuances. Consequently, a significant portion of research into social media discourse still depends on labor-intensive manual coding techniques and a human-in-the-loop approach, which are both time-consuming and costly. In this work, we study the problem of discovering arguments associated with a specific theme. We propose a generic LLMs-in-the-Loop strategy that leverages the advanced capabilities of Large Language Models (LLMs) to extract latent arguments from social media messaging. To demonstrate our approach, we apply our framework to contentious topics. We use two publicly available datasets: (1) the climate campaigns dataset of 14k Facebook ads with 25 themes and (2) the COVID-19 vaccine campaigns dataset of 9k Facebook ads with 14 themes. Additionally, we design a downstream task as stance prediction by leveraging talking points in climate debates. Furthermore, we analyze demographic targeting and the adaptation of messaging based on real-world events.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# Rawformer:学習可能なカメラISPのための未完成のRaw-to-Raw翻訳

Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs ( http://arxiv.org/abs/2404.10700v2 )

ライセンス: Link先を確認
Georgy Perevozchikov, Nancy Mehta, Mahmoud Afifi, Radu Timofte, (参考訳) 現代のスマートフォンカメラの品質は、キャプチャされた生画像を強化するために、画像信号プロセッサ(ISP)に大きく依存しており、標準色空間(sRGBなど)で符号化された最終的な出力画像を生成するために、慎重に設計されたモジュールを活用している。 ニューラルベースのエンド・ツー・エンドの学習可能なISPは有望な進歩を提供し、従来のISPを新しいカメラモデルごとに広範囲のチューニングを必要とすることなく、適応できる能力に置き換える可能性がある。 しかし、近年の学習ベースISPの課題は、固有のカメラ特性が入力原画像形成に与える影響から、個々のカメラモデルごとに大きなペアデータセットを収集することである。 本稿では,多種多様なカメラを用いた生と生の翻訳を未経験で学習する手法を導入することで,この問題に対処する。 具体的には、生から生への翻訳のための教師なしトランスフォーマーベースのエンコーダデコーダであるRawformerを提案する。 特定のカメラが捉えた生画像をターゲットカメラに正確にマッピングし、学習可能なISPを新しい目に見えないカメラに一般化する。 提案手法は,従来の最先端技術と比較して精度が高く,オリジナル画像と翻訳画像との相関性も高いことを示す。 コードと事前訓練されたモデルはhttps://github.com/gosha20777/rawformer.comで公開されている。

Modern smartphone camera quality heavily relies on the image signal processor (ISP) to enhance captured raw images, utilizing carefully designed modules to produce final output images encoded in a standard color space (e.g., sRGB). Neural-based end-to-end learnable ISPs offer promising advancements, potentially replacing traditional ISPs with their ability to adapt without requiring extensive tuning for each new camera model, as is often the case for nearly every module in traditional ISPs. However, the key challenge with the recent learning-based ISPs is the urge to collect large paired datasets for each distinct camera model due to the influence of intrinsic camera characteristics on the formation of input raw images. This paper tackles this challenge by introducing a novel method for unpaired learning of raw-to-raw translation across diverse cameras. Specifically, we propose Rawformer, an unsupervised Transformer-based encoder-decoder method for raw-to-raw translation. It accurately maps raw images captured by a certain camera to the target camera, facilitating the generalization of learnable ISPs to new unseen cameras. Our method demonstrates superior performance on real camera datasets, achieving higher accuracy compared to previous state-of-the-art techniques, and preserving a more robust correlation between the original and translated raw images. The codes and the pretrained models are available at https://github.com/gosha20777/rawformer.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# Patch-Consistent Optical Translation Across Sensors:Heterogeneous Change Detection を用いた大規模 denoising Diffusion の1例

Patch-Consistent Optical Translation Across Sensors: Large-Scale Denoising Diffusion with Heterogeneous Change Detection as a Use Case ( http://arxiv.org/abs/2404.11243v2 )

ライセンス: Link先を確認
João Gabriel Vinholi, Marco Chini, Anis Amziane, Renato Machado, Danilo Silva, Patrick Matgen, (参考訳) リモートセンシングの分野では、異なるセンサーが捉えた画像を比較することが一般的な障害である。 これは、元のコンテンツを保持しながら、あるセンサードメインから別のセンサードメインへのイメージ変換を必要とする。 Denoising Diffusion Implicit Models (DDIM) は、古典的コンピュータビジョンにおける複数の画像から画像への変換タスクにおいて、そのようなドメイン翻訳が優れていることが証明されたため、最先端のソリューションの可能性を秘めている。 しかし、これらのモデルは大規模なマルチパッチ画像に苦しむため、小さなパッチにのみ焦点をあてることが多く、結果として全画像に矛盾が生じる。 これらの制約を克服するために,DDIMを利用した広帯域光画像翻訳手法を提案する。 我々のアプローチは、大規模な低空間分解能画像を、異なる光学センサーから高解像度に分解し、数百のパッチの均一性を確保するために調整されている。 Sentinel-IIとPlanet Doveを組み合わせたデータセットによる大規模な実験により、我々のアプローチが正確なドメイン適応とアーティファクトの削減をもたらすことが示された。 本手法は, 画像内容の保存とともに, ラジオメトリック(カラー)の精度と特徴表現を改善した。 この結果は、一貫したパッチを持つ高解像度の大規模画像であり、異種変化検出(HCD)のようなアプリケーションに不可欠である。 本稿では,DDIMに根ざした独自のトレーニング・テストアルゴリズム,徹底的な画像品質評価,標準分類器フリーのDDIMフレームワークと,他の5つの先行手法との比較検討を行う。 本手法の有効性は, ベイルート, レバノン, オースチンの都市環境におけるHCDタスクの大幅な向上によってさらに実証された。

In the field of remote sensing, the challenge of comparing images captured by disparate sensors is a common obstacle. This requires image translation -- converting imagery from one sensor domain to another while preserving the original content. Denoising Diffusion Implicit Models (DDIM) are potential state-of-the-art solutions for such domain translation due to their proven superiority in multiple image-to-image translation tasks in classic computer vision. However, these models struggle with large-scale multi-patch imagery, often focusing solely on small patches and resulting in inconsistencies across the full image. To overcome these limitations, we propose a novel method that leverages DDIM for effective optical image translation over large areas. Our approach is tailored to super-resolve large-scale low spatial resolution images into high-resolution equivalents from disparate optical sensors, ensuring uniformity across hundreds of patches. Extensive experiments with a dataset of paired Sentinel-II and Planet Dove images show that our approach provides precise domain adaptation and artifact reduction. Our technique preserves the image content while also improving radiometric (color) accuracy and feature representations. The outcome is a high-resolution large-scale image with consistent patches, vital for applications such as heterogeneous change detection (HCD). We present a unique training and testing algorithm rooted in DDIMs, a thorough image quality assessment, and a comparative study against the standard classifier-free guided DDIM framework and five other leading methods. The efficacy of our approach is further demonstrated by substantial enhancements in HCD tasks performed in the urban settings of Beirut, Lebanon, and Austin, USA.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# 暗黒および明るい状態による部分空間内の粒子の検出要因

Deciding factor for detecting a particle within a subspace via dark and bright states ( http://arxiv.org/abs/2404.12677v2 )

ライセンス: Link先を確認
Aashay Pandharpatte, Pritam Halder, Aditi Sen De, (参考訳) 測定による連続時間量子ウォークでは、固定位置ではなく、部分空間内の粒子を検出するという問題に対処する。 この構成では、サブ空間における粒子検出のために、単位と検出確率に基づいて、明るい状態と暗い状態のアプローチを開発する。 具体的には、ランク-零性定理を用いて、量子ウォークに使用されるハミルトニアンのエネルギースペクトルと、部分空間を検出するための射影子の観点から、暗黒状態と明るい状態のいくつかの性質を決定する。 検出すべき部分空間の位置とランクについて一定の条件を提供し、量子コンピューティングに幅広い影響を及ぼす単位全体の検出確率を与える。 さらに、近辺と次隣のホッピングを持つ巡回グラフを考慮し、暗黒状態と明るい状態の形式と、暗黒状態の数に対する検出確率の依存性について説明する。 さらに, 高階プロジェクタを施すことにより, サブスペース内で粒子の検出に成功し, 測定値の平均値のばらつきを低減できることを示した。

In a measurement-induced continuous-time quantum walk, we address the problem of detecting a particle in a subspace, instead of a fixed position. In this configuration, we develop an approach of bright and dark states based on the unit and vanishing detection probability respectively for a particle-detection in the subspace. Specifically, by employing the rank-nullity theorem, we determine several properties of dark and bright states in terms of energy spectrum of the Hamiltonian used for a quantum walk and the projectors applied to detect the subspace. We provide certain conditions on the position and the rank of the subspace to be detected, resulting in the unit total detection probability, which has broad implications for quantum computing. Further, we illustrate the forms of dark as well as bright states and the dependence of detection probability on the number of dark states by considering a cyclic graph with nearest-neighbor and next nearest-neighbor hopping. Moreover, we observe that the divergence in the average number of measurements for detecting a particle successfully in a subspace can be reduced by performing high rank projectors.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# 量子状態ダイナミクスにおける測定可能なクリロフ空間とアイジネギー数

Measurable Krylov Spaces and Eigenenergy Count in Quantum State Dynamics ( http://arxiv.org/abs/2404.13089v2 )

ライセンス: Link先を確認
Saud Čindrak, Adrian Paschke, Lina Jaurigue, Kathy Lüdge, (参考訳) 本研究では,拡散複雑性の計算のための量子力学的測定可能な基底を提案する。 現在の文献は、クリロフ状態空間の基底と拡散複雑性の計算を構築するためにハミルトンの異なるパワーを計算することに焦点を当てている。 一連の証明を通して、異なる進化時間を持つ時間進化状態を用いて、拡散複雑性の計算に使用されるクリロフ状態空間と等価な空間を構築することができることを示す。 その後、ハミルトニアンの対別の固有値の数によって上界となる実効次元を導入する。 拡散複雑性の計算には、ハミルトニアンの知識と、ハミルトニアンの異なるパワーの古典的な計算が必要である。 ハミルトニアンの大きなパワーの計算は、大規模システムではますます困難になる。 私たちの研究の最初の部分は、量子力学的に測定可能な状態からなる同値空間を定義することでこれらの問題に対処する。 我々は、異なる時間進化状態の集合が基底を構築するのに使用できることを示した。 その後, 数値解析により解析結果を検証し, 定義ベクトル空間を用いて時間発展状態の再構成が可能であることを示す。 この新たな空間に基づいて、上界の有効次元を定義し、その有限次元系への影響を分析する。 さらに、クリロフ空間次元がハミルトニアンの対別の固有値の数と等しいことを示し、系が実験的に有する固有エネルギーの数を決定する方法を可能にする。 最後に、両基底表現の拡散複雑性を計算し、ほぼ同一の振る舞いを観察することにより、測定による拡散複雑性の計算を可能にする。

In this work, we propose a quantum-mechanically measurable basis for the computation of spread complexity. Current literature focuses on computing different powers of the Hamiltonian to construct a basis for the Krylov state space and the computation of the spread complexity. We show, through a series of proofs, that time-evolved states with different evolution times can be used to construct an equivalent space to the Krylov state space used in the computation of the spread complexity. Afterwards, we introduce the effective dimension, which is upper-bounded by the number of pairwise distinct eigenvalues of the Hamiltonian. The computation of the spread complexity requires knowledge of the Hamiltonian and a classical computation of the different powers of the Hamiltonian. The computation of large powers of the Hamiltonian becomes increasingly difficult for large systems. The first part of our work addresses these issues by defining an equivalent space, where the original basis consists of quantum-mechanically measurable states. We demonstrate that a set of different time-evolved states can be used to construct a basis. We subsequently verify the results through numerical analysis, demonstrating that every time-evolved state can be reconstructed using the defined vector space. Based on this new space, we define an upper-bounded effective dimension and analyze its influence on finite-dimensional systems. We further show that the Krylov space dimension is equal to the number of pairwise distinct eigenvalues of the Hamiltonian, enabling a method to determine the number of eigenenergies the system has experimentally. Lastly, we compute the spread complexities of both basis representations and observe almost identical behavior, thus enabling the computation of spread complexities through measurements.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# 条件付きモデルに対するソフトターゲットを用いた雑音コントラスト推定に向けて

Towards noise contrastive estimation with soft targets for conditional models ( http://arxiv.org/abs/2404.14076v2 )

ライセンス: Link先を確認
Johannes Hugger, Virginie Uhlmann, (参考訳) ソフトターゲットとクロスエントロピー損失を組み合わせることで、教師付き分類タスクにおけるディープニューラルネットワークの一般化性能を向上させることが示されている。 しかし、標準的なクロスエントロピー損失はデータが分類的に分散されることを前提としており、実際にはそうではないことが多い。 対照的にInfoNCEはそのような明示的な仮定に頼るのではなく、負のサンプリングによって真条件を暗黙的に推定する。 残念ながら、標準的な定式化ではソフトターゲットと組み合わせることはできないため、高度なトレーニング戦略と組み合わせることを妨げる。 本稿では,確率的目標と互換性のある損失関数を提案することで,この制限に対処する。 我々の新しいソフトターゲットInfoNCE損失は概念的にはシンプルで、計算に効率的であり、ノイズコントラスト推定の枠組みを通じて動機付けできる。 おもちゃの例を用いて,クロスエントロピーのカテゴリー分布仮定の欠点を示し,ソフト分布からのサンプリングがもたらす影響について議論する。 ソフトターゲットInfoNCEは、強力なソフトターゲットクロスエントロピーベースラインと同等に動作し、ImageNetを含む人気のあるベンチマークにおいて、ハードターゲットNLLとInfoNCEの損失を上回ります。 最後に、教師付き分類を指向し、クロスエントロピーで訓練された深い分類モデルと完全に互換性のある、損失の簡単な実装を提供する。

Soft targets combined with the cross-entropy loss have shown to improve generalization performance of deep neural networks on supervised classification tasks. The standard cross-entropy loss however assumes data to be categorically distributed, which may often not be the case in practice. In contrast, InfoNCE does not rely on such an explicit assumption but instead implicitly estimates the true conditional through negative sampling. Unfortunately, it cannot be combined with soft targets in its standard formulation, hindering its use in combination with sophisticated training strategies. In this paper, we address this limitation by proposing a loss function that is compatible with probabilistic targets. Our new soft target InfoNCE loss is conceptually simple, efficient to compute, and can be motivated through the framework of noise contrastive estimation. Using a toy example, we demonstrate shortcomings of the categorical distribution assumption of cross-entropy, and discuss implications of sampling from soft distributions. We observe that soft target InfoNCE performs on par with strong soft target cross-entropy baselines and outperforms hard target NLL and InfoNCE losses on popular benchmarks, including ImageNet. Finally, we provide a simple implementation of our loss, geared towards supervised classification and fully compatible with deep classification models trained with cross-entropy.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# 脆弱性検出のためのグラフニューラルネットワークの提案

Graph Neural Networks for Vulnerability Detection: A Counterfactual Explanation ( http://arxiv.org/abs/2404.15687v2 )

ライセンス: Link先を確認
Zhaoyang Chu, Yao Wan, Qian Li, Yang Wu, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin, (参考訳) 脆弱性検出は、ソフトウェアシステムのセキュリティと信頼性を確保するために不可欠である。 最近、Graph Neural Networks(GNN)は、ソースコードの基盤となるセマンティック構造をキャプチャする能力のため、脆弱性検出のための顕著なコード埋め込みアプローチとして登場した。 しかし、GNNは本質的にブラックボックスの性質のため、説明可能性において重大な課題に直面している。 この目的のために、いくつかの事実推論に基づく説明器が提案されている。 これらの説明者は、結果に寄与する主要な特徴を分析することによって、GNNによる予測について説明する。 コードグラフを代替構造に変更するならば、GNNの決定はどうなるのか? 人工知能における反ファクト推論の進歩に触発されて、GNNベースの脆弱性検出のための新しい反ファクト説明器CFExplainerを提案する。 事実推論ベースの説明器とは異なり、CFExplainerは入力コードグラフに対する最小限の摂動を求め、予測が変更される。 検出された脆弱性の根本原因を特定し、開発者が脆弱性を修正するための適切なアクションを実行するための貴重な洞察を与えることができる。 4つのGNNベースの脆弱性検出モデルに対する大規模な実験は、既存の最先端の事実推論に基づく説明器に対するCFExplainerの有効性を示している。

Vulnerability detection is crucial for ensuring the security and reliability of software systems. Recently, Graph Neural Networks (GNNs) have emerged as a prominent code embedding approach for vulnerability detection, owing to their ability to capture the underlying semantic structure of source code. However, GNNs face significant challenges in explainability due to their inherently black-box nature. To this end, several factual reasoning-based explainers have been proposed. These explainers provide explanations for the predictions made by GNNs by analyzing the key features that contribute to the outcomes. We argue that these factual reasoning-based explanations cannot answer critical what-if questions: What would happen to the GNN's decision if we were to alter the code graph into alternative structures? Inspired by advancements of counterfactual reasoning in artificial intelligence, we propose CFExplainer, a novel counterfactual explainer for GNN-based vulnerability detection. Unlike factual reasoning-based explainers, CFExplainer seeks the minimal perturbation to the input code graph that leads to a change in the prediction, thereby addressing the what-if questions for vulnerability detection. We term this perturbation a counterfactual explanation, which can pinpoint the root causes of the detected vulnerability and furnish valuable insights for developers to undertake appropriate actions for fixing the vulnerability. Extensive experiments on four GNN-based vulnerability detection models demonstrate the effectiveness of CFExplainer over existing state-of-the-art factual reasoning-based explainers.
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# ChEX:胸部X線におけるインタラクティブな局在と領域記述

ChEX: Interactive Localization and Region Description in Chest X-rays ( http://arxiv.org/abs/2404.15770v2 )

ライセンス: Link先を確認
Philip Müller, Georgios Kaissis, Daniel Rueckert, (参考訳) レポート生成モデルは、胸部X線のような医療画像のきめ細かいテキスト解釈を提供するが、対話性(すなわち、ユーザクエリを通じて生成プロセスを操る能力)と局所的解釈可能性(すなわち、その予測を視覚的に根拠づけること)が欠如していることが多い。 これらの問題に対処する努力はあったが、テキストクエリをサポートしない、あるいはローカライズされた解釈性を提供しないなど、対話性に制限がある。 そこで本研究では,解剖学的領域や病理などの多様な側面を対象としたテキストプロンプトとバウンディングボックスを統合した,新しいマルチタスクアーキテクチャとトレーニングパラダイムを提案する。 このアプローチをChest X-Ray Explainer (ChEX)と呼ぶ。 画像のローカライズされた解釈やレポート生成を含む9つの胸部X線タスクの不均一なセットに対する評価は、SOTAモデルとの競合性を示し、さらなる分析はChEXのインタラクティブ機能を示している。 コード:https://github.com/philip-mueller/chex

Report generation models offer fine-grained textual interpretations of medical images like chest X-rays, yet they often lack interactivity (i.e. the ability to steer the generation process through user queries) and localized interpretability (i.e. visually grounding their predictions), which we deem essential for future adoption in clinical practice. While there have been efforts to tackle these issues, they are either limited in their interactivity by not supporting textual queries or fail to also offer localized interpretability. Therefore, we propose a novel multitask architecture and training paradigm integrating textual prompts and bounding boxes for diverse aspects like anatomical regions and pathologies. We call this approach the Chest X-Ray Explainer (ChEX). Evaluations across a heterogeneous set of 9 chest X-ray tasks, including localized image interpretation and report generation, showcase its competitiveness with SOTA models while additional analysis demonstrates ChEX's interactive capabilities. Code: https://github.com/philip-mueller/chex
翻訳日:2024-07-17 00:56:00 公開日:2024-07-15
# マルチパス干渉計における対効果, バックアクション, 情報ゲイン

Counterfactuality, back-action, and information gain in multi-path interferometers ( http://arxiv.org/abs/2404.16477v2 )

ライセンス: Link先を確認
Jonte R. Hance, Tomonori Matsushita, Holger F. Hofmann, (参考訳) 干渉計の経路の1つにおける吸収体の存在は、その干渉計の出力統計を根本的な方法で変化させる。 干渉計の出力で検出された個々の量子粒子は吸収されていないため、吸収器によるこれらの粒子の分布に対する非自明な効果は、逆効果である。 ここでは、出力統計から得られた吸収体の存在または欠如に関する情報を評価し、古典的および量子的反事実的効果を区別することによって、反事実的効果を定量化する。 古典的反ファクトプロトコルよりも量子反ファクトプロトコルの利点を定量化する反ファクトゲインを同定し、この反ファクトゲインを、吸収体によってブロックされた振幅に関連する半古典的項と、ブロックされたパスと出力ポートに結合確率を割り当てるカークウッド・ディラック準確率の2つの項に分けることができることを示す。 経路と出力ポートの間の負のカークウッド・ディラック項は、吸収体をその経路に挿入すると、その出力ポートに到達する粒子の確率が増大し、反事実ゲインが著しく増大することを示している。 量子対物効果の大きさは、吸収粒子の単純な除去によって説明できないが、一方の経路における吸収体の存在によって引き起こされるよく定義されたバックアクション効果から導かれる。

The presence of an absorber in one of the paths of an interferometer changes the output statistics of that interferometer in a fundamental manner. Since the individual quantum particles detected at any of the outputs of the interferometer have not been absorbed, any non-trivial effect of the absorber on the distribution of these particles over these paths is a counterfactual effect. Here, we quantify counterfactual effects by evaluating the information about the presence or absence of the absorber obtained from the output statistics, distinguishing between classical and quantum counterfactual effects. We identify the counterfactual gain which quantifies the advantage of quantum counterfactual protocols over classical counterfactual protocols, and show that this counterfactual gain can be separated into two terms: a semi-classical term related to the amplitude blocked by the absorber, and a Kirkwood-Dirac quasiprobability assigning a joint probability to the blocked path and the output port. A negative Kirkwood-Dirac term between a path and an output port indicates that inserting the absorber into that path will have a focussing effect, increasing the probability of particles arriving at that output port, resulting in a significant enhancement of the counterfactual gain. We show that the magnitude of quantum counterfactual effects cannot be explained by a simple removal of the absorbed particles, but originates instead from a well-defined back-action effect caused by the presence of the absorber in one path, on particles in other paths.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# NISQデバイスにおけるNMR分光シミュレーションにおけるノイズの影響

The impact of noise on the simulation of NMR spectroscopy on NISQ devices ( http://arxiv.org/abs/2404.18903v2 )

ライセンス: Link先を確認
Andisheh Khedri, Pascal Stadler, Kirsten Bark, Matteo Lodi, Rolando Reiner, Nicolas Vogt, Michael Marthaler, Juha Leppäkangas, (参考訳) 超伝導量子ビットをベースとしたIBMの量子プロセッサと、Amazon Braketを介して処理されたIonQのAriaトラップイオン量子コンピュータの2つの有望な量子コンピューティングプラットフォームを持つ小さな有機分子の核磁気共鳴(NMR)分光シミュレーションを提案する。 得られたNMRスペクトルに対するノイズの影響を解析し、提案アルゴリズムが許容できる閾値ノイズを定量化する効果的なデコヒーレンス率を定式化する。 さらに、ノイズ分析によってスペクトルが改善されることを示す。 我々の調査は、現在のノイズの多い量子デバイス上で、このようなアプリケーション駆動の量子タスクをよりうまく活用する方法を開拓する。

We present the simulation of nuclear magnetic resonance (NMR) spectroscopy of small organic molecules with two promising quantum computing platforms, namely IBM's quantum processors based on superconducting qubits and IonQ's Aria trapped ion quantum computer addressed via Amazon Braket. We analyze the impact of noise on the obtained NMR spectra, and we formulate an effective decoherence rate that quantifies the threshold noise that our proposed algorithm can tolerate. Furthermore we showcase how our noise analysis allows us to improve the spectra. Our investigations pave the way to better employ such application-driven quantum tasks on current noisy quantum devices.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# UniFS:ポイント表現によるユニバーサルなFew-shotインスタンス認識

UniFS: Universal Few-shot Instance Perception with Point Representations ( http://arxiv.org/abs/2404.19401v2 )

ライセンス: Link先を確認
Sheng Jin, Ruijie Yao, Lumin Xu, Wentao Liu, Chen Qian, Ji Wu, Ping Luo, (参考訳) 視覚モデルの産業的応用において、インスタンス認識タスク(オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、カウント)が重要な役割を果たす。 教師付き学習手法は高いラベル付けコストに悩まされるため、限られたラベル付き事例から効果的に学習する少数ショット学習法が望まれる。 既存の数発の学習方法は、主に制限されたタスクセットに焦点を当てている。これはおそらく、多種多様なタスクを統一的に表現できるジェネリックモデルを設計する際の課題である。 本稿では,UniFSを提案する。UniFSは,インスタンス認識タスクを動的ポイント表現学習フレームワークに再構成することで,幅広いインスタンス認識タスクを統一する汎用的なインスタンス認識モデルである。 さらに,特徴点間の高次構造関係を利用して表現学習を強化する構造認識ポイント学習(SAPL)を提案する。 提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。 コードも間もなくリリースされる予定だ。

Instance perception tasks (object detection, instance segmentation, pose estimation, counting) play a key role in industrial applications of visual models. As supervised learning methods suffer from high labeling cost, few-shot learning methods which effectively learn from a limited number of labeled examples are desired. Existing few-shot learning methods primarily focus on a restricted set of tasks, presumably due to the challenges involved in designing a generic model capable of representing diverse tasks in a unified manner. In this paper, we propose UniFS, a universal few-shot instance perception model that unifies a wide range of instance perception tasks by reformulating them into a dynamic point representation learning framework. Additionally, we propose Structure-Aware Point Learning (SAPL) to exploit the higher-order structural relationship among points to further enhance representation learning. Our approach makes minimal assumptions about the tasks, yet it achieves competitive results compared to highly specialized and well optimized specialist models. Codes will be released soon.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# 深層能動学習に関する調査 : 最近の進歩と新たなフロンティア

A Survey on Deep Active Learning: Recent Advances and New Frontiers ( http://arxiv.org/abs/2405.00334v2 )

ライセンス: Link先を確認
Dongyuan Li, Zhen Wang, Yankai Chen, Renhe Jiang, Weiping Ding, Manabu Okumura, (参考訳) アクティブな学習は、より少ないトレーニングサンプルで強力なパフォーマンスを達成することを目指している。 これは、宣誓供述書に新たに選択されたサンプルを人道的な方法でラベル付けするよう、反復的に求めている。 この手法は適用可能性の広さから人気が高まりつつあるが、特にディープラーニングに基づくアクティブラーニング(DAL)に関する調査論文は乏しいままである。 そこで我々は,高度かつ総合的なDAL調査を実施している。 まず,論文の収集とフィルタリングについて紹介する。 次に、DALタスクを正式に定義し、最も影響力のあるベースラインと広く使用されているデータセットを要約する。 第3に、アノテーションタイプ、クエリ戦略、深層モデルアーキテクチャ、学習パラダイム、トレーニングプロセスを含む5つの視点から、DALメソッドの分類を体系的に提供し、その長所と短所を客観的に分析する。 次に、自然言語処理(NLP)、コンピュータビジョン(CV)、データマイニング(DM)などにおけるDALの主な応用を包括的に要約する。 最後に,現在の研究を詳細に分析した上で,課題と視点について論じる。 この研究は、DALの困難を克服する上で、研究者にとって有用かつ迅速なガイドとなることを目的としている。 この調査が、この急成長分野のさらなる進展を後押しすることを期待している」と述べた。

Active learning seeks to achieve strong performance with fewer training samples. It does this by iteratively asking an oracle to label new selected samples in a human-in-the-loop manner. This technique has gained increasing popularity due to its broad applicability, yet its survey papers, especially for deep learning-based active learning (DAL), remain scarce. Therefore, we conduct an advanced and comprehensive survey on DAL. We first introduce reviewed paper collection and filtering. Second, we formally define the DAL task and summarize the most influential baselines and widely used datasets. Third, we systematically provide a taxonomy of DAL methods from five perspectives, including annotation types, query strategies, deep model architectures, learning paradigms, and training processes, and objectively analyze their strengths and weaknesses. Then, we comprehensively summarize main applications of DAL in Natural Language Processing (NLP), Computer Vision (CV), and Data Mining (DM), etc. Finally, we discuss challenges and perspectives after a detailed analysis of current studies. This work aims to serve as a useful and quick guide for researchers in overcoming difficulties in DAL. We hope that this survey will spur further progress in this burgeoning field.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# 表現学習における視点歪みの緩和のためのメビウス変換

Möbius Transform for Mitigating Perspective Distortions in Representation Learning ( http://arxiv.org/abs/2405.02296v2 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Meenakshi Subhash Chippa, Kanjar De, Rajkumar Saini, Marcus Liwicki, Mubarak Shah, (参考訳) 視線歪み(PD)は、画像における視覚概念の形状、大きさ、方向、角度、その他の空間的関係に前例のない変化を引き起こす。 カメラ内在パラメータと外在パラメータを正確に推定することは、視点歪みの合成を防止するための課題である。 専用トレーニングデータの非可用性は、堅牢なコンピュータビジョン手法を開発する上で重要な障壁となる。 さらに、歪み補正法は、他のコンピュータビジョンタスクを多段階的なアプローチとし、性能を欠いている。 本研究では,M\\\obius変換の特定のファミリーに対して,カメラ内在パラメータや外在パラメータを推定することなく,実世界の歪みをモデル化するための細粒度パラメータ制御を用いることにより,MPDを緩和する手法を提案する。 また、この新たなデータセットに対してディープラーニングモデルの堅牢性を評価するために、視点的に歪んだベンチマークデータセットであるImageNet-PDを提案する。 提案手法は既存のベンチマークである ImageNet-E と ImageNet-X より優れている。 さらに、ImageNet-PDのパフォーマンスが大幅に向上し、標準データ分散でも一貫してパフォーマンスが向上する。 特に,本手法は,3つのPD影響現実的アプリケーションにおいて,群集カウント,魚眼画像認識,人物再識別,および1つのPD影響課題CVタスクであるオブジェクト検出の性能向上を示す。 ソースコード、データセット、モデルはプロジェクトのWebページ(https://prakashchhipa.github.io/projects/mpd)で公開されている。

Perspective distortion (PD) causes unprecedented changes in shape, size, orientation, angles, and other spatial relationships of visual concepts in images. Precisely estimating camera intrinsic and extrinsic parameters is a challenging task that prevents synthesizing perspective distortion. Non-availability of dedicated training data poses a critical barrier to developing robust computer vision methods. Additionally, distortion correction methods make other computer vision tasks a multi-step approach and lack performance. In this work, we propose mitigating perspective distortion (MPD) by employing a fine-grained parameter control on a specific family of M\"obius transform to model real-world distortion without estimating camera intrinsic and extrinsic parameters and without the need for actual distorted data. Also, we present a dedicated perspectively distorted benchmark dataset, ImageNet-PD, to benchmark the robustness of deep learning models against this new dataset. The proposed method outperforms existing benchmarks, ImageNet-E and ImageNet-X. Additionally, it significantly improves performance on ImageNet-PD while consistently performing on standard data distribution. Notably, our method shows improved performance on three PD-affected real-world applications crowd counting, fisheye image recognition, and person re-identification and one PD-affected challenging CV task: object detection. The source code, dataset, and models are available on the project webpage at https://prakashchhipa.github.io/projects/mpd.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# MRI再構成のためのスコアベースモデル駆動ネットワーク

Score-based Generative Priors Guided Model-driven Network for MRI Reconstruction ( http://arxiv.org/abs/2405.02958v2 )

ライセンス: Link先を確認
Xiaoyu Qiao, Weisheng Li, Bin Xiao, Yuping Huang, Lijian Yang, (参考訳) Langevin dynamics (SMLD) 法とのスコアマッチングは, MRI の高速化に成功している。 しかし、サンプリングプロセスのハイパーパラメータは微妙なチューニングを必要とし、そうでなければ幻覚人工物、特にアウト・オブ・ディストリビューションテストデータによって結果を悪化させる可能性がある。 この制約に対処するため,本研究では,モデル駆動型ネットワークトレーニングのガイドとして,真性のあるSMLDサンプルを付加する新たなワークフローを提案する。 まず,予備指導画像(PGI)としてサンプルを生成するための事前学習スコアネットワークを導入し,ネットワークリトレーニング,パラメータチューニング,分散テストデータの必要性を回避した。 PGIは幻覚アーチファクトによって破損するが、再建を容易にする効果的な妄想的なステップを通じて追加情報を提供できると信じている。 そこで我々は,PGIからアーティファクトやノイズを粗く除去するため,第2ステップでデノナイジングモジュール(DM)を設計した。 これらの特徴は、スコアベース情報抽出器(SIE)とクロスドメイン情報抽出器(CIE)から抽出され、ノイズパターンに直接マップされる。 第3に、より詳細な詳細を復元するために、DGI(denoized PGIs)によって誘導されるモデル駆動ネットワークを設計した。 DGIは、情報を充実させるために各カスケードの中間再構築と密結合しており、より正確なガイダンスを提供するために定期的に更新される。 異なるデータセットに対する実験により,PGIの平均品質が低いにもかかわらず,提案したワークフローは,トレーニングデータやサンプリングステップを著しく削減した場合でも,ネットワークトレーニングをガイドするための有用な情報を効果的に抽出することができることがわかった。 本手法は,幻覚を効果的に緩和し,ロバストかつ高品質な再建結果を得られることにより,他の最先端技術よりも優れた性能を発揮する。

Score matching with Langevin dynamics (SMLD) method has been successfully applied to accelerated MRI. However, the hyperparameters in the sampling process require subtle tuning, otherwise the results can be severely corrupted by hallucination artifacts, especially with out-of-distribution test data. To address the limitations, we proposed a novel workflow where naive SMLD samples serve as additional priors to guide model-driven network training. First, we adopted a pretrained score network to generate samples as preliminary guidance images (PGI), obviating the need for network retraining, parameter tuning and in-distribution test data. Although PGIs are corrupted by hallucination artifacts, we believe they can provide extra information through effective denoising steps to facilitate reconstruction. Therefore, we designed a denoising module (DM) in the second step to coarsely eliminate artifacts and noises from PGIs. The features are extracted from a score-based information extractor (SIE) and a cross-domain information extractor (CIE), which directly map to the noise patterns. Third, we designed a model-driven network guided by denoised PGIs (DGIs) to further recover fine details. DGIs are densely connected with intermediate reconstructions in each cascade to enrich the information and are periodically updated to provide more accurate guidance. Our experiments on different datasets reveal that despite the low average quality of PGIs, the proposed workflow can effectively extract valuable information to guide the network training, even with severely reduced training data and sampling steps. Our method outperforms other cutting-edge techniques by effectively mitigating hallucination artifacts, yielding robust and high-quality reconstruction results.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# シーケンシャル意思決定におけるヒューマンモデリング--ヒューマン・アウェア・AIのレンズを通しての分析

Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI ( http://arxiv.org/abs/2405.07773v2 )

ライセンス: Link先を確認
Silvia Tulli, Stylianos Loukas Vasileiou, Sarath Sreedharan, (参考訳) ヒューマン・アウェア」は、人間と働き、対話するように設計された、特定の種類のAIシステムを記述するために使われる一般的なキーワードとなっている。 人間の認識というラベルを使う作品には驚くほどの一貫性があるが、その用語自体はほとんど理解されていない。 本研究では,人間を意識したAIシステムを構成するものについて,遡及的に考察する。 人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。 さらに、このパラダイムは、これらのシステムが人間と持つ可能性のあるインタラクションの種類を理解し、分類するための直感的な次元を提供する。 本研究では,これらの次元の教育的価値を,人間-AIシステムに関連する作業の現在の状況を理解し,レビューするためのツールとして利用することで示す。 ワークショップの論文の範囲に合わせて、我々はレビューをシーケンシャルな意思決定を扱う論文に絞り込み、過去3年間に大規模なAIカンファレンスで発表しました。 私たちの分析は、現在見過ごされている潜在的な研究問題の空間を特定するのに役立ちます。 我々は,これらの研究が社会科学の結果に明示的に言及する程度と,実際にシステムを検証するためにユーザスタディを実施するかどうかについて,さらなる分析を行う。 また、これらの研究で使用されている様々なAI手法の会計情報も提供する。

"Human-aware" has become a popular keyword used to describe a particular class of AI systems that are designed to work and interact with humans. While there exists a surprising level of consistency among the works that use the label human-aware, the term itself mostly remains poorly understood. In this work, we retroactively try to provide an account of what constitutes a human-aware AI system. We see that human-aware AI is a design oriented paradigm, one that focuses on the need for modeling the humans it may interact with. Additionally, we see that this paradigm offers us intuitive dimensions to understand and categorize the kinds of interactions these systems might have with humans. We show the pedagogical value of these dimensions by using them as a tool to understand and review the current landscape of work related to human-AI systems that purport some form of human modeling. To fit the scope of a workshop paper, we specifically narrowed our review to papers that deal with sequential decision-making and were published in a major AI conference in the last three years. Our analysis helps identify the space of potential research problems that are currently being overlooked. We perform additional analysis on the degree to which these works make explicit reference to results from social science and whether they actually perform user-studies to validate their systems. We also provide an accounting of the various AI methods used by these works.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# 異なるガウスに付随するHagedorn波束について

On Hagedorn wavepackets associated with different Gaussians ( http://arxiv.org/abs/2405.07880v4 )

ライセンス: Link先を確認
Jiří J. L. Vaníček, Zhan Tong Zhang, (参考訳) Hagedorn関数は、多次元圧縮および結合調和系の設定に対して、エルミート関数の慎重に構成された一般化である。 Hagedorn関数の重ね合わせによって形成されるウェーブパペットは、調和系とアンハーモニック系の変分において、時間依存のシュルンディンガー方程式を正確に解くのに成功している。 位置や運動エネルギーなどの典型的な観測可能量を評価するためには、単一のガウス中心を持つ正則ハゲゴルン函数を考えるのに十分である。 ここでは、スペクトル計算に必要な時間相関関数など、時間的に非局所的な量を評価するのに必要な重なり合いを含む、異なるガウスに関連付けられたヘッジル基底間の様々な関係を導出する。 まず、ボゴリューボフ変換を用いて、異なるガウス作用素に関連するはしご作用素間の可換関係を得る。 そして、数値的な二次式を使う代わりに、これらの可換関係を用いて、異なるガウス中心を持つハゲゴルン函数間の重なり合う積分の正確な反復関係を導出する。 最後に、我々の代数的手法の精度と効率を実証する数値実験を行い、分光学や化学力学の問題を扱いやすくする。

Hagedorn functions are carefully constructed generalizations of Hermite functions to the setting of many-dimensional squeezed and coupled harmonic systems. Wavepackets formed by superpositions of Hagedorn functions have been successfully used to solve the time-dependent Schr\"{o}dinger equation exactly in harmonic systems and variationally in anharmonic systems. For evaluating typical observables, such as position or kinetic energy, it is sufficient to consider orthonormal Hagedorn functions with a single Gaussian center. Here, we instead derive various relations between Hagedorn bases associated with different Gaussians, including their overlaps, which are necessary for evaluating quantities nonlocal in time, such as time correlation functions needed for computing spectra. First, we use the Bogoliubov transformation to obtain commutation relations between the ladder operators associated with different Gaussians. Then, instead of using numerical quadrature, we employ these commutation relations to derive exact recurrence relations for the overlap integrals between Hagedorn functions with different Gaussian centers. Finally, we present numerical experiments that demonstrate the accuracy and efficiency of our algebraic method as well as its suitability to treat problems in spectroscopy and chemical dynamics.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# ALMol: オフライン参照コントラスト最適化による言語-分子翻訳LLM

ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation ( http://arxiv.org/abs/2405.08619v3 )

ライセンス: Link先を確認
Dimitris Gkoumas, (参考訳) 化学と人工知能(AI)の交差点は、科学的発見を加速することを目的とした活発な研究分野である。 大規模言語モデル(LLM)と科学的モダリティの統合は、この取り組みにおいて大きな可能性を秘めている。 しかし、既存のアプローチはより大きなモデルやデータセットに依存しているため、トレーニングの有効性とアウト・オブ・ディストリビューションの問題に効果的に対処する上で、課題は続いている。 この文脈では、機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい学習手法を展開する。 一般性を確保し,暗記効果を軽減するため,データの10%のみを用いて実験を行った。 その結果,我々のモデルでは,他のモデルと比較して最大32%の改善が達成された。 最後に, LLMにおける幻覚の評価と, 責任ある使用を促進するための, きめ細かいドメインに依存しない評価手法を提案する。

The field of chemistry and Artificial Intelligence (AI) intersection is an area of active research that aims to accelerate scientific discovery. The integration of large language models (LLMs) with scientific modalities has shown significant promise in this endeavour. However, challenges persist in effectively addressing training efficacy and the out-of-distribution problem, particularly as existing approaches rely on larger models and datasets. In this context, we focus on machine language-molecule translation and deploy a novel training approach called contrastive preference optimisation, which avoids generating translations that are merely adequate but not perfect. To ensure generalisability and mitigate memorisation effects, we conduct experiments using only 10% of the data. Our results demonstrate that our models achieve up to a 32% improvement compared to counterpart models. Finally, we introduce a fine-grained, domain-agnostic evaluation method to assess hallucination in LLMs and promote responsible use.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# フィリピンの学生の学業成績予測モデルにおけるアルゴリズムバイアスの評価

Evaluating Algorithmic Bias in Models for Predicting Academic Performance of Filipino Students ( http://arxiv.org/abs/2405.09821v2 )

ライセンス: Link先を確認
Valdemar Švábenský, Mélina Verger, Maria Mercedes T. Rodrigo, Clarence James G. Monterozo, Ryan S. Baker, Miguel Zenon Nicanor Lerias Saavedra, Sébastien Lallé, Atsushi Shimada, (参考訳) アルゴリズムバイアスは、教育的文脈における機械学習モデルにおいて大きな問題である。 しかし、アジア学習の文脈ではまだ徹底的に研究されていないため、地域的(準国家的)背景に基づくアルゴリズム的バイアスを考慮した限られた研究しか行われていない。 本研究は,フィリピンの大学における5,986人の学生を対象に,学生の地域的背景に基づくアルゴリズム的偏見について検討する。 大学はCanvas学習管理システム(LMS)を、幅広い領域にわたるオンラインコースに利用した。 3つのセミメータの期間に、Canvasにおける学生の活動に関する4700万のログを収集した。 我々はこれらのログを用いて、LMS活動から学生の成績を予測するバイナリ分類モデルを訓練した。 最高性能モデルはAUC 0.75、重み付きF1スコア 0.79 に達した。 その後,学生の地域に基づく偏見データについて検討した。 AUC,重み付きF1スコア,MADDの3つの指標を用いて評価した。 その結果, 学年予測において, 特定の学生群に対して不公平性は認められなかった。

Algorithmic bias is a major issue in machine learning models in educational contexts. However, it has not yet been studied thoroughly in Asian learning contexts, and only limited work has considered algorithmic bias based on regional (sub-national) background. As a step towards addressing this gap, this paper examines the population of 5,986 students at a large university in the Philippines, investigating algorithmic bias based on students' regional background. The university used the Canvas learning management system (LMS) in its online courses across a broad range of domains. Over the period of three semesters, we collected 48.7 million log records of the students' activity in Canvas. We used these logs to train binary classification models that predict student grades from the LMS activity. The best-performing model reached AUC of 0.75 and weighted F1-score of 0.79. Subsequently, we examined the data for bias based on students' region. Evaluation using three metrics: AUC, weighted F1-score, and MADD showed consistent results across all demographic groups. Thus, no unfairness was observed against a particular student group in the grade predictions.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# 頑健な多目的最適化のためのスカラレーションに基づくリスク概念

Scalarisation-based risk concepts for robust multi-objective optimisation ( http://arxiv.org/abs/2405.10221v2 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei, (参考訳) ロバスト最適化は不確実性の存在下で関数を最適化するための確立されたフレームワークである。 この問題の本質的な目標は、問題の根底にある不確実性にも頑健であると同時に、意思決定者にとってもアウトプットが望ましいインプットの集合を特定することである。 本研究では,この問題の多目的事例について考察する。 我々は、ロバストな多目的アルゴリズムの大多数が、ロバスト化とスカラー化という2つの重要な操作に依存していることを確認した。 ロバスティフィケーション(Robustification)とは、問題の不確実性を説明するために使われる戦略である。 スケーラビリティとは、それぞれの目的の相対的な重要性をスカラー値の報酬にエンコードするために用いられる手続きを指す。 これらの操作は必ずしも可換ではないため、それらが実行される順序は、特定されるソリューションと最終的な決定に影響を及ぼす。 本研究の目的は、これらの異なる順序の影響について徹底的な説明を行うことであり、特に、一方が他方の順序を選択すべきときのハイライトである。 分析の一環として、ロバストな多目的最適化問題の仕様と解決に既存のリスク概念が組み入れられるかを示す。 さらに我々は,我々の 'robustify and scalarise'' 方法論に基づいた,ロバストなParetoフロントとロバストなパフォーマンスメトリクスの概念を主に定義する方法も示しています。 これらの新しいアイデアの有効性を説明するために、実世界のデータセットに基づく2つの洞察に富んだケーススタディを提案する。

Robust optimisation is a well-established framework for optimising functions in the presence of uncertainty. The inherent goal of this problem is to identify a collection of inputs whose outputs are both desirable for the decision maker, whilst also being robust to the underlying uncertainties in the problem. In this work, we study the multi-objective case of this problem. We identify that the majority of all robust multi-objective algorithms rely on two key operations: robustification and scalarisation. Robustification refers to the strategy that is used to account for the uncertainty in the problem. Scalarisation refers to the procedure that is used to encode the relative importance of each objective to a scalar-valued reward. As these operations are not necessarily commutative, the order that they are performed in has an impact on the resulting solutions that are identified and the final decisions that are made. The purpose of this work is to give a thorough exposition on the effects of these different orderings and in particular highlight when one should opt for one ordering over the other. As part of our analysis, we showcase how many existing risk concepts can be integrated into the specification and solution of a robust multi-objective optimisation problem. Besides this, we also demonstrate how one can principally define the notion of a robust Pareto front and a robust performance metric based on our ``robustify and scalarise'' methodology. To illustrate the efficacy of these new ideas, we present two insightful case studies which are based on real-world data sets.
翻訳日:2024-07-17 00:46:04 公開日:2024-07-15
# タスク対応型圧縮性表現に向けて

Towards Task-Compatible Compressible Representations ( http://arxiv.org/abs/2405.10244v3 )

ライセンス: Link先を確認
Anderson de Andrade, Ivan Bajić, (参考訳) 本研究では,学習可能なマルチタスク圧縮において,あるタスクで学習した表現が,期待したほど異なるタスクの速度歪み性能に寄与しないという問題を特定する。 我々はこの問題を予測的な$\mathcal{V}$-informationフレームワークを使って解釈する。 学習可能なスケーラブルコーディングでは、この共有表現を学習する際に入力再構成にも報いることで、入力再構成のためのサイド情報の利用が増加した。 我々は、入力再構成の文脈におけるこのアイデアの影響をより厳密に評価し、他のコンピュータビジョンタスクに拡張した。 我々はCOCO 2017のオブジェクト検出とCityscapesデータセットの深さ推定のために訓練された表現を用いて実験を行い、画像再構成とセマンティックセグメンテーションタスクを支援する。 その結果, 補足作業の速度歪み性能は有意に向上した。 さらに,提案した表現を用いて,基本タスクの性能も向上する。 提案手法は,下流プロセスとより互換性のあるより単純な表現を導出することを示す。

We identify an issue in multi-task learnable compression, in which a representation learned for one task does not positively contribute to the rate-distortion performance of a different task as much as expected, given the estimated amount of information available in it. We interpret this issue using the predictive $\mathcal{V}$-information framework. In learnable scalable coding, previous work increased the utilization of side-information for input reconstruction by also rewarding input reconstruction when learning this shared representation. We evaluate the impact of this idea in the context of input reconstruction more rigorously and extended it to other computer vision tasks. We perform experiments using representations trained for object detection on COCO 2017 and depth estimation on the Cityscapes dataset, and use them to assist in image reconstruction and semantic segmentation tasks. The results show considerable improvements in the rate-distortion performance of the assisted tasks. Moreover, using the proposed representations, the performance of the base tasks are also improved. Results suggest that the proposed method induces simpler representations that are more compatible with downstream processes.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v8 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# CoLeaF: 弱めに監督されたオーディオ・ビジュアル・ビデオ・パーシングのためのコントラスト協調学習フレームワーク

CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2405.10690v4 )

ライセンス: Link先を確認
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton, (参考訳) 弱教師付きオーディオ視覚ビデオ解析(AVVP)手法は、ビデオレベルラベルのみを用いて、可聴性のみ、可視性のみ、可聴性のみを検出することを目的としている。 既存のアプローチでは、単調なコンテキストとクロスモーダルなコンテキストを活用することで、この問題に対処している。 しかし, クロスモーダル学習は, 可聴事象の検出に有用であるが, 弱教師付きシナリオでは, 無関係なモダリティ情報を導入することにより, 不整合性事象や可視性事象に悪影響を及ぼすと論じている。 本稿では,組込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。 さらに、ビデオは複雑なクラス関係を伴うことが多いため、それらをモデル化することでパフォーマンスが向上する。 しかし、これはネットワークに余分な計算コストをもたらす。 我々のフレームワークは、推論時に余分な計算を発生させることなく、トレーニング中にクラス間の関係を活用するように設計されている。 さらに,AVVPを実行する際の手法の能力を評価するための新しい指標を提案する。 我々の広範な実験により、CoLeaF は LLP と UnAV-100 のデータセットでそれぞれ平均 1.9% と 2.4% のFスコアで最先端の結果を大幅に改善することが示された。

Weakly supervised audio-visual video parsing (AVVP) methods aim to detect audible-only, visible-only, and audible-visible events using only video-level labels. Existing approaches tackle this by leveraging unimodal and cross-modal contexts. However, we argue that while cross-modal learning is beneficial for detecting audible-visible events, in the weakly supervised scenario, it negatively impacts unaligned audible or visible events by introducing irrelevant modality information. In this paper, we propose CoLeaF, a novel learning framework that optimizes the integration of cross-modal context in the embedding space such that the network explicitly learns to combine cross-modal information for audible-visible events while filtering them out for unaligned events. Additionally, as videos often involve complex class relationships, modelling them improves performance. However, this introduces extra computational costs into the network. Our framework is designed to leverage cross-class relationships during training without incurring additional computations at inference. Furthermore, we propose new metrics to better evaluate a method's capabilities in performing AVVP. Our extensive experiments demonstrate that CoLeaF significantly improves the state-of-the-art results by an average of 1.9% and 2.4% F-score on the LLP and UnAV-100 datasets, respectively.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# MVSGaussian: マルチビューステレオからの高速一般化可能なガウススプラッティング再構成

MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo ( http://arxiv.org/abs/2405.12218v3 )

ライセンス: Link先を確認
Tianqi Liu, Guangcong Wang, Shoukang Hu, Liao Shen, Xinyi Ye, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu, (参考訳) MVSGaussianは、Multi-View Stereo (MVS) から導かれる新しい一般化可能な3次元ガウス表現手法であり、見えないシーンを効率的に再構築することができる。 具体的には 1) MVS を利用して幾何学的ガウス表現を符号化し,それをガウスパラメータに復号する。 2) 性能をさらに向上させるために, 新規なビュー合成のための効率的なボリュームレンダリング設計を組み込んだハイブリッドガウスレンダリングを提案する。 3)特定シーンの高速微調整を支援するため,一般化可能なモデルによって生成された点群を効果的に集約する多視点幾何一貫したアグリゲーション戦略を導入し,シーンごとの最適化の初期化に役立てる。 画像毎の微調整と秒間レンダリングを必要とする従来の一般化可能なNeRFベースの手法と比較して、MVSGaussianは各シーンにより良い合成品質でリアルタイムレンダリングを実現する。 バニラ3D-GSと比較すると、MVSGaussianは、より少ないトレーニング計算コストでより良いビュー合成を実現している。 DTU, Real Forward- facing, NeRF Synthetic, and Tanks and Templesデータセットの大規模な実験により、MVSGaussianは、説得力のある汎用性、リアルタイムレンダリング速度、高速なシーンごとの最適化によって、最先端のパフォーマンスを達成できることが確認された。

We present MVSGaussian, a new generalizable 3D Gaussian representation approach derived from Multi-View Stereo (MVS) that can efficiently reconstruct unseen scenes. Specifically, 1) we leverage MVS to encode geometry-aware Gaussian representations and decode them into Gaussian parameters. 2) To further enhance performance, we propose a hybrid Gaussian rendering that integrates an efficient volume rendering design for novel view synthesis. 3) To support fast fine-tuning for specific scenes, we introduce a multi-view geometric consistent aggregation strategy to effectively aggregate the point clouds generated by the generalizable model, serving as the initialization for per-scene optimization. Compared with previous generalizable NeRF-based methods, which typically require minutes of fine-tuning and seconds of rendering per image, MVSGaussian achieves real-time rendering with better synthesis quality for each scene. Compared with the vanilla 3D-GS, MVSGaussian achieves better view synthesis with less training computational cost. Extensive experiments on DTU, Real Forward-facing, NeRF Synthetic, and Tanks and Temples datasets validate that MVSGaussian attains state-of-the-art performance with convincing generalizability, real-time rendering speed, and fast per-scene optimization.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# ストップ! 義理の名において:NLPにおける個人名とソシオドモグラフィー属性を異にする

Stop! In the Name of Flaws: Disentangling Personal Names and Sociodemographic Attributes in NLP ( http://arxiv.org/abs/2405.17159v2 )

ライセンス: Link先を確認
Vagrant Gautam, Arjun Subramonian, Anne Lauscher, Os Keyes, (参考訳) 個人名は同時に個人を区別し、特定の社会において重要な方法で分類する。 自然言語処理コミュニティは、様々なタスクにおいて、人名と社会デマログラフィーの特徴を関連付けてきたが、研究者は、それを行う上で確立された方法論的な問題に、様々な度合いで取り組んできた。 名前と社会デマログラフィーの特徴を用いた今後の研究を導くため,まず,名称と命名に関する学際的背景を示す。 次に,社会デマロジカルな属性を連想させ,妥当性の問題(例えば,体系的誤り,構成的妥当性)と倫理的懸念(例えば,害,差分的影響,文化的過敏性)について調査する。 最後に、自然言語処理における名前や社会デマログラフの特徴を扱う際に、妥当性や倫理的落とし穴を避けるための規範的勧告とともに、指導的質問を提供する。

Personal names simultaneously differentiate individuals and categorize them in ways that are important in a given society. While the natural language processing community has thus associated personal names with sociodemographic characteristics in a variety of tasks, researchers have engaged to varying degrees with the established methodological problems in doing so. To guide future work that uses names and sociodemographic characteristics, we provide an overview of relevant research: first, we present an interdisciplinary background on names and naming. We then survey the issues inherent to associating names with sociodemographic attributes, covering problems of validity (e.g., systematic error, construct validity), as well as ethical concerns (e.g., harms, differential impact, cultural insensitivity). Finally, we provide guiding questions along with normative recommendations to avoid validity and ethical pitfalls when dealing with names and sociodemographic characteristics in natural language processing.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# InversionView:ニューラルアクティベーションから情報を読む汎用的方法

InversionView: A General-Purpose Method for Reading Information from Neural Activations ( http://arxiv.org/abs/2405.17653v3 )

ライセンス: Link先を確認
Xinting Huang, Madhur Panwar, Navin Goyal, Michael Hahn, (参考訳) ニューラルネットワークの内部動作は、ニューラルアクティベーションで符号化された情報を完全に解読できれば、よりよく理解できる。 本稿では、この情報が、同様のアクティベーションを引き起こす入力のサブセットによって具現化されていることを論じる。 そのような部分集合の計算は、入力空間が指数関数的に大きいため、自明ではない。 InversionViewを提案し、アクティベーションに条件付きトレーニングされたデコーダモデルからサンプリングすることで、このサブセットを実際に検査することができる。 これにより、アクティベーションベクトルの情報内容が明らかになり、トランスフォーマーモデルによって実装されたアルゴリズムの理解が容易になる。 本研究は,小型変圧器からGPT-2までのモデルについて検討する4つのケーススタディである。 本研究では,本手法の特徴を実証し,その特長を示し,因果的に検証された回路を提供する。

The inner workings of neural networks can be better understood if we can fully decipher the information encoded in neural activations. In this paper, we argue that this information is embodied by the subset of inputs that give rise to similar activations. Computing such subsets is nontrivial as the input space is exponentially large. We propose InversionView, which allows us to practically inspect this subset by sampling from a trained decoder model conditioned on activations. This helps uncover the information content of activation vectors, and facilitates understanding of the algorithms implemented by transformer models. We present four case studies where we investigate models ranging from small transformers to GPT-2. In these studies, we demonstrate the characteristics of our method, show the distinctive advantages it offers, and provide causally verified circuits.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# オープンドメインテキスト駆動型マルチパーソン運動合成に向けて

Towards Open Domain Text-Driven Synthesis of Multi-Person Motions ( http://arxiv.org/abs/2405.18483v2 )

ライセンス: Link先を確認
Mengyi Shan, Lu Dong, Yutao Han, Yuan Yao, Tao Liu, Ifeoma Nwogu, Guo-Jun Qi, Mitch Hill, (参考訳) この研究は、テキスト記述から複数の人間の自然な、多様な集団の動きを生成することを目的としている。 シングル・パーソン・テキスト・トゥ・モーション・ジェネレーションは広く研究されているが、利用可能なデータセットが欠如しているため、ワン・ツー・モーション・プロンプトから1つか2つ以上の被験者の動作を合成することは依然として困難である。 本研究では,大規模な画像やビデオからのポーズ情報を推定することにより,人間のポーズと動きのデータセットをキュレートする。 我々のモデルはトランスフォーマーベースの拡散フレームワークを使用しており、複数の主題やフレームを持つ複数のデータセットに対応しています。 実験では,複数人物の静的ポーズの生成と複数人物の動作シーケンスの生成の両方を探索する。 我々の知る限り、本手法は、多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。

This work aims to generate natural and diverse group motions of multiple humans from textual descriptions. While single-person text-to-motion generation is extensively studied, it remains challenging to synthesize motions for more than one or two subjects from in-the-wild prompts, mainly due to the lack of available datasets. In this work, we curate human pose and motion datasets by estimating pose information from large-scale image and video datasets. Our models use a transformer-based diffusion framework that accommodates multiple datasets with any number of subjects or frames. Experiments explore both generation of multi-person static poses and generation of multi-person motion sequences. To our knowledge, our method is the first to generate multi-subject motion sequences with high diversity and fidelity from a large variety of textual prompts.
翻訳日:2024-07-17 00:36:09 公開日:2024-07-15
# Cephalo:バイオインスパイアされた材料分析と設計のためのマルチモーダルビジョンランゲージモデル

Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design ( http://arxiv.org/abs/2405.19076v3 )

ライセンス: Link先を確認
Markus J. Buehler, (参考訳) 本稿では,教材科学応用のための多モード視覚大言語モデル (V-LLM) であるCephaloについて述べる。 Cephaloの重要な革新は、その高度なデータセット生成方法である。 Cephaloは、何千もの科学論文と科学に焦点を当てたウィキペディアデータの統合画像とテキストデータに基づいて訓練されており、複雑な視覚シーンを解釈し、正確な言語記述を生成し、画像に関する質問に効果的に答えることができる。 視覚エンコーダと自動回帰変換器の組み合わせはマルチモーダル自然言語理解をサポートし、他の生成手法と結合して画像からテキストへ3Dパイプラインを作成することができる。 より小型のモデルからより有能なモデルを開発するために,実験的手法とモデルマージの両方を報告する。 本研究は, 生物材料, 破壊・工学解析, タンパク質生理学, 昆虫行動に基づくバイオインスパイアデザインを含む多種多様なユースケースのモデルについて検討する。 生成的応用には、花粉にインスパイアされた建築材料を含む生物にインスパイアされたデザインや、日食の写真から生体にインスパイアされた材料の微細構造を合成することが含まれる。 一連の分子動力学によるモデル微調整により、セファロは、応力と原子エネルギー分布の統計的特徴を正確に予測する能力と、材料中のひび割れのダイナミクスと損傷を正確に予測できることを示した。

We present Cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating visual and linguistic data for enhanced understanding. A key innovation of Cephalo is its advanced dataset generation method. Cephalo is trained on integrated image and text data from thousands of scientific papers and science-focused Wikipedia data demonstrates can interpret complex visual scenes, generate precise language descriptions, and answer queries about images effectively. The combination of a vision encoder with an autoregressive transformer supports multimodal natural language understanding, which can be coupled with other generative methods to create an image-to-text-to-3D pipeline. To develop more capable models from smaller ones, we report both mixture-of-expert methods and model merging. We examine the models in diverse use cases that incorporate biological materials, fracture and engineering analysis, protein biophysics, and bio-inspired design based on insect behavior. Generative applications include bio-inspired designs, including pollen-inspired architected materials, as well as the synthesis of bio-inspired material microstructures from a photograph of a solar eclipse. Additional model fine-tuning with a series of molecular dynamics results demonstrate Cephalo's enhanced capabilities to accurately predict statistical features of stress and atomic energy distributions, as well as crack dynamics and damage in materials.
翻訳日:2024-07-17 00:26:24 公開日:2024-07-15
# オフライン強化学習のための適応的アドバンテージ誘導型ポリシー規則化

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19909v3 )

ライセンス: Link先を確認
Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan, Xin Xu, (参考訳) オフライン強化学習では、アウト・オブ・ディストリビューション(OOD)の課題が読み取れる。 これを解決するために、既存の手法は、しばしばポリシーの規則化を通じて学習したポリシーを制約する。 しかし、これらの方法はしばしば不必要な保守性の問題に悩まされ、政策改善を妨げている。 これは、オフラインデータセットを制約として生成する振舞いポリシーから、すべてのアクションが無差別に使用されるためである。 データセットの品質が最適以下である場合、この問題は特に顕著になる。 そこで我々は, 適応アドバンテージ誘導型政策規則化(A2PR)を提案し, VAEと組み合わせた拡張行動政策から高アドバンテージな行動を求め, 学習方針を導出する。 A2PRはデータセットにあるものとは異なる高アドバンテージなアクションを選択できるが、OODアクションからの保守性を効果的に維持できる。 これは、VAEキャパシティを利用して、データポイントの分布に一致するサンプルを生成することで達成される。 我々は行動政策の改善が保証されていることを理論的に証明する。 さらに、値過大評価を有界な性能ギャップで効果的に軽減する。 実験的に、我々はD4RLベンチマークで一連の実験を行い、A2PRは最先端の性能を示す。 さらに、追加の最適混合データセットに対する実験結果から、A2PRは優れた性能を示すことが明らかとなった。 コードはhttps://github.com/ltlhuuu/A2PRで公開されている。

In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR.
翻訳日:2024-07-17 00:26:24 公開日:2024-07-15
# CWRCzech: 100M Query-Document Czech Click Dataset と Web 関連ランキングへの応用

CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking ( http://arxiv.org/abs/2405.20994v2 )

ライセンス: Link先を確認
Josef Vonášek, Milan Straka, Rostislav Krč, Lenka Lasoňová, Ekaterina Egorova, Jana Straková, Jakub Náplava, (参考訳) CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset forlevance ranking with user behavior data collected from search engine logs of Seznam$。 CZだ 私たちの知る限りでは、CWRCzechは原文を公開している最大のクリックデータセットです。 検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。 さらに,少なくとも2つのアノテータによって注釈付けされた50万近いクエリドキュメントペアを含む,関連タスク用の手動アノテートチェコテストも公開しています。 最後に、ユーザの行動データが関連性ランキングをどのように改善するかを分析し、十分な規模で自動的にトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。 CWRCzechは学術的な非商用ライセンスの下で公開されており、https://github.com/seznam/CWRCzechで研究コミュニティに公開されている。

We present CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset for relevance ranking with user behavior data collected from search engine logs of Seznam$.$cz. To the best of our knowledge, CWRCzech is the largest click dataset with raw text published so far. It provides document positions in the search results as well as information about user behavior: 27.6M clicked documents and 10.8M dwell times. In addition, we also publish a manually annotated Czech test for the relevance task, containing nearly 50k query-document pairs, each annotated by at least 2 annotators. Finally, we analyze how the user behavior data improve relevance ranking and show that models trained on data automatically harnessed at sufficient scale can surpass the performance of models trained on human annotated data. CWRCzech is published under an academic non-commercial license and is available to the research community at https://github.com/seznam/CWRCzech.
翻訳日:2024-07-17 00:26:24 公開日:2024-07-15
# Topo4D:高忠実4Dヘッドキャプチャのためのトポロジー保存型ガウススプラッティング

Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture ( http://arxiv.org/abs/2406.00440v3 )

ライセンス: Link先を確認
Xuanchen Li, Yuhao Cheng, Xingyu Ren, Haozhe Jia, Di Xu, Wenhan Zhu, Yichao Yan, (参考訳) 4Dヘッドキャプチャーは、動画から動的トポロジカルメッシュとそれに対応するテクスチャマップを生成することを目的としており、映画やゲームで広く利用されている。 業界はしばしば多視点ステレオと非剛性アライメントを含む手法を採用する。 しかし、このアプローチはエラーを起こしやすく、アーティストによる時間を要する手作業の処理に大きく依存する。 このプロセスを簡略化するために,キャリブレーションされたマルチビュー時系列画像から直接,密集した4Dヘッドと8Kテクスチャマップを最適化する,自動幾何およびテクスチャ生成のための新しいフレームワークであるTopo4Dを提案する。 具体的には、まず時系列面を、ガウス中心がメッシュ頂点に結合する固定位相を持つ動的3次元ガウス面の集合として表現する。 その後、時間的トポロジー安定性を維持しつつ、高品質な幾何学とテクスチャ学習のための代替幾何学とテクスチャ最適化フレームをフレーム単位で実行した。 最後に、学習したガウシアンから、規則的な配線配列と高忠実度テクスチャの動的顔メッシュを細孔レベルの詳細で抽出することができる。 本手法はメッシュの質とテクスチャの両面で,現在のSOTA顔再構成法よりも優れた結果が得られることを示す。 プロジェクトページ: https://xuanchenli.github.io/Topo4D/。

4D head capture aims to generate dynamic topological meshes and corresponding texture maps from videos, which is widely utilized in movies and games for its ability to simulate facial muscle movements and recover dynamic textures in pore-squeezing. The industry often adopts the method involving multi-view stereo and non-rigid alignment. However, this approach is prone to errors and heavily reliant on time-consuming manual processing by artists. To simplify this process, we propose Topo4D, a novel framework for automatic geometry and texture generation, which optimizes densely aligned 4D heads and 8K texture maps directly from calibrated multi-view time-series images. Specifically, we first represent the time-series faces as a set of dynamic 3D Gaussians with fixed topology in which the Gaussian centers are bound to the mesh vertices. Afterward, we perform alternative geometry and texture optimization frame-by-frame for high-quality geometry and texture learning while maintaining temporal topology stability. Finally, we can extract dynamic facial meshes in regular wiring arrangement and high-fidelity textures with pore-level details from the learned Gaussians. Extensive experiments show that our method achieves superior results than the current SOTA face reconstruction methods both in the quality of meshes and textures. Project page: https://xuanchenli.github.io/Topo4D/.
翻訳日:2024-07-17 00:26:24 公開日:2024-07-15
# 量子モンテカルロ法による絡み合いエントロピーの大規模データを高精度に抽出するアルゴリズム

A quantum Monte Carlo algorithm to extract large-scale data of entanglement entropy and its derivative in high precision ( http://arxiv.org/abs/2406.05324v2 )

ライセンス: Link先を確認
Zhe Wang, Zhiyan Wang, Yi-Ming Ding, Bin-Bin Mao, Zheng Yan, (参考訳) 本稿では,量子モンテカルロ法(QMC)を用いて,エンタングルメントエントロピー(EE)とその誘導体の大規模データを高精度かつ低い技術的障壁で抽出する手法を提案する。 2次元および高次元系の広いパラメータ領域でEEを走査することで、新しい位相と位相遷移を数値的に検出する方法を開く。 言い換えれば、計算時間の同じ順序で、以前の手法は1つのEEデータポイントしか取得できないが、物理パラメータパスに沿って何千回(さらに)EEデータポイントを得ることができる。 次に、EEとそのデリバティブを用いて位相遷移点を見つけ、新しい位相を探索する可能性を示す。

We propose a quantum Monte Carlo (QMC) scheme able to extract large-scale data of entanglement entropy (EE) and its derivative with high precision and low technical barrier. It opens a way to numerically detect the novel phases and phase transitions by scanning EE in a wide parameter-region in two and higher dimensional systems. In other words, in the same order of computational time, the previous methods could only get one EE data point, but we can obtain thousands (even more) of times EE data points along a physical parameter path. We then show the feasibility of using EE and its derivative to find phase transition points and to probe novel phases.
翻訳日:2024-07-17 00:26:24 公開日:2024-07-15
# Prompt Report: A Systematic Survey of Prompting Techniques

The Prompt Report: A Systematic Survey of Prompting Techniques ( http://arxiv.org/abs/2406.06608v3 )

ライセンス: Link先を確認
Sander Schulhoff, Michael Ilie, Nishant Balepur, Konstantine Kahadze, Amanda Liu, Chenglei Si, Yinheng Li, Aayush Gupta, HyoJung Han, Sevien Schulhoff, Pranav Sandeep Dulepet, Saurav Vidyadhara, Dayeon Ki, Sweta Agrawal, Chau Pham, Gerson Kroiz, Feileen Li, Hudson Tao, Ashay Srivastava, Hevander Da Costa, Saloni Gupta, Megan L. Rogers, Inna Goncearenco, Giuseppe Sarli, Igor Galynker, Denis Peskoff, Marine Carpuat, Jules White, Shyamal Anadkat, Alexander Hoyle, Philip Resnik, (参考訳) ジェネレーティブ・人工知能(GenAI)システムは、産業や研究環境のあらゆる部分に展開されている。 開発者とエンドユーザは、プロンプトやプロンプトエンジニアリングを使用して、これらのシステムと対話する。 プロンプトは広く研究されている概念であるが、この地域の急進性のために何がプロンプトを構成するのかについての矛盾する用語や質素な存在論的理解が存在する。 本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。 さらに、自然言語のプレフィックス・プロンプティングに関する文献全体をメタ分析する。

Generative Artificial Intelligence (GenAI) systems are being increasingly deployed across all parts of industry and research settings. Developers and end users interact with these systems through the use of prompting or prompt engineering. While prompting is a widespread and highly researched concept, there exists conflicting terminology and a poor ontological understanding of what constitutes a prompt due to the area's nascency. This paper establishes a structured understanding of prompts, by assembling a taxonomy of prompting techniques and analyzing their use. We present a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
翻訳日:2024-07-17 00:16:39 公開日:2024-07-15
# 英和同時解釈における語順:チャンクワイド単調翻訳を用いた分析と評価

Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation ( http://arxiv.org/abs/2406.08940v2 )

ライセンス: Link先を確認
Kosuke Doi, Yuka Ko, Mana Makinae, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。 単語順序の違いは、特に英語と日本語のような大きな構造的な違いを持つ言語ペアにおいて、SIにおける最大の課題の1つである。 本研究では,NAIST 英語-日本語文法翻訳評価データセットを用いて,チャンクワイドモノトニック翻訳(CMT)文の特徴を解析し,英語-日本語 SI でモノトニック翻訳が困難となる文法構造を同定した。 さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を,NAIST英語と日本語の単調翻訳評価データセットおよび既存のテストセット上で評価することにより,CMT文の特徴について検討した。 その結果、既存のSIベースのテストセットがモデル性能を過小評価している可能性が示唆された。 また,CMT文を参照として使用すると,STモデルよりもSimulSTモデルの方が高いスコアが得られること,および,SimulSTモデルを評価するオフラインベースのテストセットを用いることでモデル性能を過小評価すること,などが示唆された。

This paper analyzes the features of monotonic translations, which follow the word order of the source language, in simultaneous interpreting (SI). Word order differences are one of the biggest challenges in SI, especially for language pairs with significant structural differences like English and Japanese. We analyzed the characteristics of chunk-wise monotonic translation (CMT) sentences using the NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset and identified some grammatical structures that make monotonic translation difficult in English-Japanese SI. We further investigated the features of CMT sentences by evaluating the output from the existing speech translation (ST) and simultaneous speech translation (simulST) models on the NAIST English-to-Japanese Chunk-wise Monotonic Translation Evaluation Dataset as well as on existing test sets. The results indicate the possibility that the existing SI-based test set underestimates the model performance. The results also suggest that using CMT sentences as references gives higher scores to simulST models than ST models, and that using an offline-based test set to evaluate the simulST models underestimates the model performance.
翻訳日:2024-07-17 00:16:39 公開日:2024-07-15
# RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング

RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model ( http://arxiv.org/abs/2406.10157v3 )

ライセンス: Link先を確認
Hantao Zhou, Tianying Ji, Lukas Sommerhalder, Michael Goerner, Norman Hendrich, Jianwei Zhang, Fuchun Sun, Huazhe Xu, (参考訳) 無限のコートレイアウトと複雑なボールモーションを備えたゲームMinigolfは、エンボディドインテリジェンスの研究のための魅力的な現実世界のテストベッドを構成する。 空間的およびキノダイナミックな推論に挑戦するだけでなく、誤って設計されたコースに対処するためには反射的および補正能力も必要である。 ネストされたVLMを用いた閉ループ制御と反射平衡ループによりデュアルカメラの視覚入力を知覚するVLMベースのフレームワークであるRoboGolfを紹介する。 大規模な実験は、RoboGolfのミニゴルフコートに対する効果を実証している。

Minigolf, a game with countless court layouts, and complex ball motion, constitutes a compelling real-world testbed for the study of embodied intelligence. As it not only challenges spatial and kinodynamic reasoning but also requires reflective and corrective capacities to address erroneously designed courses. We introduce RoboGolf, a VLM-based framework that perceives dual-camera visual inputs with nested VLM-empowered closed-loop control and reflective equilibrium loop. Extensive experiments demonstrate the effectiveness of RoboGolf on challenging minigolf courts including those that are impossible to finish.
翻訳日:2024-07-17 00:16:39 公開日:2024-07-15
# ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価

Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game ( http://arxiv.org/abs/2406.11012v5 )

ライセンス: Link先を確認
Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan, (参考訳) New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。 我々は200のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。 以上の結果から,多種多様なベンチマークで顕著な推論能力を示した最高のLPMであるGPT-4oでも,ゲーム全体の8%しか解けないことがわかった。 GPT-4oと比較すると、初心者や専門家のプレイヤーはGPT-4oより優れており、専門家のプレイヤーはGPT-4oよりも優れていた。 我々の理解を深めるために、私たちはコネクティクスゲームにおける単語の分類に成功するために必要な知識タイプの分類を作成し、LLMが連想的、百科事典的、言語的知識に苦しむことを明らかにした。 我々の発見は、New York Times Connectionsゲームが、人間とAIシステムの抽象的推論能力を評価するための挑戦的なベンチマークとして確立されている。

The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
翻訳日:2024-07-17 00:16:39 公開日:2024-07-15
# 言語モデルの拒絶は1つの方向によって媒介される

Refusal in Language Models Is Mediated by a Single Direction ( http://arxiv.org/abs/2406.11717v2 )

ライセンス: Link先を確認
Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda, (参考訳) 対話型大規模言語モデルは、命令追従と安全性の両方のために微調整され、良心的な要求に従うが有害な言語を拒否するモデルとなる。 この拒絶行動はチャットモデル全体に広がっているが、その基盤となるメカニズムはいまだに理解されていない。 本研究では,1次元のサブスペースを介し,最大72Bのパラメータを持つ13のオープンソースチャットモデルを対象とした。 具体的には、各モデルに対して、モデルが残したストリームアクティベートからこの方向を消去することで、有害な命令を拒否するのを防ぐ一方、この方向を追加することで、有害な命令さえも拒否する1つの方向を見つける。 この知見を生かして,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。 最後に, 逆行性接尾辞が拒絶媒介方向の伝播を抑制するかを機械的に解析する。 本研究は, 現行の安全微調整法の脆さを浮き彫りにした。 より広範に、我々の研究はモデル内部の理解をどのように活用してモデル行動を制御する実践的な方法を開発するかを示した。

Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model's residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.
翻訳日:2024-07-17 00:16:39 公開日:2024-07-15
# 実情整合モデルによる質問文生成の学習

Learning to Generate Answers with Citations via Factual Consistency Models ( http://arxiv.org/abs/2406.13124v2 )

ライセンス: Link先を確認
Rami Aly, Zhiqiang Tang, Samson Tan, George Karypis, (参考訳) 大規模言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。 この問題に対処する1つのアプローチは、生成したコンテンツと共に関連するソースに引用を提供することで、世代間の妥当性を高めることである。 しかし、答えを正確に引用することは依然として大きな課題である。 本稿では,事実整合性モデル(FCM)を利用した微調整手法を提案する。 提案手法は,引用付きテキストの生成とFCMフィルタリングによる微調整とを交互に行う。 フォーカスドラーニングは、FCMが測定した事実の単位トークンを強調するために微調整プロセスを指示する。 ALCEの様々な命令チューニング LLM による数ショットの引用ベンチマークの結果は、コンテキスト内学習、バニラ教師ありの微調整、最先端の手法と比較して、それぞれ平均344.1ドル、15.5ドル、および10.5$の引用F$1ドルポイントよりも優れた性能を示した。 さらに、ドメイン転送設定では、得られた引用生成能力が、目に見えないデータセットに頑健に転送されることを示す。 特に、引用の改善は、ベースラインをまたがる最も低い事実的エラー率に寄与します。

Large Language Models (LLMs) frequently hallucinate, impeding their reliability in mission-critical situations. One approach to address this issue is to provide citations to relevant sources alongside generated content, enhancing the verifiability of generations. However, citing passages accurately in answers remains a substantial challenge. This paper proposes a weakly-supervised fine-tuning method leveraging factual consistency models (FCMs). Our approach alternates between generating texts with citations and supervised fine-tuning with FCM-filtered citation data. Focused learning is integrated into the objective, directing the fine-tuning process to emphasise the factual unit tokens, as measured by an FCM. Results on the ALCE few-shot citation benchmark with various instruction-tuned LLMs demonstrate superior performance compared to in-context learning, vanilla supervised fine-tuning, and state-of-the-art methods, with an average improvement of $34.1$, $15.5$, and $10.5$ citation F$_1$ points, respectively. Moreover, in a domain transfer setting we show that the obtained citation generation ability robustly transfers to unseen datasets. Notably, our citation improvements contribute to the lowest factual error rate across baselines.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 異種センサとタスク間の表現学習のための伝達可能な触覚変換器

Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks ( http://arxiv.org/abs/2406.13640v2 )

ライセンス: Link先を確認
Jialiang Zhao, Yuxiang Ma, Lirui Wang, Edward H. Adelson, (参考訳) 本稿では,マルチセンサとマルチタスクにまたがる触覚表現学習フレームワークであるTransferable Tactile Transformersについて述べる。 T3は、カメラベースの触覚センシングは極めて異種であり、センサーは異なるフォームファクタに構築され、既存のデータセットは異なるタスクのために収集された。 T3は、センサ固有のエンコーダとタスク固有のデコーダを備えた共有トランクトランスを構築することで、センサとタスクのペアリング間で共有潜在情報をキャプチャする。 T3の事前トレーニングでは、オープンソースのデータセットから収集された新しいFoundation Tactile(FoTa)データセットを使用しており、13のセンサーと11のタスクから収集された300万以上のデータポイントが含まれている。 FoTaは、これまでで最大の、最も多様な触覚センシングデータセットであり、統一されたフォーマットで公開されています。 様々なセンサやタスクにわたって、FoTaで事前訓練されたT3は、特定のセンサーとタスクのペアリングにおいてゼロショット転送性を実現し、少数のドメイン固有データと、ネットワークサイズを大きくしたパフォーマンススケールでさらに微調整できることが実験によって示されている。 また、T3は長距離接点リッチな操作のための触覚エンコーダとしても有効である。 サブミリ以下のマルチピン電子挿入タスクの結果、T3は触覚センサーを使わずにトレーニングした触覚エンコーダで訓練したポリシーよりも25%高いタスク成功率を示した。 データ、コード、モデルチェックポイントはhttps://t3.alanz.info.comでオープンソース化されている。

This paper presents T3: Transferable Tactile Transformers, a framework for tactile representation learning that scales across multi-sensors and multi-tasks. T3 is designed to overcome the contemporary issue that camera-based tactile sensing is extremely heterogeneous, i.e. sensors are built into different form factors, and existing datasets were collected for disparate tasks. T3 captures the shared latent information across different sensor-task pairings by constructing a shared trunk transformer with sensor-specific encoders and task-specific decoders. The pre-training of T3 utilizes a novel Foundation Tactile (FoTa) dataset, which is aggregated from several open-sourced datasets and it contains over 3 million data points gathered from 13 sensors and 11 tasks. FoTa is the largest and most diverse dataset in tactile sensing to date and it is made publicly available in a unified format. Across various sensors and tasks, experiments show that T3 pre-trained with FoTa achieved zero-shot transferability in certain sensor-task pairings, can be further fine-tuned with small amounts of domain-specific data, and its performance scales with bigger network sizes. T3 is also effective as a tactile encoder for long horizon contact-rich manipulation. Results from sub-millimeter multi-pin electronics insertion tasks show that T3 achieved a task success rate 25% higher than that of policies trained with tactile encoders trained from scratch, or 53% higher than without tactile sensing. Data, code, and model checkpoints are open-sourced at https://t3.alanz.info.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 騒音からの計測誘起相転移の保護

Protect Measurement-Induced Phase Transition from Noise ( http://arxiv.org/abs/2406.14109v2 )

ライセンス: Link先を確認
Dongheng Qian, Jing Wang, (参考訳) 測定誘起相転移(MIPT)は、絡み合いエントロピーを特徴とする新しい非平衡相転移である。 ランダムなユニタリゲートによって誘導されるスクランブルダイナミクスは、低レートの測定から情報を保護することができる。 しかし、デフォーカスのような一般的なデコヒーレンスノイズは体積法相に有害であり、現在のノイズの多い中規模量子デバイスでMIPTを観測する上で大きな課題となっている。 本稿では,MIPTを環境騒音から効果的に保護できることを実証する。 条件エンタングルメントエントロピーは、2つの競合する外乱場としてノイズと量子エンハンスド演算が作用する統計力学モデルと関連付けられている。 そして, 平均機器環境交換対称性により, 条件エンタングルメントエントロピーがエンタングルメントの有効なプローブであることを確かめる。 さらに,(2+1)-d量子回路の劣化雑音下での数値的証明を行い,MIPTが実際に量子化演算によって観測可能であることを示す。 この結果は、ノイズと戦う際の量子エンハンスメントの力の具体的な例として機能するだけでなく、実際に実装するのが簡単なプロトコルであるため、実験的な関連性も持つ。

Measurement-induced phase transition (MIPT) is a novel non-equilibrium phase transition characterized by entanglement entropy. The scrambling dynamics induced by random unitary gates can protect information from low-rate measurements. However, common decoherence noises, such as dephasing, are detrimental to the volume law phase, posing a significant challenge for observing MIPT in current noisy intermediate-scale quantum devices. Here, we demonstrate that incorporating quantum-enhanced operations can effectively protect MIPT from environmental noise. The conditional entanglement entropy is associated with a statistical mechanics model wherein noise and quantum-enhanced operations act as two competing external random fields. Then we show that an average apparatus-environment exchange symmetry ensures the conditional entanglement entropy is a valid probe of entanglement. Furthermore, we provide numerical evidence on a (2+1)-d quantum circuit under dephasing noise, demonstrating that MIPT can indeed be observed with the aid of quantum-enhanced operations. This result not only serves as a concrete example of the power of quantum enhancement in combating noise but also holds experimental relevance, as the protocol is straightforward to implement in practice.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 開放量子系における忠実性の非線形性:高次元量子コンピューティングにおけるゲートとノイズ依存性

Nonlinearity of the Fidelity in Open Qudit Systems: Gate and Noise Dependence in High-dimensional Quantum Computing ( http://arxiv.org/abs/2406.15141v2 )

ライセンス: Link先を確認
Jean-Gabriel Hartmann, Denis Janković, Rémi Pasquier, Mario Ruben, Paul-Antoine Hervieux, (参考訳) 高次元量子コンピューティングは、従来の量子ビットベースのシステムで直面するスケーラビリティとエラー訂正の問題に対処する可能性から、大きな関心を集めている。 本稿では、リンドブラッド形式におけるマルコフ雑音下での単一キューディット系の平均ゲート忠実度(AGF)について検討し、高次補正項の計算のための包括的な理論的枠組みを開発することにより、これまでの研究を拡張した。 環境結合係数の観点から平均ゲート不整合(AGI)の摂動膨張に関する一般表現を導出し,これらを広範囲の数値シミュレーションにより検証し,強い結合状態における線形な挙動から非線形な挙動への遷移を強調する。 本研究は,AGIがQudit次元,量子ゲート選択,ノイズ強度に依存していることに注目し,量子ゲート設計と誤り訂正プロトコルを最適化するための重要な洞察を提供する。 さらに,本フレームワークは,強結合系におけるAGIの普遍的バウンダリの同定と,近距離キュートアーキテクチャの性能向上のための実践的意義について検討する。 この研究は、高次元量子コンピューティングにおける将来の研究と発展のための堅牢な基盤を提供し、ロバストで高忠実な量子演算の発展に寄与する。

High-dimensional quantum computing has generated significant interest due to its potential to address scalability and error correction challenges faced by traditional qubit-based systems. This paper investigates the Average Gate Fidelity (AGF) of single qudit systems under Markovian noise in the Lindblad formalism, extending previous work by developing a comprehensive theoretical framework for the calculation of higher-order correction terms. We derive general expressions for the perturbative expansion of the Average Gate Infidelity (AGI) in terms of the environmental coupling coefficient and validate these with extensive numerical simulations, emphasizing the transition from linear to nonlinear behaviour in the strong coupling regime. Our findings highlight the dependence of AGI on qudit dimensionality, quantum gate choice, and noise strength, providing critical insights for optimising quantum gate design and error correction protocols. Additionally, we utilise our framework to identify universal bounds for the AGI in the strong coupling regime and explore the practical implications for enhancing the performance of near-term qudit architectures. This study offers a robust foundation for future research and development in high-dimensional quantum computing, contributing to the advancement of robust, high-fidelity quantum operations.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# TimeAutoDiff: 時系列表データ合成のためのオートエンコーダと拡散モデルの組み合わせ

TimeAutoDiff: Combining Autoencoder and Diffusion model for time series tabular data synthesizing ( http://arxiv.org/abs/2406.16028v2 )

ライセンス: Link先を確認
Namjoon Suh, Yuning Yang, Din-Yin Hsieh, Qitong Luan, Shirong Xu, Shixiang Zhu, Guang Cheng, (参考訳) 本稿では、遅延拡散モデルのパワーを活用して、合成時系列表データを生成する。 時間的および特徴的相関とともに、表における特徴の不均一性は、時系列表データモデリングにおける主要な障害の1つとなっている。 本稿では,変分オートエンコーダ(VAE)と拡散確率モデル(DDPM)のアイデアを組み合わせることで,この問題に対処する。 一般性: 単一からマルチシーケンスのデータセットから幅広い時系列データを扱う能力; 優れた忠実性と実用性保証: 6つの公開データセット上での数値実験: 時系列表データの生成における最先端モデルよりも大幅に改善されたことを示す実験; (3) 高速なサンプリング速度: 既存の拡散ベースモデルで実装された逐次データサンプリングスキームとは対照的に、全時系列データ生成: 最終的にサンプリング速度が大幅に向上する (4) 実条件生成: 文献における不均一な特徴を持つマルチシーケンス表データの条件付き生成の最初の実装。 コードは一般に公開される準備が整っているが、要求に応じて利用可能である。

In this paper, we leverage the power of latent diffusion models to generate synthetic time series tabular data. Along with the temporal and feature correlations, the heterogeneous nature of the feature in the table has been one of the main obstacles in time series tabular data modeling. We tackle this problem by combining the ideas of the variational auto-encoder (VAE) and the denoising diffusion probabilistic model (DDPM). Our model named as \texttt{TimeAutoDiff} has several key advantages including (1) Generality: the ability to handle the broad spectrum of time series tabular data from single to multi-sequence datasets; (2) Good fidelity and utility guarantees: numerical experiments on six publicly available datasets demonstrating significant improvements over state-of-the-art models in generating time series tabular data, across four metrics measuring fidelity and utility; (3) Fast sampling speed: entire time series data generation as opposed to the sequential data sampling schemes implemented in the existing diffusion-based models, eventually leading to significant improvements in sampling speed, (4) Entity conditional generation: the first implementation of conditional generation of multi-sequence time series tabular data with heterogenous features in the literature, enabling scenario exploration across multiple scientific and engineering domains. Codes are in preparation for release to the public, but available upon request.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 残響雑音環境における音方向の最大近似推定

Maximum Likelihood Estimation of the Direction of Sound In A Reverberant Noisy Environment ( http://arxiv.org/abs/2406.17103v2 )

ライセンス: Link先を確認
Mohamed F. Mansour, (参考訳) 残響環境における音の方向を音の伝搬の基本原理から推定する新しい手法について述べる。 本手法は,観測音場の音波分解後の方向成分の時間遅延とエネルギーからSNR適応特性を利用して,雑音および残響条件下での視線方向を推定する。 アプローチの有効性は、様々な使用シナリオ下で異なるマイクアレイ構成の測定データを用いて確立される。

We describe a new method for estimating the direction of sound in a reverberant environment from basic principles of sound propagation. The method utilizes SNR-adaptive features from time-delay and energy of the directional components after acoustic wave decomposition of the observed sound field to estimate the line-of-sight direction under noisy and reverberant conditions. The effectiveness of the approach is established with measured data of different microphone array configurations under various usage scenarios.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 手書き文書に対する質問応答の促進:HW-SQuADのための現状認識モデル

Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD ( http://arxiv.org/abs/2406.17437v2 )

ライセンス: Link先を確認
Aniket Pal, Ajoy Mondal, C. V. Jawahar, (参考訳) 質問に答える手書き文書は多くの現実世界のアプリケーションにおいて難しい課題である。 本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。 モデルレベルでの変換器ベースの文書検索とアンサンブル手法を取り入れ,HW-SQuADデータセットとBenthamQAデータセットにおいて,それぞれ82.02%,69%のExact Matchスコアを達成し,従来の最高の認識ベースアプローチを10.89%,3%上回った。 また,文書検索の精度を90%から95.30%に向上させた。 本研究は,手書き文書における質問応答の進行における提案手法の重要性を実証するものである。 コードとトレーニングされたモデルは、この重要な自然言語領域における将来の研究を促進するために公開されます。

Question-answering handwritten documents is a challenging task with numerous real-world applications. This paper proposes a novel recognition-based approach that improves upon the previous state-of-the-art on the HW-SQuAD and BenthamQA datasets. Our model incorporates transformer-based document retrieval and ensemble methods at the model level, achieving an Exact Match score of 82.02% and 69% in HW-SQuAD and BenthamQA datasets, respectively, surpassing the previous best recognition-based approach by 10.89% and 3%. We also enhance the document retrieval component, boosting the top-5 retrieval accuracy from 90% to 95.30%. Our results demonstrate the significance of our proposed approach in advancing question answering on handwritten documents. The code and trained models will be publicly available to facilitate future research in this critical area of natural language.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# WAVE:可変サイズのモデルの適応初期化のためのウェイトテンプレート

WAVE: Weight Template for Adaptive Initialization of Variable-sized Models ( http://arxiv.org/abs/2406.17503v2 )

ライセンス: Link先を確認
Fu Feng, Yucheng Xie, Jing Wang, Xin Geng, (参考訳) モデルパラメータの拡張は、事前訓練されたモデルの重要性を浮き彫りにするが、モデル展開時に発生する制約は、変数サイズのモデルを必要とする。 その結果、従来の事前学習および微調整のパラダイムは、目標モデルが事前訓練モデルと互換性がない場合に初期化の問題に対処できない。 マルチタスクの観点からこの問題に取り組み,共有された \textbf{W}eight テンプレートを組み込んだ \textbf{V}ariable-siz\textbf{E}d モデルを導入する。 初期化の間、ターゲットモデルはモデルサイズに合わせて対応するウェイトスケーラを初期化するが、これは限られたデータ量からクロネッカー積に基づくウェイトテンプレートの接続ルールを学ぶのに十分である。 重みテンプレートの構築には、祖先モデルからの共通知識を知識蒸留による学習遺伝子として重みテンプレートに構造的に凝縮する「textit{Learngene} framework」を用いる。 このプロセスは、トレーニング済みモデルの知識を重みテンプレートの規則に従って構造化された知識に統合することを可能にする。 本稿では,学習遺伝子に対する総合的なベンチマークを行い,WAVEの有効性を実証した。 その結果、WAVEは、様々な深さと幅のモデルの初期化時に最先端の性能を達成し、特に小型モデルでは、それぞれ$n\times$および$5\times$の計算資源において、$n$モデルの直接事前学習よりも優れていた。 WAVEは、一連のデータセットをまたいだ最も効率的な知識伝達を同時に達成し、特に7つの下流データセットで1.8\%と1.2\%の平均的な改善を達成する。

The expansion of model parameters underscores the significance of pre-trained models; however, the constraints encountered during model deployment necessitate models of variable sizes. Consequently, the traditional pre-training and fine-tuning paradigm fails to address the initialization problem when target models are incompatible with pre-trained models. We tackle this issue from a multitasking perspective and introduce \textbf{WAVE}, which incorporates a set of shared \textbf{W}eight templates for \textbf{A}daptive initialization of \textbf{V}ariable-siz\textbf{E}d Models. During initialization, target models will initialize the corresponding weight scalers tailored to their model size, which are sufficient to learn the connection rules of weight templates based on the Kronecker product from a limited amount of data. For the construction of the weight templates, WAVE utilizes the \textit{Learngene} framework, which structurally condenses common knowledge from ancestry models into weight templates as the learngenes through knowledge distillation. This process allows the integration of pre-trained models' knowledge into structured knowledge according to the rules of weight templates. We provide a comprehensive benchmark for the learngenes, and extensive experiments demonstrate the efficacy of WAVE. The results show that WAVE achieves state-of-the-art performance when initializing models with various depth and width, and even outperforms the direct pre-training of $n$ entire models, particularly for smaller models, saving approximately $n\times$ and $5\times$ in computational and storage resources, respectively. WAVE simultaneously achieves the most efficient knowledge transfer across a series of datasets, specifically achieving an average improvement of 1.8\% and 1.2\% on 7 downstream datasets.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# DoubleTake: 幾何学ガイドによる深さ推定

DoubleTake: Geometry Guided Depth Estimation ( http://arxiv.org/abs/2406.18387v2 )

ライセンス: Link先を確認
Mohamed Sayed, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Guillermo Garcia-Hernando, Gabriel Brostow, Sara Vicente, Michael Firman, (参考訳) 提案されたRGBイメージのシーケンスから深さを推定することは、拡張現実や経路計画などの応用を含む、基本的なコンピュータビジョンタスクである。 以前の作業は通常、局所的な近所のテクスチャに合わせて、マルチビューステレオフレームワークで以前のフレームを使用する。 対照的に、我々のモデルは、最新の3次元幾何学データを我々のネットワークに付加的な入力として与えることで、過去の予測を活用する。 この自己生成幾何学的ヒントは、キーフレームがカバーしていないシーンのエリアから情報を符号化することができ、以前のフレームの予測深度マップと比較してより規則化されたものである。 我々は,Hint MLPを導入し,既存のカメラ位置からの奥行きマップとしてレンダリングされた,コスト容積特徴と先行幾何学のヒントを組み合わせ,先行幾何学の信頼性を測る。 対話的な速度で動作可能な本手法は,オフラインおよびインクリメンタルな評価シナリオにおいて,最先端の深度推定と3次元シーン再構成を実現する。

Estimating depth from a sequence of posed RGB images is a fundamental computer vision task, with applications in augmented reality, path planning etc. Prior work typically makes use of previous frames in a multi view stereo framework, relying on matching textures in a local neighborhood. In contrast, our model leverages historical predictions by giving the latest 3D geometry data as an extra input to our network. This self-generated geometric hint can encode information from areas of the scene not covered by the keyframes and it is more regularized when compared to individual predicted depth maps for previous frames. We introduce a Hint MLP which combines cost volume features with a hint of the prior geometry, rendered as a depth map from the current camera location, together with a measure of the confidence in the prior geometry. We demonstrate that our method, which can run at interactive speeds, achieves state-of-the-art estimates of depth and 3D scene reconstruction in both offline and incremental evaluation scenarios.
翻訳日:2024-07-17 00:06:54 公開日:2024-07-15
# 大規模ビジョンランゲージモデルによるオープンワールドグラッピングに向けて

Towards Open-World Grasping with Large Vision-Language Models ( http://arxiv.org/abs/2406.18722v3 )

ライセンス: Link先を確認
Georgios Tziafas, Hamidreza Kasaei, (参考訳) オープンエンド言語命令から対象物を把握する能力は、ロボット工学における根本的な課題である。 オープンワールドの把握システムは、任意のシナリオに適用するために、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。 最近の研究は、大規模言語モデル(LLM)に固有のWebスケールの知識をロボットのコンテキストで計画と推論に利用しているが、そのような知識を環境に根ざし、動作をパラメータ化するために外部の視覚と行動モデルに依存している。 このセットアップには2つの大きなボトルネックがあります。 a) LLMの推論能力は、視覚的接地の品質に制約され、 b)LLMには世界に対する低レベルの空間的理解は含まれておらず、コンタクトリッチなシナリオの把握に不可欠である。 本研究は,現代視覚言語モデル(VLM)がこのような制約に対処できることを示すものである。 本稿では,VLMとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。 本研究は,オープンエンド言語を基盤としたOWGのロバスト性を示すために,乱雑な屋内シーンデータセットを広範囲に評価すると共に,従来のLLM法やゼロショット法と比較して優れた性能を示すシミュレーションとハードウェアの両方において,オープンソースのロボットグルーピング実験を行う。

The ability to grasp objects in-the-wild from open-ended language instructions constitutes a fundamental challenge in robotics. An open-world grasping system should be able to combine high-level contextual with low-level physical-geometric reasoning in order to be applicable in arbitrary scenarios. Recent works exploit the web-scale knowledge inherent in large language models (LLMs) to plan and reason in robotic context, but rely on external vision and action models to ground such knowledge into the environment and parameterize actuation. This setup suffers from two major bottlenecks: a) the LLM's reasoning capacity is constrained by the quality of visual grounding, and b) LLMs do not contain low-level spatial understanding of the world, which is essential for grasping in contact-rich scenarios. In this work we demonstrate that modern vision-language models (VLMs) are capable of tackling such limitations, as they are implicitly grounded and can jointly reason about semantics and geometry. We propose OWG, an open-world grasping pipeline that combines VLMs with segmentation and grasp synthesis models to unlock grounded world understanding in three stages: open-ended referring segmentation, grounded grasp planning and grasp ranking via contact reasoning, all of which can be applied zero-shot via suitable visual prompting mechanisms. We conduct extensive evaluation in cluttered indoor scene datasets to showcase OWG's robustness in grounding from open-ended language, as well as open-world robotic grasping experiments in both simulation and hardware that demonstrate superior performance compared to previous supervised and zero-shot LLM-based methods.
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# 物体中心前駆体を用いた3次元特徴蒸留

3D Feature Distillation with Object-Centric Priors ( http://arxiv.org/abs/2406.18742v3 )

ライセンス: Link先を確認
Georgios Tziafas, Yucheng Xu, Zhibin Li, Hamidreza Kasaei, (参考訳) 物理世界への自然言語の接地は、コンピュータビジョンとロボティクスに幅広い応用があるユビキタスなトピックである。 近年、CLIPのような2次元視覚言語モデルが広く普及している。 最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有で一般化されていないニューラルネットワークを学ぶか、複数のカメラビューへのアクセスを必要とする室内のスキャンデータに焦点を合わせるか、ロボット操作シナリオでは実用的ではない。 さらに、関連する手法は一般的にピクセルレベルで機能を融合させ、すべてのカメラビューが等しく有益であると仮定する。 本研究では, この手法が, 接地精度, セグメンテーションの両面において, 最適3次元特徴に繋がることを示す。 そこで本研究では,意味情報に基づく非形式的なビューを排除し,インスタンスセグメンテーションマスクを介してオブジェクトレベルでの機能を融合する,多視点機能融合戦略を提案する。 オブジェクト中心の3D特徴を抽出するために、乱雑なテーブルトップシーンの大規模合成マルチビューデータセットを生成し、3300以上のユニークなオブジェクトインスタンスから15kのシーンを生成し、公開しています。 提案手法は, 単視点のRGB-Dと併用しながら, 接地能力と空間的整合性を向上した3D CLIP機能を再構成し, テスト時の複数のカメラビューの仮定から逸脱することを示す。 最後に,本手法がテーブルトップ領域に一般化され,微調整なしで3次元インスタンスセグメンテーションに再利用可能であることを示すとともに,言語誘導型ロボットグルーピングにおける有用性を示す。

Grounding natural language to the physical world is a ubiquitous topic with a wide range of applications in computer vision and robotics. Recently, 2D vision-language models such as CLIP have been widely popularized, due to their impressive capabilities for open-vocabulary grounding in 2D images. Recent works aim to elevate 2D CLIP features to 3D via feature distillation, but either learn neural fields that are scene-specific and hence lack generalization, or focus on indoor room scan data that require access to multiple camera views, which is not practical in robot manipulation scenarios. Additionally, related methods typically fuse features at pixel-level and assume that all camera views are equally informative. In this work, we show that this approach leads to sub-optimal 3D features, both in terms of grounding accuracy, as well as segmentation crispness. To alleviate this, we propose a multi-view feature fusion strategy that employs object-centric priors to eliminate uninformative views based on semantic information, and fuse features at object-level via instance segmentation masks. To distill our object-centric 3D features, we generate a large-scale synthetic multi-view dataset of cluttered tabletop scenes, spawning 15k scenes from over 3300 unique object instances, which we make publicly available. We show that our method reconstructs 3D CLIP features with improved grounding capacity and spatial consistency, while doing so from single-view RGB-D, thus departing from the assumption of multiple camera views at test time. Finally, we show that our approach can generalize to novel tabletop domains and be re-purposed for 3D instance segmentation without fine-tuning, and demonstrate its utility for language-guided robotic grasping in clutter
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# 雨だるま、雨だるま、雨だるま:微調整カーネルスケジューラとコーディネート染料の相性について

Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent ( http://arxiv.org/abs/2406.20037v2 )

ライセンス: Link先を確認
Michael Canesche, Gaurav Verma, Fernando Magno Quintao Pereira, (参考訳) 機械学習モデルは、テンソルに演算を適用するアルゴリズム(自然数の線形結合でインデックス付けされたデータ)で構成されている。カーネルの例としては、畳み込み、転置、ベクトル積がある。カーネルを実装するには多くの方法がある。これらの実装はカーネルの最適化空間を形成している。カーネルスケジューリングは、目的関数(典型的には実行速度)から最高の実装を見つける問題である。 Ansor、Halide、AutoTVMといったカーネルオプティマイザは、探索とエクスプロイトという2つのフェーズを組み合わせた探索ヒューリスティックによってこの問題を解決する。 最初のステップは、多くの異なるカーネル最適化空間を評価する。 後者は、同じ空間内のカーネルを調査することで、最高の実装の改善を試みる。 例えば、Ansorはスケッチを通じてカーネル生成を組み合わせて探索し、進化的アルゴリズムを利用して最良のスケッチを利用する。 本研究では,オートTVMアルゴリズムであるDroplet SearchをAnsorの探索フェーズに組み込むことで,カーネルの品質を向上しつつ,Ansorの検索時間を短縮する可能性を実証する。 このアプローチでは、Ansorによって探索されたサンプルの数を制限し、最適なものを選択し、座標降下アルゴリズムでそれを利用する。 このアプローチを、Ansorが生成する最初の300のカーネルに適用することで、通常、Ansorが10,000のカーネルを解析した場合よりも少ない時間でより良いカーネルを得ることができます。 この結果は、AMD Ryzen 7 (x86)、NVIDIA A100テンソルコア、NVIDIA RTX 3080 GPU、ARM A64FXの4つのアーキテクチャで動作する20の有名なディープラーニングモデル(AlexNet、ResNet、VGG、DenseNetなど)で再現されている。 この組み合わせのアプローチは2024年2月にアンソールで承認された。 この手法の汎用性を示す証拠として,2024年6月にTVMのMetaScheduleに同様のパッチが提出された。

Machine-learning models consist of kernels, which are algorithms applying operations on tensors -- data indexed by a linear combination of natural numbers. Examples of kernels include convolutions, transpositions, and vectorial products. There are many ways to implement a kernel. These implementations form the kernel's optimization space. Kernel scheduling is the problem of finding the best implementation, given an objective function -- typically execution speed. Kernel optimizers such as Ansor, Halide, and AutoTVM solve this problem via search heuristics, which combine two phases: exploration and exploitation. The first step evaluates many different kernel optimization spaces. The latter tries to improve the best implementations by investigating a kernel within the same space. For example, Ansor combines kernel generation through sketches for exploration and leverages an evolutionary algorithm to exploit the best sketches. In this work, we demonstrate the potential to reduce Ansor's search time while enhancing kernel quality by incorporating Droplet Search, an AutoTVM algorithm, into Ansor's exploration phase. The approach involves limiting the number of samples explored by Ansor, selecting the best, and exploiting it with a coordinate descent algorithm. By applying this approach to the first 300 kernels that Ansor generates, we usually obtain better kernels in less time than if we let Ansor analyze 10,000 kernels. This result has been replicated in 20 well-known deep-learning models (AlexNet, ResNet, VGG, DenseNet, etc.) running on four architectures: an AMD Ryzen 7 (x86), an NVIDIA A100 tensor core, an NVIDIA RTX 3080 GPU, and an ARM A64FX. A patch with this combined approach was approved in Ansor in February 2024. As evidence of the generality of this search methodology, a similar patch, achieving equally good results, was submitted to TVM's MetaSchedule in June 2024.
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# SpeechBrain 1.0によるオープンソースの会話AI

Open-Source Conversational AI with SpeechBrain 1.0 ( http://arxiv.org/abs/2407.00463v3 )

ライセンス: Link先を確認
Mirco Ravanelli, Titouan Parcollet, Adel Moumen, Sylvain de Langen, Cem Subakan, Peter Plantinga, Yingzhi Wang, Pooneh Mousavi, Luca Della Libera, Artem Ploujnikov, Francesco Paissan, Davide Borra, Salah Zaiem, Zeyu Zhao, Shucong Zhang, Georgios Karakasidis, Sung-Lin Yeh, Aku Rouhe, Rudolf Braun, Florian Mai, Juan Zuluaga-Gomez, Seyed Mahed Mousavi, Andreas Nautsch, Xuechen Liu, Sangeet Sagar, Jarod Duret, Salima Mdhaffar, Gaelle Laperriere, Renato De Mori, Yannick Esteve, (参考訳) SpeechBrainは、PyTorchをベースとしたオープンソースの会話型AIツールキットで、音声認識、音声強調、話者認識、音声合成など、特に音声処理タスクに重点を置いている。 事前トレーニングされたモデルと、トレーニングに必要なコードとアルゴリズムの完全な“レシピ”の両方をリリースすることで、透明性と複製性を促進する。 本稿では,SpeechBrain 1.0について述べる。このツールキットは,200以上の音声,音声,言語処理タスクのレシピと,Hugging Faceで利用可能な100以上のモデルを備えている。 SpeechBrain 1.0では、多様な学習モダリティ、Large Language Model(LLM)統合、新しいモデル、タスク、モダリティとともに高度なデコード戦略をサポートする新しい技術が導入されている。 また、新しいベンチマークレポジトリが含まれており、研究者がさまざまなタスクでモデルを評価するための統一されたプラットフォームを提供する。

SpeechBrain is an open-source Conversational AI toolkit based on PyTorch, focused particularly on speech processing tasks such as speech recognition, speech enhancement, speaker recognition, text-to-speech, and much more. It promotes transparency and replicability by releasing both the pre-trained models and the complete "recipes" of code and algorithms required for training them. This paper presents SpeechBrain 1.0, a significant milestone in the evolution of the toolkit, which now has over 200 recipes for speech, audio, and language processing tasks, and more than 100 models available on Hugging Face. SpeechBrain 1.0 introduces new technologies to support diverse learning modalities, Large Language Model (LLM) integration, and advanced decoding strategies, along with novel models, tasks, and modalities. It also includes a new benchmark repository, offering researchers a unified platform for evaluating models across diverse tasks
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# ステップ制御DPO: 数学的推論のためのステップワイズエラーの活用

Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning ( http://arxiv.org/abs/2407.00782v3 )

ライセンス: Link先を確認
Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li, (参考訳) 直接選好最適化(DPO)は、推論やアライメントといった下流タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。 本研究では,特定のステップでエラーを発生させる数学的推論論理の負のサンプルを作成することで,段階的エラー監視を自動的に行う手法であるステップ制御型DPO(SCDPO)を提案する。 これらのサンプルをDPOトレーニングに適用することにより、SCDPOは推論エラーを理解し、正確な推論ステップを出力するようにモデルを整合させることができる。 我々は,SCDPOをコード統合とチェーン・オブ・思想の両ソリューションに適用し,既存のSFTモデルと2つのモデルを含む3つの異なるSFTモデルにおいて,単純なDPOと比較して連続的に性能を向上することを示した。 SCDPOとDPOのクレジット割り当ての質的解析は、数理解における誤りの同定におけるSCDPOの有効性を示す。 次に、SCDPOをInternLM2-20Bモデルに適用し、その結果、GSM8Kで88.5%、MATHで58.1%の高得点を達成し、他のオープンソースLCMに匹敵する20Bモデルを得る。

Direct Preference Optimization (DPO) has proven effective at improving the performance of large language models (LLMs) on downstream tasks such as reasoning and alignment. In this work, we propose Step-Controlled DPO (SCDPO), a method for automatically providing stepwise error supervision by creating negative samples of mathematical reasoning rationales that start making errors at a specified step. By applying these samples in DPO training, SCDPO can better align the model to understand reasoning errors and output accurate reasoning steps. We apply SCDPO to both code-integrated and chain-of-thought solutions, empirically showing that it consistently improves the performance compared to naive DPO on three different SFT models, including one existing SFT model and two models we finetuned. Qualitative analysis of the credit assignment of SCDPO and DPO demonstrates the effectiveness of SCDPO at identifying errors in mathematical solutions. We then apply SCDPO to an InternLM2-20B model, resulting in a 20B model that achieves high scores of 88.5% on GSM8K and 58.1% on MATH, rivaling all other open-source LLMs, showing the great potential of our method.
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# 物体検出の形式的検証

Formal Verification of Object Detection ( http://arxiv.org/abs/2407.01295v4 )

ライセンス: Link先を確認
Avraham Raviv, Yizhak Y. Elboher, Michelle Aluf-Medina, Yael Leibovich Weiss, Omer Cohen, Roy Assa, Guy Katz, Hillel Kugler, (参考訳) Deep Neural Networks(DNN)は、現実世界のアプリケーションではユビキタスだが、エラーや敵攻撃に対して脆弱である。 この研究は、コンピュータビジョンモデルの安全性を確保するために正式な検証を適用するという課題に取り組み、画像分類を超えてオブジェクト検出まで検証を拡張した。 本稿では,オブジェクト検出モデルのロバスト性を形式的検証を用いて証明するための一般的な定式化と,最先端の検証ツールと互換性のある実装戦略の概要を提案する。 本手法により,分類モデルの検証を目的としたこれらのツールのオブジェクト検出への応用が可能となった。 対象検出のための様々な攻撃を定義し、敵入力がニューラルネットワークの出力を損なう様々な方法を説明する。 いくつかの共通データセットやネットワーク上で実施した実験では、オブジェクト検出モデルにおける潜在的なエラーを明らかにし、システムの脆弱性を強調し、これらの新しいドメインに形式的検証を拡張する必要性を強調した。 この研究は、幅広いコンピュータビジョンアプリケーションにまたがって形式的検証を統合するためのさらなる研究の道を開く。

Deep Neural Networks (DNNs) are ubiquitous in real-world applications, yet they remain vulnerable to errors and adversarial attacks. This work tackles the challenge of applying formal verification to ensure the safety of computer vision models, extending verification beyond image classification to object detection. We propose a general formulation for certifying the robustness of object detection models using formal verification and outline implementation strategies compatible with state-of-the-art verification tools. Our approach enables the application of these tools, originally designed for verifying classification models, to object detection. We define various attacks for object detection, illustrating the diverse ways adversarial inputs can compromise neural network outputs. Our experiments, conducted on several common datasets and networks, reveal potential errors in object detection models, highlighting system vulnerabilities and emphasizing the need for expanding formal verification to these new domains. This work paves the way for further research in integrating formal verification across a broader range of computer vision applications.
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# 視覚言語モデルのための概念的コードブック学習

Conceptual Codebook Learning for Vision-Language Models ( http://arxiv.org/abs/2407.02350v3 )

ライセンス: Link先を確認
Yi Zhang, Ke Yu, Siqi Wu, Zhihai He, (参考訳) 本稿では,視覚言語モデル(VLM)の新しい微調整手法であるConceptual Codebook Learning (CoCoLe)を提案する。 我々は、テクスチャ、形状、色といった視覚概念が自然にドメイン間で伝達可能であり、一般化タスクにおいて重要な役割を果たすことを認識している。 この興味深い発見に触発されて、視覚概念をキーとして、概念的プロンプトを値として、概念的コードブックを学習し、画像エンコーダの出力とテキストエンコーダの入力とのリンクとして機能する。 具体的には、与えられた画像に対して、コードブックを利用して、クラス埋め込みに関連する最も関連性の高い概念的プロンプトを特定し、分類を実行する。 さらに、ローショットシナリオにおける過度な問題を軽減するために、手作りのコンセプトキャッシュを正規化として組み込んだ。 この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。 実験の結果,CoCoLe法は,ベース・ツー・ニューな一般化,クロス・データセット評価,ドメイン一般化タスクなど,さまざまな評価設定において,既存の最先端手法よりも著しく優れていた。 詳細なアブレーション研究により、CoCoLeの各成分の有効性がさらに確認された。

In this paper, we propose Conceptual Codebook Learning (CoCoLe), a novel fine-tuning method for vision-language models (VLMs) to address the challenge of improving the generalization capability of VLMs while fine-tuning them on downstream tasks in a few-shot setting. We recognize that visual concepts, such as textures, shapes, and colors are naturally transferable across domains and play a crucial role in generalization tasks. Motivated by this interesting finding, we learn a conceptual codebook consisting of visual concepts as keys and conceptual prompts as values, which serves as a link between the image encoder's outputs and the text encoder's inputs. Specifically, for a given image, we leverage the codebook to identify the most relevant conceptual prompts associated with the class embeddings to perform the classification. Additionally, we incorporate a handcrafted concept cache as a regularization to alleviate the overfitting issues in low-shot scenarios. We observe that this conceptual codebook learning method is able to achieve enhanced alignment between visual and linguistic modalities. Extensive experimental results demonstrate that our CoCoLe method remarkably outperforms the existing state-of-the-art methods across various evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization tasks. Detailed ablation studies further confirm the efficacy of each component in CoCoLe.
翻訳日:2024-07-16 23:57:10 公開日:2024-07-15
# 乳がん分離・同定のための多段階統合型深層学習フレームワーク

Multi-Attention Integrated Deep Learning Frameworks for Enhanced Breast Cancer Segmentation and Identification ( http://arxiv.org/abs/2407.02844v3 )

ライセンス: Link先を確認
Pandiyaraju V, Shravan Venkatraman, Pavan Kumar S, Santhosh Malarvannan, Kannan A, (参考訳) 乳がんは世界中で深刻な脅威となり、毎年多くの命が報告されている。 したがって、早期介入や生存率の向上には、タイムリーな検出が不可欠である。 超音波画像を用いた乳腺腫瘍の正確な診断と分類は、治療戦略の改善のために最先端の解決策を要求する医学的課題である。 本研究は,乳がん腫瘍の超音波画像からの分類と分類を目的とした多目的ディープラーニング(DL)フレームワークを提案する。 InceptionResNetバックボーンを備えた新しいLinkNet DLフレームワークを用いて,超音波画像から腫瘍をセグメント化するための空間チャネルアテンション機構を提案する。 そこで本研究では,腫瘍を良性,悪性,正常と分類するために,DCNNIMAFを用いた深部畳み込みニューラルネットワークを提案する。 実験結果から、セグメンテーションモデルの精度は98.1%であり、最小損失は0.6%であることがわかった。 また、IoUとDice Coefficientのスコアはそれぞれ96.9%、97.2%という高いインターセクションを達成している。 同様に、分類モデルは99.2%の精度に達し、低い損失は0.31%となった。 さらに、この分類フレームワークは、それぞれ99.1%、99.3%、99.1%の優れたF1スコア、精度、リコール値を達成した。 乳がんの早期発見と正確な分類のための堅牢な枠組みを提供することにより、この研究は医療画像解析の分野を著しく進歩させ、診断精度と患者の予後を向上させる可能性がある。

Breast cancer poses a profound threat to lives globally, claiming numerous lives each year. Therefore, timely detection is crucial for early intervention and improved chances of survival. Accurately diagnosing and classifying breast tumors using ultrasound images is a persistent challenge in medicine, demanding cutting-edge solutions for improved treatment strategies. This research introduces multiattention-enhanced deep learning (DL) frameworks designed for the classification and segmentation of breast cancer tumors from ultrasound images. A spatial channel attention mechanism is proposed for segmenting tumors from ultrasound images, utilizing a novel LinkNet DL framework with an InceptionResNet backbone. Following this, the paper proposes a deep convolutional neural network with an integrated multi-attention framework (DCNNIMAF) to classify the segmented tumor as benign, malignant, or normal. From experimental results, it is observed that the segmentation model has recorded an accuracy of 98.1%, with a minimal loss of 0.6%. It has also achieved high Intersection over Union (IoU) and Dice Coefficient scores of 96.9% and 97.2%, respectively. Similarly, the classification model has attained an accuracy of 99.2%, with a low loss of 0.31%. Furthermore, the classification framework has achieved outstanding F1-Score, precision, and recall values of 99.1%, 99.3%, and 99.1%, respectively. By offering a robust framework for early detection and accurate classification of breast cancer, this proposed work significantly advances the field of medical image analysis, potentially improving diagnostic precision and patient outcomes.
翻訳日:2024-07-16 23:47:24 公開日:2024-07-15
# LLMの敵攻撃に対する防御としての自己評価

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs ( http://arxiv.org/abs/2407.03234v2 )

ライセンス: Link先を確認
Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh, (参考訳) LLMがセンシティブでヒューマン対応的な設定でデプロイされる場合、安全でない、バイアスのある、あるいはプライバシーに違反するアウトプットを出力しないことが重要です。 このため、モデルには「爆弾の作り方を教える」といった安全でないプロンプトへの答えを拒否するよう訓練され、指示されている。 これらのセーフガードにもかかわらず、モデル入力の端にスペースを付加するだけで、モデル防御を壊すことが可能である。 8つのオープンソースモデルの研究において、これはモデルの大半が非常に高い成功率で有害なアウトプットを生成するのに十分な攻撃であることを示した。 トークン化されたトレーニングデータに単一空間が存在する状況は、入力された時にリストを生成することを奨励し、安全でない要求に応答しないようにトレーニング信号をオーバーライドする。 本研究は、現在のモデルアライメントの脆弱な状態を強調し、より堅牢なアライメント手法を開発することの重要性を促進するものである。 コードとデータはhttps://github.com/Linlt-leon/self-eval.comで公開される。

When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model's input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be made available at https://github.com/Linlt-leon/self-eval.
翻訳日:2024-07-16 23:47:24 公開日:2024-07-15
# 残留Beylkin-Coifman-Rokhlinニューラルネットワークを用いた顕微鏡デコンボリューションの逆問題の解法

Solving the inverse problem of microscopy deconvolution with a residual Beylkin-Coifman-Rokhlin neural network ( http://arxiv.org/abs/2407.03239v2 )

ライセンス: Link先を確認
Rui Li, Mikhail Kudryashev, Artur Yakimovich, (参考訳) 光顕微鏡(LM)における光学デコンボリューション(英: Optic deconvolution)とは、画像から物体の詳細を復元し、サンプルの基礎的真実を明らかにすることを指す。 LMの従来の明示的な手法は、画像取得時にポイントスプレッド関数(PSF)に依存する。 しかし、これらのアプローチは、不正確なPSFモデルとノイズアーティファクトのためにしばしば失敗し、全体の修復品質を損なう。 本稿では,逆問題として光学デコンボリューションにアプローチした。 そこで,Beylkin,Coifman,Rokhlin (BCR) が導入した非標準形式圧縮方式により,光デコンボリューションを近似する革新的物理インフォームニューラルネットワークであるMulti-Stage Residual-BCR Net (m-rBCR) を提案した。 我々は、ImageNetとBioSRの2つのシミュレーション顕微鏡データセット、実際のdSTORM顕微鏡画像、および実際の広視野顕微鏡画像の4つの顕微鏡データセット上でm-rBCRモデルを検証した。 明示的なデコンボリューション法(例えばRichardson-Lucy)や他の最先端NNモデル(U-Net、DDPM、CARE、DnCNN、ESRGAN、RCAN、Noss2Noise、MPRNet、MIMO-U-Net)とは対照的に、m-rBCRモデルは2つの実際の顕微鏡データセットとシミュレーションされたBioSRデータセットにおいてPSNRとSSIMによる他の候補よりも優れた性能を示している。 シミュレーションされたImageNetデータセットでは、m-rBCRがMIMO-U-Netに次いで第2位である。 光学物理学のバックボーンにより、m-rBCRはトレーニング可能なパラメータをより良い性能で利用する(MIMO-U-Netのベンチマークの約30倍からESRGANの約210倍まで)。 これにより、m-rBCRは短いランタイム(MIMO-U-Netの約3倍、DDPMの約300倍)を達成することができる。 要約すると、我々のモデルは、物理制約を利用して専門性指向のNN候補において、潜在的に冗長なパラメータを著しく削減し、優れた性能で高い効率を実現した。

Optic deconvolution in light microscopy (LM) refers to recovering the object details from images, revealing the ground truth of samples. Traditional explicit methods in LM rely on the point spread function (PSF) during image acquisition. Yet, these approaches often fall short due to inaccurate PSF models and noise artifacts, hampering the overall restoration quality. In this paper, we approached the optic deconvolution as an inverse problem. Motivated by the nonstandard-form compression scheme introduced by Beylkin, Coifman, and Rokhlin (BCR), we proposed an innovative physics-informed neural network Multi-Stage Residual-BCR Net (m-rBCR) to approximate the optic deconvolution. We validated the m-rBCR model on four microscopy datasets - two simulated microscopy datasets from ImageNet and BioSR, real dSTORM microscopy images, and real widefield microscopy images. In contrast to the explicit deconvolution methods (e.g. Richardson-Lucy) and other state-of-the-art NN models (U-Net, DDPM, CARE, DnCNN, ESRGAN, RCAN, Noise2Noise, MPRNet, and MIMO-U-Net), the m-rBCR model demonstrates superior performance to other candidates by PSNR and SSIM in two real microscopy datasets and the simulated BioSR dataset. In the simulated ImageNet dataset, m-rBCR ranks the second-best place (right after MIMO-U-Net). With the backbone from the optical physics, m-rBCR exploits the trainable parameters with better performances (from ~30 times fewer than the benchmark MIMO-U-Net to ~210 times than ESRGAN). This enables m-rBCR to achieve a shorter runtime (from ~3 times faster than MIMO-U-Net to ~300 times faster than DDPM). To summarize, by leveraging physics constraints our model reduced potentially redundant parameters significantly in expertise-oriented NN candidates and achieved high efficiency with superior performance.
翻訳日:2024-07-16 23:47:24 公開日:2024-07-15
# LLMAEL: 大規模言語モデルはエンティティリンクに適したコンテキスト拡張ツールである

LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking ( http://arxiv.org/abs/2407.04020v2 )

ライセンス: Link先を確認
Amy Xin, Yunjia Qi, Zijun Yao, Fangwei Zhu, Kaisheng Zeng, Xu Bin, Lei Hou, Juanzi Li, (参考訳) エンティティリンク(EL)モデルは、所定のコンテキストに従って対応するエンティティへの参照のマッピングにおいて、十分にトレーニングされている。 しかし、ELモデルは訓練データに制限があるため、ロングテールエンティティの曖昧化に苦慮している。 一方、大きな言語モデル(LLM)は、一般的でない言及を解釈する上で、より堅牢である。 しかし、専門訓練の欠如により、LSMは正しいエンティティIDを生成するのに苦しむ。 さらに、ELを実行するためのLCMの訓練はコストがかかる。 これらの知見に基づいて,LLMデータ拡張によるエンティティリンクを強化するプラグイン・アンド・プレイアプローチであるLLMAELを導入する。 我々は、LLMを知識のあるコンテキスト拡張として活用し、タスク固有処理のための従来のELモデルを保持しながら、参照中心の記述を追加入力として生成する。 6つの標準データセットの実験では、バニラLLMAELはベースラインELモデルよりも優れており、細調整されたLLMAELは6つのベンチマークすべてで新しい最先端の結果を設定している。

Entity Linking (EL) models are well-trained at mapping mentions to their corresponding entities according to a given context. However, EL models struggle to disambiguate long-tail entities due to their limited training data. Meanwhile, large language models (LLMs) are more robust at interpreting uncommon mentions. Yet, due to a lack of specialized training, LLMs suffer at generating correct entity IDs. Furthermore, training an LLM to perform EL is cost-intensive. Building upon these insights, we introduce LLM-Augmented Entity Linking LLMAEL, a plug-and-play approach to enhance entity linking through LLM data augmentation. We leverage LLMs as knowledgeable context augmenters, generating mention-centered descriptions as additional input, while preserving traditional EL models for task specific processing. Experiments on 6 standard datasets show that the vanilla LLMAEL outperforms baseline EL models in most cases, while the fine-tuned LLMAEL set the new state-of-the-art results across all 6 benchmarks.
翻訳日:2024-07-16 23:47:23 公開日:2024-07-15
# TF-SASM:マルチオブジェクト追跡のための訓練不要空間認識スパースメモリ

TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking ( http://arxiv.org/abs/2407.04327v2 )

ライセンス: Link先を確認
Thuc Nguyen-Quang, Minh-Triet Tran, (参考訳) コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。 DanceTrackのような堅牢な再識別を強調するデータセットの出現は、効果的なソリューションの必要性を強調している。 メモリベースのアプローチは将来性を示しているが、各フレームに格納する機能のために、高い計算複雑性とメモリ使用量に悩まされることが多い。 本稿では,物体の動きと重なり合う認識に基づく重要な特徴を選択的に記憶するメモリベース手法を提案する。 その結果、メモリに格納される特徴の限られた時間情報だけでなく、特定のオブジェクトの状態も多様化し、関連性能を高めることができた。 提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。

Multi-object tracking (MOT) in computer vision remains a significant challenge, requiring precise localization and continuous tracking of multiple objects in video sequences. The emergence of data sets that emphasize robust reidentification, such as DanceTrack, has highlighted the need for effective solutions. While memory-based approaches have shown promise, they often suffer from high computational complexity and memory usage due to storing feature at every single frame. In this paper, we propose a novel memory-based approach that selectively stores critical features based on object motion and overlapping awareness, aiming to enhance efficiency while minimizing redundancy. As a result, our method not only store longer temporal information with limited number of stored features in the memory, but also diversify states of a particular object to enhance the association performance. Our approach significantly improves over MOTRv2 in the DanceTrack test set, demonstrating a gain of 2.0% AssA score and 2.1% in IDF1 score.
翻訳日:2024-07-16 23:47:23 公開日:2024-07-15
# CanonicalFusion: 複数の画像から再現可能な3Dアバターを生成する

CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images ( http://arxiv.org/abs/2407.04345v2 )

ライセンス: Link先を確認
Jisu Shin, Junmyeong Lee, Seongmin Lee, Min-Gyu Park, Ju-Mi Kang, Ju Hong Yoon, Hae-Gon Jeon, (参考訳) カノニカルフュージョン(CanonicalFusion)と呼ばれる複数の画像からアニマタブルなヒトアバターを再構成するための新しい枠組みを提案する。 我々の中心的な概念は、個々の再構成結果を標準空間に統合することである。 具体的には,まず線形ブレンドスキニング(LBS)重みマップと深度マップを共有エンコーダ・デュアルデコーダネットワークを用いて予測し,予測深度マップから3Dメッシュを直接正規化する。 ここでは、高次元スキンウェイトを予測する代わりに、プレトレーニングMLPネットワークの助けを借りて、圧縮スキンウェイト、すなわち3次元ベクターを推定する。 また、複数画像から再構成した結果をマージするために、前方スキンベースの微分可能レンダリング方式も導入する。 このスキームは、前方スキンニングによる標準メッシュの再現と、レンダリング結果と予測結果との間の測光的および幾何学的誤差を最小化することにより、初期メッシュを洗練する。 最適化手法では,頂点の位置と色,および各画像の関節角を考慮し,ポーズエラーの負の効果を緩和する。 提案手法の有効性を実証するために広範囲な実験を行い,CanonicalFusionと最先端の手法との比較を行った。 ソースコードはhttps://github.com/jsshin98/CanonicalFusion.comで公開されています。

We present a novel framework for reconstructing animatable human avatars from multiple images, termed CanonicalFusion. Our central concept involves integrating individual reconstruction results into the canonical space. To be specific, we first predict Linear Blend Skinning (LBS) weight maps and depth maps using a shared-encoder-dual-decoder network, enabling direct canonicalization of the 3D mesh from the predicted depth maps. Here, instead of predicting high-dimensional skinning weights, we infer compressed skinning weights, i.e., 3-dimensional vector, with the aid of pre-trained MLP networks. We also introduce a forward skinning-based differentiable rendering scheme to merge the reconstructed results from multiple images. This scheme refines the initial mesh by reposing the canonical mesh via the forward skinning and by minimizing photometric and geometric errors between the rendered and the predicted results. Our optimization scheme considers the position and color of vertices as well as the joint angles for each image, thereby mitigating the negative effects of pose errors. We conduct extensive experiments to demonstrate the effectiveness of our method and compare our CanonicalFusion with state-of-the-art methods. Our source codes are available at https://github.com/jsshin98/CanonicalFusion.
翻訳日:2024-07-16 23:47:23 公開日:2024-07-15
# FedTSA:モデル不均一なフェデレーション学習のためのクラスタベースの2段階集約手法

FedTSA: A Cluster-based Two-Stage Aggregation Method for Model-heterogeneous Federated Learning ( http://arxiv.org/abs/2407.05098v2 )

ライセンス: Link先を確認
Boyu Fan, Chenrui Wu, Xiang Su, Pan Hui, (参考訳) フェデレートラーニング(FL)におけるデータ不均一性の研究にもかかわらず、システム不均一性はしばしば見過ごされがちな課題である。 従来のFLアプローチでは、FLクライアント全体で均質なハードウェアリソースを前提としており、クライアントが同等の時間枠内でグローバルモデルをトレーニングできることを意味している。 しかし、実際のFLシステムでは、クライアントはトレーニング能力に影響を及ぼす異種資源を持つことが多い。 この相違は、クライアントがリソース能力に基づいて異なるモデルをトレーニングできるパラダイムであるモデル・ヘテロジニアスFLを探索することの重要性を浮き彫りにしている。 この課題に対処するために,FLにおけるシステム不均一性に適したクラスタベースの2段階アグリゲーション法であるFedTSAを紹介する。 FedTSAは、その能力に基づいてクライアントをクラスタリングし、2段階のアグリゲーションを実行する: ステージ1における同質モデルに対する従来のウェイト平均化と、ステージ2における異質モデルを統合する拡散モデルによる深い相互学習。 大規模な実験により、FedTSAはベースラインを上回るだけでなく、モデル性能に影響を与える様々な要因を探求し、FedTSAをモデル不均一FLの有望なアプローチとして検証した。

Despite extensive research into data heterogeneity in federated learning (FL), system heterogeneity remains a significant yet often overlooked challenge. Traditional FL approaches typically assume homogeneous hardware resources across FL clients, implying that clients can train a global model within a comparable time frame. However, in practical FL systems, clients often have heterogeneous resources, which impacts their training capacity. This discrepancy underscores the importance of exploring model-heterogeneous FL, a paradigm allowing clients to train different models based on their resource capabilities. To address this challenge, we introduce FedTSA, a cluster-based two-stage aggregation method tailored for system heterogeneity in FL. FedTSA begins by clustering clients based on their capabilities, then performs a two-stage aggregation: conventional weight averaging for homogeneous models in Stage 1, and deep mutual learning with a diffusion model for aggregating heterogeneous models in Stage 2. Extensive experiments demonstrate that FedTSA not only outperforms the baselines but also explores various factors influencing model performance, validating FedTSA as a promising approach for model-heterogeneous FL.
翻訳日:2024-07-16 23:47:23 公開日:2024-07-15
# しね(しね):構成的時間的接地のための主観的階層的負格付け

SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding ( http://arxiv.org/abs/2407.05118v2 )

ライセンス: Link先を確認
Zixu Cheng, Yujiang Pu, Shaogang Gong, Parisa Kordjamshidi, Yu Kong, (参考訳) 時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。 自然言語の構成的性質は、事前定義された事象を超越した局所化を可能にし、既存の方法の構成的一般化可能性に一定の課題を提起する。 近年の研究では、合成一般化を実現するために、分解・再構成方式でビデオとクエリの対応性を確立する。 しかし、彼らは支配的なプリミティブを考慮し、ランダムサンプリングと再結合を通じて負のクエリを構築するだけで、結果として意味的に不可解な負がモデルが合理的な構成を学習することを妨げる。 さらに、最近のDETRに基づく手法は、構成的時間的グラウンドリングにおいてまだ不十分であり、正のクエリと微妙に異なる負のクエリを与えられたとき、不合理なサリエンシ応答を示す。 これらの制約に対処するために、まず、GPT-3.5-Turboを用いて、意味論的に妥当なハード負のクエリを生成する、大きな言語モデルによる負のクエリ構築手法を提案する。 続いて,ビデオと階層的負のクエリ間のマルチグラニュラリティ意味関係を学習し,合成の一般化を促進させる,粗大なサラレンシランキング戦略を導入する。 提案手法の有効性と一般化性を検証した。 私たちのコードはhttps://github.com/zxccade/SHINE.comから入手可能です。

Temporal grounding, also known as video moment retrieval, aims at locating video segments corresponding to a given query sentence. The compositional nature of natural language enables the localization beyond predefined events, posing a certain challenge to the compositional generalizability of existing methods. Recent studies establish the correspondence between videos and queries through a decompose-reconstruct manner to achieve compositional generalization. However, they only consider dominant primitives and build negative queries through random sampling and recombination, resulting in semantically implausible negatives that hinder the models from learning rational compositions. In addition, recent DETR-based methods still underperform in compositional temporal grounding, showing irrational saliency responses when given negative queries that have subtle differences from positive queries. To address these limitations, we first propose a large language model-driven method for negative query construction, utilizing GPT-3.5-Turbo to generate semantically plausible hard negative queries. Subsequently, we introduce a coarse-to-fine saliency ranking strategy, which encourages the model to learn the multi-granularity semantic relationships between videos and hierarchical negative queries to boost compositional generalization. Extensive experiments on two challenging benchmarks validate the effectiveness and generalizability of our proposed method. Our code is available at https://github.com/zxccade/SHINE.
翻訳日:2024-07-16 21:47:52 公開日:2024-07-15
# PTaRL:空間校正によるプロトタイプベース語彙表現学習

PTaRL: Prototype-based Tabular Representation Learning via Space Calibration ( http://arxiv.org/abs/2407.05364v2 )

ライセンス: Link先を確認
Hangting Ye, Wei Fan, Xiaozhuang Song, Shun Zheng, He Zhao, Dandan Guo, Yi Chang, (参考訳) タブラルデータは、医療、エンジニアリング、金融など、さまざまな現実世界の分野において、主に重要な役割を担っている。 近年のディープラーニングの成功により、ディープネットワーク(例えば、Transformer、ResNet)に基づく多くの表層機械学習(ML)メソッドが、表層ベンチマークで競合的なパフォーマンスを達成した。 しかし、既存の深層表型ML手法は表現の絡み合いや局所化に悩まされ、予測性能が損なわれ、表型タスクのパフォーマンスに矛盾が生じる。 これらの問題を解決するために,表型MLにプロトタイプ学習を適用する新たな方向を探り,表型予測タスクのためのプロトタイプベースの表型表現学習フレームワークであるPTaRLを提案する。 PTaRLの中核となる考え方は、プロトタイプベースの射影空間(P-Space)を構築し、グローバルなデータプロトタイプの周囲に絡み合った表現を学ぶことである。 具体的には、PTaRLは主に2つの段階を含む。 一 表現のためのP空間の基底ベクトルとしてグローバルプロトタイプを構築するプロトタイプ生成及び (ii)P-Spaceにデータサンプルを投影し,コアとなるグローバルデータ情報をOptimal Transport経由で保持するプロトタイプ・プロジェクション。 そして、不整合表現をさらに獲得するために、PTaRLを2つの戦略で制約する。 (i)P空間内の異なる表現のグローバルプロトタイプに向けて座標を多様化するために、表現校正のための多様化制約を提起する。 2) P-空間におけるプロトタイプの絡み合いを避けるため,グローバルプロトタイプの独立性を確保するために行列直交化制約を導入する。 最後に、PTaRLと最先端の深い表型MLモデルを組み合わせた様々な表型ベンチマーク実験を行い、その結果、一貫した優位性を示した。

Tabular data have been playing a mostly important role in diverse real-world fields, such as healthcare, engineering, finance, etc. With the recent success of deep learning, many tabular machine learning (ML) methods based on deep networks (e.g., Transformer, ResNet) have achieved competitive performance on tabular benchmarks. However, existing deep tabular ML methods suffer from the representation entanglement and localization, which largely hinders their prediction performance and leads to performance inconsistency on tabular tasks. To overcome these problems, we explore a novel direction of applying prototype learning for tabular ML and propose a prototype-based tabular representation learning framework, PTaRL, for tabular prediction tasks. The core idea of PTaRL is to construct prototype-based projection space (P-Space) and learn the disentangled representation around global data prototypes. Specifically, PTaRL mainly involves two stages: (i) Prototype Generation, that constructs global prototypes as the basis vectors of P-Space for representation, and (ii) Prototype Projection, that projects the data samples into P-Space and keeps the core global data information via Optimal Transport. Then, to further acquire the disentangled representations, we constrain PTaRL with two strategies: (i) to diversify the coordinates towards global prototypes of different representations within P-Space, we bring up a diversification constraint for representation calibration; (ii) to avoid prototype entanglement in P-Space, we introduce a matrix orthogonalization constraint to ensure the independence of global prototypes. Finally, we conduct extensive experiments in PTaRL coupled with state-of-the-art deep tabular ML models on various tabular benchmarks and the results have shown our consistent superiority.
翻訳日:2024-07-16 21:47:52 公開日:2024-07-15
# 大きな受容場に対するウェーブレットの畳み込み

Wavelet Convolutions for Large Receptive Fields ( http://arxiv.org/abs/2407.05848v2 )

ライセンス: Link先を確認
Shahaf E. Finder, Roy Amoyal, Eran Treister, Oren Freifeld, (参考訳) 近年、ビジョントランスフォーマー(ViT)の自己保持ブロックのグローバルな受容領域を模倣するために、畳み込みニューラルネットワーク(CNN)のカーネルサイズを拡大する試みがある。 しかし、そのアプローチは、グローバルな受容場を達成する前に、すぐに上界と飽和点に到達した。 本研究では、Wavelet Transform (WT) を利用することで、例えば、$k \times k$receptive Fieldに対して、超パラメータ化に苦しむことなく非常に大きな受容場を得ることができ、提案手法におけるトレーニング可能なパラメータの数は、$k$と対数的にしか増加しないことを示した。 提案した層はWTConvと名付けられ、既存のアーキテクチャのドロップイン代替として使用することができ、有効なマルチ周波数応答を実現し、受信フィールドのサイズに優しくスケールする。 画像分類のためのConvNeXtおよびMobileNetV2アーキテクチャ内のWTConv層の有効性と、下流タスクのためのバックボーンの有効性を実証し、画像劣化に対するロバスト性やテクスチャ上の形状に対する応答の向上などの付加特性を示す。 私たちのコードはhttps://github.com/BGU-CS-VIL/WTConv.comで公開されています。

In recent years, there have been attempts to increase the kernel size of Convolutional Neural Nets (CNNs) to mimic the global receptive field of Vision Transformers' (ViTs) self-attention blocks. That approach, however, quickly hit an upper bound and saturated way before achieving a global receptive field. In this work, we demonstrate that by leveraging the Wavelet Transform (WT), it is, in fact, possible to obtain very large receptive fields without suffering from over-parameterization, e.g., for a $k \times k$ receptive field, the number of trainable parameters in the proposed method grows only logarithmically with $k$. The proposed layer, named WTConv, can be used as a drop-in replacement in existing architectures, results in an effective multi-frequency response, and scales gracefully with the size of the receptive field. We demonstrate the effectiveness of the WTConv layer within ConvNeXt and MobileNetV2 architectures for image classification, as well as backbones for downstream tasks, and show it yields additional properties such as robustness to image corruption and an increased response to shapes over textures. Our code is available at https://github.com/BGU-CS-VIL/WTConv.
翻訳日:2024-07-16 21:47:52 公開日:2024-07-15
# マルチアンテナ多周波位置-チャネルマッピングのためのモデルベース学習

Model-based learning for multi-antenna multi-frequency location-to-channel mapping ( http://arxiv.org/abs/2407.07719v2 )

ライセンス: Link先を確認
Baptiste Chatelier, Vincent Corlay, Matthieu Crussière, Luc Le Magoarou, (参考訳) 伝搬チャネルの長年の研究は、位置と関連する通信チャネル応答との密接な関係を示した。 そのため、位置-チャネルマッピングの学習にニューラルネットワークを使用することが想定できる。 Implicit Neural Representation (INR)の文献は、古典的ニューラルネットワークアーキテクチャが低周波コンテンツ学習に偏りがあることを示し、位置-チャネルマッピング学習は非自明な問題であることを示した。 実際、この写像は、波長の順に位置によって急速に変化する関数であることが知られている。 本稿では、モデルに基づく機械学習パラダイムを利用して、伝搬チャネルモデルから問題固有のニューラルアーキテクチャを導出する。 結果として生じるアーキテクチャはスペクトルバイアス問題を効果的に克服する。 高周波成分の辞書を活性化する低周波スパース補正項のみを学習する。 提案したアーキテクチャは、リアルな合成データに基づいて古典的なINRアーキテクチャに対して評価され、精度が大幅に向上した。 そのマッピング学習性能は、近似チャネルモデルに基づいて説明され、モデルに基づく機械学習パラダイムの説明可能性を強調している。

Years of study of the propagation channel showed a close relation between a location and the associated communication channel response. The use of a neural network to learn the location-to-channel mapping can therefore be envisioned. The Implicit Neural Representation (INR) literature showed that classical neural architecture are biased towards learning low-frequency content, making the location-to-channel mapping learning a non-trivial problem. Indeed, it is well known that this mapping is a function rapidly varying with the location, on the order of the wavelength. This paper leverages the model-based machine learning paradigm to derive a problem-specific neural architecture from a propagation channel model. The resulting architecture efficiently overcomes the spectral-bias issue. It only learns low-frequency sparse correction terms activating a dictionary of high-frequency components. The proposed architecture is evaluated against classical INR architectures on realistic synthetic data, showing much better accuracy. Its mapping learning performance is explained based on the approximated channel model, highlighting the explainability of the model-based machine learning paradigm.
翻訳日:2024-07-16 21:47:52 公開日:2024-07-15
# ImageNetレベルのコストでビジョンファウンデーションモデルにアクセスする

Accessing Vision Foundation Models at ImageNet-level Costs ( http://arxiv.org/abs/2407.10366v1 )

ライセンス: Link先を確認
Yitian Zhang, Xu Ma, Yue Bai, Huan Wang, Yun Fu, (参考訳) ビジョンファウンデーションモデルは、膨大なトレーニングデータのために一般化能力で有名である。 それでも彼らは膨大なトレーニングリソースを必要としており、トレーニングデータは多くの場合、例えばCLIP、DINOv2のようなアクセス不能であり、この分野の研究を進展させるデリバティブを開発する上で大きな課題となっている。 本研究では,基礎モデルを元のトレーニングデータにアクセスすることなく,ImageNet-1K上の小さな等価物に抽出する,非常にシンプルで汎用的なソリューションProteusを提案する。 具体的には, 従来の知識蒸留システムから, データセットバイアスを生じさせ, トークン, パッチ, 特徴という3段階の訓練目標を提示し, 知識伝達の有効性を最大化する。 このように、Proteusは驚くべき能力でImageNetレベルのコストでトレーニングされており、幅広い研究コミュニティのためのトレーニング基盤モデルのアクセシビリティを促進している。 教師としてDINOv2-g/14を取り入れたProteus-L/14は、OracleのメソッドであるDINOv2-L/14(142Mのトレーニングデータ)のパフォーマンスを15ベンチマークで比較し、CLIP-L/14(400M)、OpenCLIP-L/14(400M/2B)、SynCLR-L/14(600M)など、他のビジョン基盤モデルを上回っている。

Vision foundation models are renowned for their generalization ability due to massive training data. Nevertheless, they demand tremendous training resources, and the training data is often inaccessible, e.g., CLIP, DINOv2, posing great challenges to developing derivatives that could advance research in this field. In this work, we offer a very simple and general solution, named Proteus, to distill foundation models into smaller equivalents on ImageNet-1K without access to the original training data. Specifically, we remove the designs from conventional knowledge distillation settings that result in dataset bias and present three levels of training objectives, i.e., token, patch, and feature, to maximize the efficacy of knowledge transfer. In this manner, Proteus is trained at ImageNet-level costs with surprising ability, facilitating the accessibility of training foundation models for the broader research community. Leveraging DINOv2-g/14 as the teacher, Proteus-L/14 matches the performance of the Oracle method DINOv2-L/14 (142M training data) across 15 benchmarks and outperforms other vision foundation models including CLIP-L/14 (400M), OpenCLIP-L/14 (400M/2B) and SynCLR-L/14 (600M).
翻訳日:2024-07-16 16:40:16 公開日:2024-07-15
# 視覚的シーン駆動拡散による音響マッチングと残響の相互学習

Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion ( http://arxiv.org/abs/2407.10373v1 )

ライセンス: Link先を確認
Jian Ma, Wenguan Wang, Yi Yang, Feng Zheng, (参考訳) 視覚音響マッチング (VAM) は没入感を高めるために重要であり, 難聴化の課題は聴取能力の向上に有効である。 既存の方法は、それぞれのタスクを独立して扱い、それらの間の固有の相互性を見渡す。 さらに、これらの手法は、ペア化されたトレーニングデータに依存しており、これは取得が困難であり、広範囲な障害のないデータの利用を妨げる。 本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、相互関係を利用して逆タスクから学習し、データの不足を克服する。 さらに,従来のGANアーキテクチャのトレーニング不安定性と過度にスムースな欠点を回避するため,拡散モデルを基本条件変換器として利用する。 具体的には、MVSDは2つのコンバータを使用する: 1つはリバーベレータと呼ばれるVAM用、もう1つはデアバーベレータと呼ばれるデアバーベレータ用である。 残響による残響音声が、条件付き視覚シナリオのようだと判断し、その逆を判定する。 クローズドループを形成することにより、この2つのコンバータは情報フィードバック信号を生成して逆タスクを最適化する。 SoundSpaces-Speech と Acoustic AVSpeech という2つの標準ベンチマークの大規模な実験により、我々のフレームワークは、残響器と残響器の性能を改善し、特定の視覚シナリオとよりよく一致させることができることを示した。

Visual acoustic matching (VAM) is pivotal for enhancing the immersive experience, and the task of dereverberation is effective in improving audio intelligibility. Existing methods treat each task independently, overlooking the inherent reciprocity between them. Moreover, these methods depend on paired training data, which is challenging to acquire, impeding the utilization of extensive unpaired data. In this paper, we introduce MVSD, a mutual learning framework based on diffusion models. MVSD considers the two tasks symmetrically, exploiting the reciprocal relationship to facilitate learning from inverse tasks and overcome data scarcity. Furthermore, we employ the diffusion model as foundational conditional converters to circumvent the training instability and over-smoothing drawbacks of conventional GAN architectures. Specifically, MVSD employs two converters: one for VAM called reverberator and one for dereverberation called dereverberator. The dereverberator judges whether the reverberation audio generated by reverberator sounds like being in the conditional visual scenario, and vice versa. By forming a closed loop, these two converters can generate informative feedback signals to optimize the inverse tasks, even with easily acquired one-way unpaired data. Extensive experiments on two standard benchmarks, i.e., SoundSpaces-Speech and Acoustic AVSpeech, exhibit that our framework can improve the performance of the reverberator and dereverberator and better match specified visual scenarios.
翻訳日:2024-07-16 16:40:16 公開日:2024-07-15
# マンバに基づく歩行者属性認識の実証的研究

An Empirical Study of Mamba-based Pedestrian Attribute Recognition ( http://arxiv.org/abs/2407.10374v1 )

ライセンス: Link先を確認
Xiao Wang, Weizhe Kong, Jiandong Jin, Shiao Wang, Ruichong Gao, Qingchuan Ma, Chenglong Li, Jin Tang, (参考訳) 現在の強力な歩行者属性認識モデルは,計算量の多いトランスフォーマーネットワークに基づいて開発されている。 近年,線形複雑性モデル (例:Mamba) が注目され,様々な視覚的タスクにおける精度と計算コストのバランスが良くなった。 関連するレビュー記事は、これらのモデルは歩行者属性認識データセットでうまく機能するが、一般的に対応するTransformerモデルよりも弱いことを示唆している。 PARタスクのための新しいMambaアーキテクチャの可能性をさらに掘り下げるため、本論文では、Mambaを2つの典型的なPARフレームワーク、すなわちテキストイメージ融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計し、適応する。 属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。 さらに, 様々なハイブリッド型であるマンバ・トランスフォーマーを設計し, 徹底的な実験検証を行う。 これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。 この実証研究は、これらのネットワーク構造の設計と包括的な実験を通じて、さらにマンバにおけるPARの研究を刺激し、マルチラベル認識の領域にまで拡張することを願っている。 この作業のソースコードは \url{https://github.com/Event-AHU/OpenPAR} で公開される。

Current strong pedestrian attribute recognition models are developed based on Transformer networks, which are computationally heavy. Recently proposed models with linear complexity (e.g., Mamba) have garnered significant attention and have achieved a good balance between accuracy and computational cost across a variety of visual tasks. Relevant review articles also suggest that while these models can perform well on some pedestrian attribute recognition datasets, they are generally weaker than the corresponding Transformer models. To further tap into the potential of the novel Mamba architecture for PAR tasks, this paper designs and adapts Mamba into two typical PAR frameworks, i.e., the text-image fusion approach and pure vision Mamba multi-label recognition framework. It is found that interacting with attribute tags as additional input does not always lead to an improvement, specifically, Vim can be enhanced, but VMamba cannot. This paper further designs various hybrid Mamba-Transformer variants and conducts thorough experimental validations. These experimental results indicate that simply enhancing Mamba with a Transformer does not always lead to performance improvements but yields better results under certain settings. We hope this empirical study can further inspire research in Mamba for PAR, and even extend into the domain of multi-label recognition, through the design of these network structures and comprehensive experimentation. The source code of this work will be released at \url{https://github.com/Event-AHU/OpenPAR}
翻訳日:2024-07-16 16:40:16 公開日:2024-07-15
# ニューロ認知障害者の言語機能の大規模言語モデルに基づくFMRI符号化

Large Language Model-based FMRI Encoding of Language Functions for Subjects with Neurocognitive Disorder ( http://arxiv.org/abs/2407.10376v1 )

ライセンス: Link先を確認
Yuejiao Wang, Xianmin Gong, Lingwei Meng, Xixin Wu, Helen Meng, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、神経認知障害(NCD)患者の言語関連脳領域の機能的変化を識別するエンコーディングモデルの開発に不可欠である。 大規模言語モデル(LLM)に基づくfMRI符号化は将来性を示しているが、既存の研究は主に健康な若年層、高齢者のNCD人口と認知レベルの相関に注目している。 LLMを用いたfMRIと脳のスコアを用いて, 高齢者の言語関連機能変化について検討し, 現状の限界に対処する。 脳のスコアと認知スコアの相関関係を脳全体のROIと言語関連ROIの両方で分析した。 以上の結果から,認知能力の向上は,中側頭回に有意な相関がみられた。 本研究は、NCD患者の早期機能変化を検出するためのfMRI符号化モデルと脳スコアの可能性を明らかにする。

Functional magnetic resonance imaging (fMRI) is essential for developing encoding models that identify functional changes in language-related brain areas of individuals with Neurocognitive Disorders (NCD). While large language model (LLM)-based fMRI encoding has shown promise, existing studies predominantly focus on healthy, young adults, overlooking older NCD populations and cognitive level correlations. This paper explores language-related functional changes in older NCD adults using LLM-based fMRI encoding and brain scores, addressing current limitations. We analyze the correlation between brain scores and cognitive scores at both whole-brain and language-related ROI levels. Our findings reveal that higher cognitive abilities correspond to better brain scores, with correlations peaking in the middle temporal gyrus. This study highlights the potential of fMRI encoding models and brain scores for detecting early functional changes in NCD patients.
翻訳日:2024-07-16 16:40:16 公開日:2024-07-15
# 多モードMRI分割・分類のための自己教師付き学習の強化:モデル崩壊を回避する新しいアプローチ

Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse ( http://arxiv.org/abs/2407.10377v1 )

ライセンス: Link先を確認
Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Fumin Guo, Yeqing Han, Xin Zhou, (参考訳) 多モードMRI(Multi-modality magnetic resonance imaging)は、コンピュータ支援診断のための補完的な情報を提供する。 従来のディープラーニングアルゴリズムは、病変をセグメント化し、磁気共鳴画像で疾患を分類する特定の解剖学的構造を特定するのに適している。 しかし、高コストのため手動ラベルは制限されており、モデル精度のさらなる向上を妨げている。 自己教師付き学習(SSL)は、事前学習によりラベル付きデータから特徴表現を効果的に学習することができ、自然画像解析に有効であることが示されている。 ほとんどのSSLメソッドはマルチモードMRIの類似性を無視し、モデルが崩壊する。 これにより、事前トレーニングの効率が制限され、下流のセグメンテーションや分類タスクの精度が低下する。 この課題を解決するため,多モードMRI解析によるSSLのためのハイブリッドマスクパターン(HMP)とピラミッドバーローツイン(PBT)モジュールからなる多モードMRIマスク自動エンコーダの確立と検証を行った。 HMPは、SSLにマスクパッチを再構築することで、マルチモダリティ画像の意味的な接続を学習させる3つのマスキングステップを結合する。 我々は,提案したHMPがモデル崩壊を回避できることを証明した。 PBTモジュールは、ネットワークのピラミッド階層を利用して、マスク付きとオリジナルビュー間のバローツインロスを構築し、遅延空間における異なる視覚スケールでのイメージパッチの意味的表現を整列する。 BraTS2023、PI-CAI、および肺ガスMRIデータセットの実験は、我々のフレームワークが最先端技術よりも優れていることをさらに証明している。 セグメンテーションと分類の性能は著しく向上し、小さな病変領域の正確な検出を支援する。 コードはhttps://github.com/LinxuanHan/M2-MAEで公開されている。

Multi-modality magnetic resonance imaging (MRI) can provide complementary information for computer-aided diagnosis. Traditional deep learning algorithms are suitable for identifying specific anatomical structures segmenting lesions and classifying diseases with magnetic resonance images. However, manual labels are limited due to high expense, which hinders further improvement of model accuracy. Self-supervised learning (SSL) can effectively learn feature representations from unlabeled data by pre-training and is demonstrated to be effective in natural image analysis. Most SSL methods ignore the similarity of multi-modality MRI, leading to model collapse. This limits the efficiency of pre-training, causing low accuracy in downstream segmentation and classification tasks. To solve this challenge, we establish and validate a multi-modality MRI masked autoencoder consisting of hybrid mask pattern (HMP) and pyramid barlow twin (PBT) module for SSL on multi-modality MRI analysis. The HMP concatenates three masking steps forcing the SSL to learn the semantic connections of multi-modality images by reconstructing the masking patches. We have proved that the proposed HMP can avoid model collapse. The PBT module exploits the pyramidal hierarchy of the network to construct barlow twin loss between masked and original views, aligning the semantic representations of image patches at different vision scales in latent space. Experiments on BraTS2023, PI-CAI, and lung gas MRI datasets further demonstrate the superiority of our framework over the state-of-the-art. The performance of the segmentation and classification is substantially enhanced, supporting the accurate detection of small lesion areas. The code is available at https://github.com/LinxuanHan/M2-MAE.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# NTSEBENCH:視覚言語モデルのための認知推論ベンチマーク

NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models ( http://arxiv.org/abs/2407.10380v1 )

ライセンス: Link先を確認
Pranshu Pandya, Agney S Talwarr, Vatsal Gupta, Tushar Kataria, Vivek Gupta, Dan Roth, (参考訳) パズル、シリーズ、アナロジーなどの認知的テキストおよび視覚的推論タスクは、素早く推論し、解読し、パターンをテキストと空間の両方で評価する能力を要求する。 LLMとVLMは、大量の人間計算データに対する広範な訓練を通じて、ある種の常識推論タスクにおいて、高いレベルの擬人知能を達成する一方で、認知的理解を必要とするより複雑な推論タスクに苦戦している。 本研究では,大規模モデルの認知的マルチモーダル推論と問題解決能力を評価するために,NTSEBenchという新しいデータセットを導入する。 このデータセットは、インドで全国で実施されているNTSE試験から採取された26のカテゴリで合計4,642の画像からなる2,728の多重選択質問からなる。 我々は,最新のLLMとVLMを用いて,データセットのベースラインを確立する。 オープンソースモデルとプロプライエティモデルの比較を容易にするため,データセットインスタンスの異なるモダリティ(テキストと画像)を扱うための4つの異なるモデリング手法を提案する。

Cognitive textual and visual reasoning tasks, such as puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. While LLMs and VLMs, through extensive training on large amounts of human-curated data, have attained a high level of pseudo-human intelligence in some common sense reasoning tasks, they still struggle with more complex reasoning tasks that require cognitive understanding. In this work, we introduce a new dataset, NTSEBench, designed to evaluate the cognitive multi-modal reasoning and problem-solving skills of large models. The dataset comprises 2,728 multiple-choice questions comprising of a total of 4,642 images across 26 categories sampled from the NTSE examination conducted nationwide in India, featuring both visual and textual general aptitude questions that do not rely on rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities (text and images) in the dataset instances.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# ハイブリッドオシレータ-量子プロセッサ:命令セットアーキテクチャ、抽象機械モデル、応用

Hybrid Oscillator-Qubit Quantum Processors: Instruction Set Architectures, Abstract Machine Models, and Applications ( http://arxiv.org/abs/2407.10381v1 )

ライセンス: Link先を確認
Yuan Liu, Shraddha Singh, Kevin C. Smith, Eleanor Crane, John M. Martyn, Alec Eickbusch, Alexander Schuckert, Richard D. Li, Jasmine Sinanan-Singh, Micheline B. Soley, Takahiro Tsunoda, Isaac L. Chuang, Nathan Wiebe, Steven M. Girvin, (参考訳) 離散変数(DV, qubit)ハードウェアを用いた量子コンピューティングは、古典的コンピュータの範囲を超えて計算を行うのに必要な大規模化に近づいている。 しかし、ボソニックモードを含む物理モデルの量子シミュレーションや量子誤差補正といった重要なユースケースは、DVのみのシステムでは困難である。 別として、ネイティブ連続可変(CV、発振器)システムを含むハードウェアは代替手法として注目されているが、そのようなシステムの普遍的な制御は自明ではない。 本研究では,ハイブリッドCV-DVハードウェアが,DVプロセッサとCVプロセッサの両方の長所を継承する強力な計算パラダイムを提供することにより,これらの課題を満たす上で大きな優位性をもたらすことを示す。 本稿では,CV-DVシステムと,アプリケーションとハードウェアを接続する完全なソフトウェアスタックを生成するために必要な抽象化レイヤについて紹介する。 本稿では、CV-DVシステムへの量子信号処理の概念の拡張や、相互作用するスピン、フェルミオン、ボソンのシステムをシミュレートする戦略を含む、様々なハイブリッドCV-DVコンパイル技術、アルゴリズム、応用について述べる。 ハイブリッドCV-DVプロセッサシステムの開発を容易にするため,我々は,アプリケーションの構築,アルゴリズムのコンパイル,フォールトトレラント回路,モジュール,プロセッサの実現に向けた現在のハードウェアと将来のハードウェアの可能性を探るための,公式な抽象機械モデルと命令セットアーキテクチャを導入する。 ハイブリッドCV-DV量子計算は超伝導、閉じ込められたイオン、中性原子プラットフォームで実施され始めている。 我々は、量子計算への比較的未解明で有望なアプローチと、将来の発展を導くためのアーキテクチャのバックボーンを提供するための、タイムリーで包括的なガイドを提示する。

Quantum computing with discrete variable (DV, qubit) hardware is approaching the large scales necessary for computations beyond the reach of classical computers. However, important use cases such as quantum simulations of physical models containing bosonic modes, and quantum error correction are challenging for DV-only systems. Separately, hardware containing native continuous-variable (CV, oscillator) systems has received attention as an alternative approach, yet the universal control of such systems is non-trivial. In this work, we show that hybrid CV-DV hardware offers a great advantage in meeting these challenges, offering a powerful computational paradigm that inherits the strengths of both DV and CV processors. We provide a pedagogical introduction to CV-DV systems and the multiple abstraction layers needed to produce a full software stack connecting applications to hardware. We present a variety of new hybrid CV-DV compilation techniques, algorithms, and applications, including the extension of quantum signal processing concepts to CV-DV systems and strategies to simulate systems of interacting spins, fermions, and bosons. To facilitate the development of hybrid CV-DV processor systems, we introduce formal Abstract Machine Models and Instruction Set Architectures -- essential abstractions that enable developers to formulate applications, compile algorithms, and explore the potential of current and future hardware for realizing fault-tolerant circuits, modules, and processors. Hybrid CV-DV quantum computations are beginning to be performed in superconducting, trapped ion, and neutral atom platforms, and large-scale experiments are set to be demonstrated in the near future. We present a timely and comprehensive guide to this relatively unexplored yet promising approach to quantum computation and providing an architectural backbone to guide future development.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# マルチロボットネットワークにおける通信・計算効率の良い分散意思決定

Communication- and Computation-Efficient Distributed Decision-Making in Multi-Robot Networks ( http://arxiv.org/abs/2407.10382v1 )

ライセンス: Link先を確認
Zirui Xu, Sandilya Sai Garimella, Vasileios Tzoumas, (参考訳) 複数のロボット間のスケーラブルでほぼ最適な関節運動計画を可能にする分散協調パラダイムを提供する。 我々の調整パラダイムは、時間やリアルタイムを計画するのに最適に近いが実用的でない現行のパラダイムとは対照的だが、ほぼ最適の保証は提供しない。 ロボットの分散チームは、車両間(v2v)通信を通じて協調し、マッピング、監視、目標追跡といった情報量の多いタスクを実行する。 高速な分散コーディネーションを実現するには,ネットワーク全体の情報共有の爆発を抑え,ロボットコーディネートを制限する必要がある。 しかし、これは最適以下の計画につながる可能性があり、相補的な計画ではなく重なる軌道を引き起こす。 決定速度と最適性の間のトレードオフのバランスをとるために、理論的、アルゴリズム的な貢献をする。 本稿では,情報収集タスクにおけるリターン特性の低下である分散サブモジュール最適化ツールを提案する。 理論的には、局所的なネットワークトポロジが世界レベルでのほぼ最適性に与える影響を分析する。 アルゴリズムでは、エージェントがトレードオフのバランスをとるための通信効率と計算効率の調整アルゴリズムを提供する。 我々のアルゴリズムは、競合する準最適アルゴリズムよりも2桁高速である。 最大45台のロボットによる監視タスクのシミュレーションでは、1Hzのオーダーでリアルタイム計画が可能で、カバー性能も優れている。 シミュレーションを実現するために,協調的な自律パイプラインを統合し,v2v通信遅延をシミュレーションすることにより,AirSimを拡張した高忠実度シミュレータを提供する。

We provide a distributed coordination paradigm that enables scalable and near-optimal joint motion planning among multiple robots. Our coordination paradigm contrasts with current paradigms that are either near-optimal but impractical for replanning times or real-time but offer no near-optimality guarantees. We are motivated by the future of collaborative mobile autonomy, where distributed teams of robots will coordinate via vehicle-to-vehicle (v2v) communication to execute information-heavy tasks like mapping, surveillance, and target tracking. To enable rapid distributed coordination, we must curtail the explosion of information-sharing across the network, thus limiting robot coordination. However, this can lead to suboptimal plans, causing overlapping trajectories instead of complementary ones. We make theoretical and algorithmic contributions to balance the trade-off between decision speed and optimality. We introduce tools for distributed submodular optimization, a diminishing returns property in information-gathering tasks. Theoretically, we analyze how local network topology affects near-optimality at the global level. Algorithmically, we provide a communication- and computation-efficient coordination algorithm for agents to balance the trade-off. Our algorithm is up to two orders faster than competitive near-optimal algorithms. In simulations of surveillance tasks with up to 45 robots, it enables real-time planning at the order of 1 Hz with superior coverage performance. To enable the simulations, we provide a high-fidelity simulator that extends AirSim by integrating a collaborative autonomy pipeline and simulating v2v communication delays.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 非構造環境における周囲の表現、動きの予測、インフォームド行動の学習

Learning to Represent Surroundings, Anticipate Motion and Take Informed Actions in Unstructured Environments ( http://arxiv.org/abs/2407.10383v1 )

ライセンス: Link先を確認
Weiming Zhi, (参考訳) 現代ロボットは、構造化された環境で特定のタスクを達成するのに非常に熟練している。 しかし、現実の非構造環境の無限の置換に直面すると、しばしば失敗する。 これは、事前に定義されたルールに従うのではなく、経験から学ぶロボット工学の手法を動機付けている。 本論文では,ロボットが動的で非構造的な環境下で動作し,周囲をよりよく理解し,他人の行動を予測し,それに応じて情報的行動をとることを目的とした,学習に基づく学習手法について述べる。

Contemporary robots have become exceptionally skilled at achieving specific tasks in structured environments. However, they often fail when faced with the limitless permutations of real-world unstructured environments. This motivates robotics methods which learn from experience, rather than follow a pre-defined set of rules. In this thesis, we present a range of learning-based methods aimed at enabling robots, operating in dynamic and unstructured environments, to better understand their surroundings, anticipate the actions of others, and take informed actions accordingly.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 視覚プロンプティングによるセンサデータを用いたマルチモーダル大言語モデルの構築

By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting ( http://arxiv.org/abs/2407.10385v1 )

ライセンス: Link先を確認
Hyungjun Yoon, Biniyam Aschalew Tolera, Taesik Gong, Kimin Lee, Sung-Ju Lee, (参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる例外的な能力を示している。 しかし,LLMをユビキタスセンシングアプリケーションに利用することは,従来のテキストプロンプト手法が長いセンサデータシーケンスを扱う場合,大幅な性能劣化を示すため,依然として困難である。 マルチモーダルLSM(MLLM)を用いたセンサデータに対する視覚的プロンプト手法を提案する。 我々は,MLLMの視覚的プロンプトを設計し,ターゲットの知覚タスク記述と並行して可視化されたセンサデータを活用する。 さらに、与えられた感覚タスクに合わせて最適な可視化を作成することを自動化する可視化生成装置を導入し、タスク固有の事前知識の必要性を解消する。 我々は,4つの感覚モーダルを含む9つの感覚タスクに対するアプローチを評価し,テキストベースのプロンプトよりも平均10%高い精度を実現し,トークンコストを15.8倍削減した。 MLLMによる視覚刺激の有効性と費用対効果について検討した。

Large language models (LLMs) have demonstrated exceptional abilities across various domains. However, utilizing LLMs for ubiquitous sensing applications remains challenging as existing text-prompt methods show significant performance degradation when handling long sensor data sequences. We propose a visual prompting approach for sensor data using multimodal LLMs (MLLMs). We design a visual prompt that directs MLLMs to utilize visualized sensor data alongside the target sensory task descriptions. Additionally, we introduce a visualization generator that automates the creation of optimal visualizations tailored to a given sensory task, eliminating the need for prior task-specific knowledge. We evaluated our approach on nine sensory tasks involving four sensing modalities, achieving an average of 10% higher accuracy than text-based prompts and reducing token costs by 15.8x. Our findings highlight the effectiveness and cost-efficiency of visual prompts with MLLMs for various sensory tasks.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 同期性を高めたマスケ生成ビデオ・オーディオ変換器

Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity ( http://arxiv.org/abs/2407.10387v1 )

ライセンス: Link先を確認
Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà, (参考訳) Video-to-audio (V2A) 生成では、視覚のみの映像機能を活用して、シーンにマッチする可視音を描画する。 重要なことに、生成された音のオンセットはそれらと一致した視覚行動と一致すべきであり、そうでなければ不自然な同期アーティファクトが発生する。 近年の研究では,静止画像と映像の特徴に着目したコンディショニング音の進行,同期を無視した品質とセマンティックマッチング,あるいは同期のみの改善に焦点を合わせるためにある程度の品質を犠牲にするなどについて検討されている。 本研究では,V2A生成モデルであるMaskVATを提案する。 この組み合わせにより、高音質、セマンティックマッチング、時間同期を同時にモデル化できる。 この結果から,高品質のコーデックと適切な事前学習された音声-視覚特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,非コーデック生成音声モデルの最先端と競合しながら,高い同期性が得られることがわかった。 サンプルビデオと生成されたオーディオはhttps://maskvat.github.io.comで公開されている。

Video-to-audio (V2A) generation leverages visual-only video features to render plausible sounds that match the scene. Importantly, the generated sound onsets should match the visual actions that are aligned with them, otherwise unnatural synchronization artifacts arise. Recent works have explored the progression of conditioning sound generators on still images and then video features, focusing on quality and semantic matching while ignoring synchronization, or by sacrificing some amount of quality to focus on improving synchronization only. In this work, we propose a V2A generative model, named MaskVAT, that interconnects a full-band high-quality general audio codec with a sequence-to-sequence masked generative model. This combination allows modeling both high audio quality, semantic matching, and temporal synchronicity at the same time. Our results show that, by combining a high-quality codec with the proper pre-trained audio-visual features and a sequence-to-sequence parallel structure, we are able to yield highly synchronized results on one hand, whilst being competitive with the state of the art of non-codec generative audio models. Sample videos and generated audios are available at https://maskvat.github.io .
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 高品質かつ効率的なレンダリングのためのモデルに依存しないエキスパートフレームワークNeRF

Boost Your NeRF: A Model-Agnostic Mixture of Experts Framework for High Quality and Efficient Rendering ( http://arxiv.org/abs/2407.10389v1 )

ライセンス: Link先を確認
Francesco Di Sario, Riccardo Renzulli, Enzo Tartaglione, Marco Grangetto, (参考訳) NeRFの導入以来、トレーニングと推論時間の改善にかなりの注意が向けられ、Fast-NeRFsモデルの開発に繋がった。 印象的なレンダリング速度と品質にもかかわらず、そのようなモデルの迅速な収束は、再構築品質をさらに改善するための課題を提起する。 レンダリング品質を改善するための一般的な戦略は、モデルのパラメータを増やしたり、サンプルポイントの数を増やしたりすることである。 しかし、これらの計算集約的なアプローチは、大幅な品質向上を達成するための限界に直面する。 本研究では,Sparsely-Gated Mixture of Expertsにインスパイアされたモデル非依存のフレームワークを導入し,計算複雑性を増大させることなくレンダリング品質を向上させる。 提案手法は,様々な解像度のエキスパートを混在させることで,異なるシーンコンポーネントのレンダリングを専門化することができる。 本稿では,専門家の能力を最大化するために設計された新しいゲートの定式化と,空間を効果的に誘導し,シーンを分解する解像度ベースのルーティング手法を提案する。 本研究は,競争性能を維持しつつ,再現性を大幅に向上させる。

Since the introduction of NeRFs, considerable attention has been focused on improving their training and inference times, leading to the development of Fast-NeRFs models. Despite demonstrating impressive rendering speed and quality, the rapid convergence of such models poses challenges for further improving reconstruction quality. Common strategies to improve rendering quality involves augmenting model parameters or increasing the number of sampled points. However, these computationally intensive approaches encounter limitations in achieving significant quality enhancements. This study introduces a model-agnostic framework inspired by Sparsely-Gated Mixture of Experts to enhance rendering quality without escalating computational complexity. Our approach enables specialization in rendering different scene components by employing a mixture of experts with varying resolutions. We present a novel gate formulation designed to maximize expert capabilities and propose a resolution-based routing technique to effectively induce sparsity and decompose scenes. Our work significantly improves reconstruction quality while maintaining competitive performance.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 一般的なゆらぎ定理に有効な熱力学的不確実性関係の族

A family of thermodynamic uncertainty relations valid for general fluctuation theorems ( http://arxiv.org/abs/2407.10390v1 )

ライセンス: Link先を確認
André M. Timpanaro, (参考訳) 熱力学不確かさ関係(英: thermodynamic Uncertainty Relations, TURs)とは、熱力学量の相対的変動について、関連するエントロピー生成の統計量の観点から下界を確立する関係である。 本研究では、エントロピー生成の高次モーメントを探索し、変動定理が持つ任意の状況において有効であるTURの族を導出する。 結果として得られる境界は古典的状態と量子的状態の両方を持ち、常に飽和である。 これらの TUR は、非対称な駆動を受ける浴槽に弱結合された2レベル系に対して作用を示し、そこではタサキ・クルークスの揺らぎ定理を用いることができる。 最後に、我々のTURとエントロピー生成と熱力学量との相関関係を考察する。

Thermodynamic Uncertainty Relations (TURs) are relations that establish lower bounds for the relative fluctuations of thermodynamic quantities in terms of the statistics of the associated entropy production. In this work we derive a family of TURs that explores higher order moments of the entropy production and is valid in any situation a Fluctuation Theorem holds. The resulting bound holds in both classical and quantum regimes and can always be saturated. These TURs are shown in action for a two level system weakly coupled to a bath undergoing a non time-symmetric drive, where we can use the Tasaki-Crooks fluctuation theorem. Finally, we draw a connection between our TURs and the existence of correlations between the entropy production and the thermodynamic quantity under consideration.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 普遍クディットゲートに対するランダムなベンチマーク

Randomised benchmarking for universal qudit gates ( http://arxiv.org/abs/2407.10396v1 )

ライセンス: Link先を確認
David Amaro-Alcalá, Barry C. Sanders, Hubert de Guise, (参考訳) 我々は,対角的でないクリフォードゲートを単一およびマルチクイット系に対して特徴付けるスケーラブルなスキームを確立することを目指しており,d は素数整数である。 巡回演算子とキューディットTゲートを用いることで、シングルおよびマルチキューディット回路に対する二面体ベンチマークスキームを一般化する。 提案手法は, クディット・クリフォードゲートの完全配置を必要とせず, 非クリフォードゲートを特徴付けるため, 提案手法が最適であるため, 理論的, 実験的に注目される。 さらに、クリフォードランダム化ベンチマークと組み合わせることで、ユニバーサルゲートセットのジェネレータを特徴付けるのに有用である。

We aim to establish a scalable scheme for characterising diagonal non- Clifford gates for single- and multi-quit systems; d is a prime-power integer. By employing cyclic operators and a qudit T gate, we generalise the dihedral benchmarking scheme for single- and multi-qudit circuits. Our results establish a path for experimentally benchmarking qudit systems and are of theoretical and experimental interest because our scheme is optimal insofar as it does not require preparation of the full qudit Clifford gate set to characterise a non-Clifford gate. Moreover, combined with Clifford randomised benchmarking, our scheme is useful to characterise the generators of a universal gate set.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# AWS Lambda上のサーバレスアプリケーションのパフォーマンス最適化戦略の総括的レビュー

Comprehensive Review of Performance Optimization Strategies for Serverless Applications on AWS Lambda ( http://arxiv.org/abs/2407.10397v1 )

ライセンス: Link先を確認
Mohamed Lemine El Bechir, Cheikh Sad Bouh, Abobakr Shuwail, (参考訳) この記事では、AWS Lambda上にデプロイされたサーバレスアプリケーションのパフォーマンス最適化戦略に関する最新の研究を合成する。 最近の研究から、サーバレスアプリケーションのパフォーマンス、コスト効率、スケーラビリティを向上させる上での課題、ソリューション、ベストプラクティスを強調します。 レビューでは、リソース管理、ランタイムの選択、可観測性の改善、ワークロード対応操作など、さまざまな最適化テクニックについて取り上げている。

This review paper synthesizes the latest research on performance optimization strategies for serverless applications deployed on AWS Lambda. By examining recent studies, we highlight the challenges, solutions, and best practices for enhancing the performance, cost efficiency, and scalability of serverless applications. The review covers a range of optimization techniques including resource management, runtime selection, observability improvements, and workload aware operations.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# ディープフェイク検知器におけるモアレパターンの影響を探る

Exploring the Impact of Moire Pattern on Deepfake Detectors ( http://arxiv.org/abs/2407.10399v1 )

ライセンス: Link先を確認
Razaib Tariq, Shahroz Tariq, Simon S. Woo, (参考訳) ディープフェイク検出は、操作されたビデオによって引き起こされる社会的脅威を軽減するために重要である。 この目的のために様々なアルゴリズムが開発されているが、ユーザーがディープフェイク画像の写真を撮ってインターネットにアップロードする際、スマートフォンなど、検出器が外部で操作する場合に問題が発生する。 このようなシナリオにおける重要な課題の1つは、画像品質を低下させ、ディープニューラルネットワーク(DNN)を含む従来の分類アルゴリズムと相反するMoir\'eパターンの存在である。 モイアのパターンの影響は、ディープフェイク検出器では未発見のままである。 本研究では,デジタルスクリーンから撮影したディープフェイク映像が検出器性能に与える影響について検討した。 我々はCelebDFとFF++という2つの著名なデータセットを用いて実験を行い、撮影したディープフェイクビデオの4つの最先端検出器の性能と、導入したMoir\'eパターンを比較した。 その結果,検出器の精度は著しく低下し,平均68%を超えなかった。 このことは、現実世界のディープフェイク検出シナリオにおけるMoir\'eパターンの問題に対処する重要な必要性を浮き彫りにしている。

Deepfake detection is critical in mitigating the societal threats posed by manipulated videos. While various algorithms have been developed for this purpose, challenges arise when detectors operate externally, such as on smartphones, when users take a photo of deepfake images and upload on the Internet. One significant challenge in such scenarios is the presence of Moir\'e patterns, which degrade image quality and confound conventional classification algorithms, including deep neural networks (DNNs). The impact of Moir\'e patterns remains largely unexplored for deepfake detectors. In this study, we investigate how camera-captured deepfake videos from digital screens affect detector performance. We conducted experiments using two prominent datasets, CelebDF and FF++, comparing the performance of four state-of-the-art detectors on camera-captured deepfake videos with introduced Moir\'e patterns. Our findings reveal a significant decline in detector accuracy, with none achieving above 68% on average. This underscores the critical need to address Moir\'e pattern challenges in real-world deepfake detection scenarios.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 衛星エッジクラウドにおける統合テストのQoSフレームワーク

A Framework for QoS of Integration Testing in Satellite Edge Clouds ( http://arxiv.org/abs/2407.10402v1 )

ライセンス: Link先を確認
Guogen Zeng, Juan Luo, Yufeng Zhang, Ying Qiao, Shuyang Teng, (参考訳) 衛星通信サービスの多様化は、ネットワークサービス品質にさまざまな要件を課し、衛星上で実行されるマイクロサービスのクオリティ・オブ・サービス(QoS)テストをより複雑にする。 既存のテストツールには制限があり、単一の機能テストのみを提供する可能性があるため、モバイルサテライトシナリオにおけるエッジクラウドサービスのQoSテストの要件を満たすことができない。 本稿では,衛星エッジクラウドにおけるサービステストの品質統合のためのフレームワークを提案する。 より正確には、このフレームワークは衛星ネットワークトポロジの変更の統合、異種エッジデバイス上での衛星エッジクラウドクラスタテスト環境の作成と管理、ユーザのための実験のカスタマイズ、さまざまな統合テストツールのデプロイとスケーリングのサポート、テスト結果のパブリッシュと視覚化を可能にする。 実験の結果,サテライトエッジクラウドクラスタにおける主要なサービス品質メトリクスをテストするためのフレームワークの能力を検証することができた。

The diversification of satellite communication services imposes varied requirements on network service quality, making quality of service (QoS) testing for microservices running on satellites more complex. Existing testing tools have limitations, potentially offering only single-functionality testing, thus failing to meet the requirements of QoS testing for edge cloud services in mobile satellite scenarios. In this paper, we propose a framework for integrating quality of service testing in satellite edge clouds. More precisely, the framework can integrate changes in satellite network topology, create and manage satellite edge cloud cluster testing environments on heterogeneous edge devices, customize experiments for users, support deployment and scaling of various integrated testing tools, and publish and visualize test results. Our experimental results validate the framework's ability to test key service quality metrics in a satellite edge cloud cluster.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# マルチエージェントパスフィンディングのための協調リワード整形

Cooperative Reward Shaping for Multi-Agent Pathfinding ( http://arxiv.org/abs/2407.10403v1 )

ライセンス: Link先を確認
Zhenyu Song, Ronghao Zheng, Senlin Zhang, Meiqin Liu, (参考訳) MAPF(Multi-Agent Pathfinding)の主な目的は、全てのエージェントに対して効率的で競合のないパスを計画することである。 従来のマルチエージェントパス計画アルゴリズムは、複数のエージェントに対して効率的な分散パス計画を実現するのに苦労する。 対照的に、MARL(Multi-Agent Reinforcement Learning)は、この目的を達成する効果的なアプローチとして実証されている。 MAPF問題をMARL問題としてモデル化することにより、エージェントは部分観察下の分散戦略を通じて効率的な経路計画と衝突回避を実現することができる。 しかし、MARL戦略は、グローバル情報の欠如によりエージェント間の協力が欠如し、MAPF効率が低下する。 この課題に対処するため、このレターでは、Independent Q-Learning(IQL)に基づいた独自の報酬形成テクニックを導入している。 本手法の目的は,1つのエージェントが隣人に与える影響を評価し,その相互作用を報酬関数に統合することにより,エージェント間の積極的な協調を実現することである。 本発明の報酬形成方法は、分散的に操作しながら、エージェント間の協調を容易にする。 提案手法は,異なるスケールとエージェント数を持つ様々なシナリオを対象とした実験を通じて評価されている。 結果は、他の最先端(SOTA)プランナーと比較される。 証拠は、この手紙で提案されたアプローチが、多くの面において他のプランナーと平行して、多数のエージェントを特徴とするシナリオでそれらを上回っていることを示唆している。

The primary objective of Multi-Agent Pathfinding (MAPF) is to plan efficient and conflict-free paths for all agents. Traditional multi-agent path planning algorithms struggle to achieve efficient distributed path planning for multiple agents. In contrast, Multi-Agent Reinforcement Learning (MARL) has been demonstrated as an effective approach to achieve this objective. By modeling the MAPF problem as a MARL problem, agents can achieve efficient path planning and collision avoidance through distributed strategies under partial observation. However, MARL strategies often lack cooperation among agents due to the absence of global information, which subsequently leads to reduced MAPF efficiency. To address this challenge, this letter introduces a unique reward shaping technique based on Independent Q-Learning (IQL). The aim of this method is to evaluate the influence of one agent on its neighbors and integrate such an interaction into the reward function, leading to active cooperation among agents. This reward shaping method facilitates cooperation among agents while operating in a distributed manner. The proposed approach has been evaluated through experiments across various scenarios with different scales and agent counts. The results are compared with those from other state-of-the-art (SOTA) planners. The evidence suggests that the approach proposed in this letter parallels other planners in numerous aspects, and outperforms them in scenarios featuring a large number of agents.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 変圧器を用いた大規模全周単深化に向けて

Towards Scale-Aware Full Surround Monodepth with Transformers ( http://arxiv.org/abs/2407.10406v1 )

ライセンス: Link先を確認
Yuchen Yang, Xinyi Wang, Dong Li, Lu Tian, Ashish Sirasao, Xun Yang, (参考訳) フルサラウンドモノディープス(FSM)法は,複数のカメラビューから同時に学習し,単独の単眼カメラによるスケールアンビグラスディープとは対照的に,現実のアプリケーションにおいてより実用的なスケールアウェアディープを予測できる。 本研究では,深度推定のためのFSM法のスケール・アウェアネスの向上に焦点をあてる。 そこで本研究では,深度ネットワーク構造最適化とトレーニングパイプライン最適化という2つの観点からFSMを改善することを提案する。 まず,隣り合わせのクロスビューアテンション(NCA)を用いた変圧器を用いた深度ネットワークを構築する。 クロスアテンションモジュールは、グローバルビューと近隣ビューの両方において、クロスビューコンテキストをよりよく集約することができる。 第2に、トランスフォーマーに基づく特徴マッチングスキームをプログレッシブトレーニングで定式化し、SfMパイプラインを改善する。 これにより,SfM損失に基づくミスマッチを除去することで,十分な一致でスケール認識を学習し,ネットワークの収束をさらに促進できる。 実験の結果、SA-FSM法は、テスト時に中央値スケーリングなしでスケール認識深度予測を大幅に改善し、DDADベンチマークのデルタ<1.25の精度でSurroundDepthを3.8%上回る最先端のFSM法に対して好適に機能することが示された。

Full surround monodepth (FSM) methods can learn from multiple camera views simultaneously in a self-supervised manner to predict the scale-aware depth, which is more practical for real-world applications in contrast to scale-ambiguous depth from a standalone monocular camera. In this work, we focus on enhancing the scale-awareness of FSM methods for depth estimation. To this end, we propose to improve FSM from two perspectives: depth network structure optimization and training pipeline optimization. First, we construct a transformer-based depth network with neighbor-enhanced cross-view attention (NCA). The cross-attention modules can better aggregate the cross-view context in both global and neighboring views. Second, we formulate a transformer-based feature matching scheme with progressive training to improve the structure-from-motion (SfM) pipeline. That allows us to learn scale-awareness with sufficient matches and further facilitate network convergence by removing mismatches based on SfM loss. Experiments demonstrate that the resulting Scale-aware full surround monodepth (SA-FSM) method largely improves the scale-aware depth predictions without median-scaling at the test time, and performs favorably against the state-of-the-art FSM methods, e.g., surpassing SurroundDepth by 3.8% in terms of accuracy at delta<1.25 on the DDAD benchmark.
翻訳日:2024-07-16 16:30:30 公開日:2024-07-15
# 生成AIに基づく画像データ拡張を用いたメロン果実の検出と品質評価

Melon Fruit Detection and Quality Assessment Using Generative AI-Based Image Data Augmentation ( http://arxiv.org/abs/2407.10413v1 )

ライセンス: Link先を確認
Seungri Yoon, Yunseong Cho, Tae In Ahn, (参考訳) 果実の成長と品質のモニタリングと管理は、非常に重要なタスクである。 リアルタイムの果物検出にYOLOなどのディープラーニングモデルを効果的にトレーニングするためには、高品質の画像データセットが不可欠である。 しかし、このようなデータセットはしばしば農業に欠けている。 生成AIモデルは高品質な画像を作成するのに役立つ。 本研究では、MidJourneyとFireflyのツールを用いて、テキスト・ツー・イメージ、プレ・ハーヴェスト・イメージ・トゥ・イメージ、およびポスト・ハーヴェスト・イメージ・トゥ・イメージによるメロン温室とポスト・ハーヴェスト・フルーツの画像を生成する。 我々は,これらのAI生成画像をPSNRおよびSSIMメトリクスを用いて評価し,YOLOv9モデルの検出性能を検証した。 また,実生果実の純品質についても検討した。 以上の結果から,生成AIは実物と非常によく似た画像を生成できることが示唆された。 YOLOv9モデルは生成した画像を良好に検出し、純品質も測定可能であった。 このことは、生成的AIが、果物の検出と品質評価に有用な現実的なイメージを作成できることを示し、農業におけるその大きな可能性を示している。 本研究は,メロン果実の検出と品質評価におけるデータ増大のためのAI生成画像の可能性を強調し,農業における生成AI応用の肯定的な将来を想定する。

Monitoring and managing the growth and quality of fruits are very important tasks. To effectively train deep learning models like YOLO for real-time fruit detection, high-quality image datasets are essential. However, such datasets are often lacking in agriculture. Generative AI models can help create high-quality images. In this study, we used MidJourney and Firefly tools to generate images of melon greenhouses and post-harvest fruits through text-to-image, pre-harvest image-to-image, and post-harvest image-to-image methods. We evaluated these AIgenerated images using PSNR and SSIM metrics and tested the detection performance of the YOLOv9 model. We also assessed the net quality of real and generated fruits. Our results showed that generative AI could produce images very similar to real ones, especially for post-harvest fruits. The YOLOv9 model detected the generated images well, and the net quality was also measurable. This shows that generative AI can create realistic images useful for fruit detection and quality assessment, indicating its great potential in agriculture. This study highlights the potential of AI-generated images for data augmentation in melon fruit detection and quality assessment and envisions a positive future for generative AI applications in agriculture.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# モデル脳アライメント向上のためのCORnet Human fMRI表現の指導

Teaching CORnet Human fMRI Representations for Enhanced Model-Brain Alignment ( http://arxiv.org/abs/2407.10414v1 )

ライセンス: Link先を確認
Zitong Lu, Yile Wang, (参考訳) ディープ畳み込みニューラルネットワーク(DCNN)は、物体認識において優れた性能を示し、脳の視覚処理と類似点があることが判明した。 しかし、DCNNと人間の視覚的知覚の間には、かなりのギャップが残っている。 認知神経科学において広く用いられる技術として機能的磁気共鳴イメージング(fMRI)は、視覚知覚の過程において人間の視覚野の神経活動を記録することができる。 より脳的なモデルを実現するために、DCNNに人間のfMRI信号を教えることはできますか? そこで本研究では,SOTAビジョンモデルCORnetに基づくモデルであるReAlnet-fMRIを提案する。 この枠組みは、モデルが人間の脳表現を効果的に学習することを可能にすることが示されている。 fMRIを最適化したReAlnet-fMRIは、CORnetと制御モデルの両方でヒトの脳と高い類似性を示し、また、内部および横断的なモデル脳(fMRIとEEG)アライメントの評価も行った。 さらに,ReAlnet-fMRIの内部表現がCORnetとどう異なるのかを,様々な物体次元の符号化において詳細に分析した。 これらの知見は、人間の神経データを統合することで視覚モデルの脳類似性を高める可能性を提供し、コンピュータビジョンと視覚神経科学のギャップを埋める助けとなる。

Deep convolutional neural networks (DCNNs) have demonstrated excellent performance in object recognition and have been found to share some similarities with brain visual processing. However, the substantial gap between DCNNs and human visual perception still exists. Functional magnetic resonance imaging (fMRI) as a widely used technique in cognitive neuroscience can record neural activation in the human visual cortex during the process of visual perception. Can we teach DCNNs human fMRI signals to achieve a more brain-like model? To answer this question, this study proposed ReAlnet-fMRI, a model based on the SOTA vision model CORnet but optimized using human fMRI data through a multi-layer encoding-based alignment framework. This framework has been shown to effectively enable the model to learn human brain representations. The fMRI-optimized ReAlnet-fMRI exhibited higher similarity to the human brain than both CORnet and the control model in within-and across-subject as well as within- and across-modality model-brain (fMRI and EEG) alignment evaluations. Additionally, we conducted an in-depth analyses to investigate how the internal representations of ReAlnet-fMRI differ from CORnet in encoding various object dimensions. These findings provide the possibility of enhancing the brain-likeness of visual models by integrating human neural data, helping to bridge the gap between computer vision and visual neuroscience.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# NISQデバイスにおけるオニオンVQE最適化手法

OnionVQE Optimization Strategy for Ground State Preparation on NISQ Devices ( http://arxiv.org/abs/2407.10415v1 )

ライセンス: Link先を確認
Katerina Gratsea, Johannes Selisko, Maximilian Amsler, Christopher Wever, Thomas Eckl, Georgy Samsonidze, (参考訳) 変分量子固有解法(VQE)は、現在のノイズ中間規模量子(NISQ)デバイスの性能を利用する最も有望で広く使われているアルゴリズムの1つである。 しかしながら、VQEアルゴリズムは、不毛の台地、局所的なミニマ、量子ハードウェアノイズ、量子ビット接続の制限など、多くの問題に悩まされており、ハードウェアやシミュレーターへの展開に成功している。 本研究では,近年の文献の進歩を基盤として,興味のある特定のシステム,すなわち銅酸化物を表すモデルハミルトニアンに適用した場合に,非常に浅い回路深度を示すVQE最適化戦略を提案する。 これらの特徴は,現在のNISQデバイス上での良好な基底状態近似を生成するための候補として,我々のアプローチに好適なものである。 本研究は,NISQ デバイスの全機能を活用した VQE アルゴリズム開発の可能性を示す。

The Variational Quantum Eigensolver (VQE) is one of the most promising and widely used algorithms for exploiting the capabilities of current Noisy Intermediate-Scale Quantum (NISQ) devices. However, VQE algorithms suffer from a plethora of issues, such as barren plateaus, local minima, quantum hardware noise, and limited qubit connectivity, thus posing challenges for their successful deployment on hardware and simulators. In this work, we propose a VQE optimization strategy that builds upon recent advances in the literature, and exhibits very shallow circuit depths when applied to the specific system of interest, namely a model Hamiltonian representing a cuprate superconductor. These features make our approach a favorable candidate for generating good ground state approximations on current NISQ devices. Our findings illustrate the potential of VQE algorithmic development for leveraging the full capabilities of NISQ devices.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# 高い損失は少なくとも1/2オーダーを後悔する

Proper losses regret at least 1/2-order ( http://arxiv.org/abs/2407.10417v1 )

ライセンス: Link先を確認
Han Bao, Asuka Takatsu, (参考訳) 機械学習における基本的な課題は、学習タスクを特徴づける損失の選択であり、トレーニングフェーズで最小化され、推定者の評価基準として機能する。 適切な損失は一般的に選択され、完全なリスクの最小化が真の確率ベクトルと一致することを保証する。 適切な損失から誘導される推定器は、分類やランキングなどの下流タスクの予測器を構築するために広く使用されている。 この方法では、与えられた下流タスクにおいて、得られた推定器に基づく予測器は、どのようにうまく機能するか。 この問題は、推定値と真の確率ベクトルの間の$p$-normの振舞いに、推定値が更新されたときに大きく関係している。 適切な損失枠組において、真の確率ベクトルから推定された確率ベクトルの亜最適度を代理後悔によって測定する。 まず、代理的後悔を分析し、損失の厳密な正当性が必要であり、非空き代理的後悔境界を確立するのに十分であることを示す。 第二に、p-ノルムにおける収束の順序は、厳密な正当な損失の広いクラスに対する1/2$-オーダーのサロゲート後悔よりも高速ではないという重要なオープンな問題を解く。 これは、強い適切な損失は最適収束率を含むことを意味する。

A fundamental challenge in machine learning is the choice of a loss as it characterizes our learning task, is minimized in the training phase, and serves as an evaluation criterion for estimators. Proper losses are commonly chosen, ensuring minimizers of the full risk match the true probability vector. Estimators induced from a proper loss are widely used to construct forecasters for downstream tasks such as classification and ranking. In this procedure, how does the forecaster based on the obtained estimator perform well under a given downstream task? This question is substantially relevant to the behavior of the $p$-norm between the estimated and true probability vectors when the estimator is updated. In the proper loss framework, the suboptimality of the estimated probability vector from the true probability vector is measured by a surrogate regret. First, we analyze a surrogate regret and show that the strict properness of a loss is necessary and sufficient to establish a non-vacuous surrogate regret bound. Second, we solve an important open question that the order of convergence in p-norm cannot be faster than the $1/2$-order of surrogate regrets for a broad class of strictly proper losses. This implies that strongly proper losses entail the optimal convergence rate.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# 偏差トレードオフレンズによるレグレッションにおけるロバストネスの総合的視点

An integrated perspective of robustness in regression through the lens of the bias-variance trade-off ( http://arxiv.org/abs/2407.10418v1 )

ライセンス: Link先を確認
Akifumi Okuno, (参考訳) 本稿では,レグレッションにおけるロバスト性に関する総合的な視点を示す。 具体的には、従来の外乱耐性の頑健な推定と、虚構的データセットの摂動に抵抗するパラメータ推定に焦点を当てた頑健な最適化の関係について検討する。 どちらも堅牢な方法とみなされるが、これらの概念はバイアス分散トレードオフを示し、大まかに逆戦略に従うことを示している。

This paper presents an integrated perspective on robustness in regression. Specifically, we examine the relationship between traditional outlier-resistant robust estimation and robust optimization, which focuses on parameter estimation resistant to imaginary dataset-perturbations. While both are commonly regarded as robust methods, these concepts demonstrate a bias-variance trade-off, indicating that they follow roughly converse strategies.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# 一般時系列解析のためのOmni-dimensional Frequency Learner

Omni-Dimensional Frequency Learner for General Time Series Analysis ( http://arxiv.org/abs/2407.10419v1 )

ライセンス: Link先を確認
Xianing Chen. Hanting Chen, Hailin Hu, (参考訳) 時系列機能の周波数領域表現は、実世界の時系列データを本質的に複雑で動的に扱うための簡潔な表現を提供する。 しかし、複雑な演算を持つ現在の周波数ベースの手法は、一般的な時系列解析のための最先端の時間領域法にはまだ及ばない。 本研究では,周波数特徴の3つの側面の深さ解析に基づくOmni-dimensional Frequency Learner (ODFL)モデルを提案する。 本手法は,非定常周波数帯域に着目した意味適応型大域的フィルタとチャネル次元間の部分演算からなる。 実験の結果,ODFLは,短期・長期の予測,計算,分類,異常検出を含む5つの主要な時系列解析タスクにおいて,一貫した最先端の時系列解析を達成し,時系列解析の基礎となる可能性が示唆された。

Frequency domain representation of time series feature offers a concise representation for handling real-world time series data with inherent complexity and dynamic nature. However, current frequency-based methods with complex operations still fall short of state-of-the-art time domain methods for general time series analysis. In this work, we present Omni-Dimensional Frequency Learner (ODFL) model based on a in depth analysis among all the three aspects of the spectrum feature: channel redundancy property among the frequency dimension, the sparse and un-salient frequency energy distribution among the frequency dimension, and the semantic diversity among the variable dimension. Technically, our method is composed of a semantic-adaptive global filter with attention to the un-salient frequency bands and partial operation among the channel dimension. Empirical results show that ODFL achieves consistent state-of-the-art in five mainstream time series analysis tasks, including short- and long-term forecasting, imputation, classification, and anomaly detection, offering a promising foundation for time series analysis.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# マニピュレータを用いた高速旋回, 空中姿勢, バランスの学習

Learning Rapid Turning, Aerial Reorientation, and Balancing using Manipulator as a Tail ( http://arxiv.org/abs/2407.10420v1 )

ライセンス: Link先を確認
Insung Yang, Jemin Hwangbo, (参考訳) 本研究では,四足歩行ロボットの尾翼としてのマニピュレータの革新的利用について検討した。 これまでの研究は、四足歩行ロボットの尾にのみ機能するロボット尾部を装着することで、様々な能力の向上に重点を置いてきた。 これらの尾翼はロボットの性能を向上させるが、全体的な重量増加やコスト向上などいくつかの欠点がある。 これらの制限を緩和するため,尾翼に6-DoFマニピュレータを装着し,尾翼とマニピュレータの両方として機能させることを提案する。 この高度に複雑なロボットを制御するために,マニピュレータを備えたロボットの強化学習に基づく制御器を開発した。 実験の結果, マニピュレータを備えたロボットは, 急速旋回, 空中方向転換, バランスなどのタスクにおいて, マニピュレータを持たないロボットよりも優れていた。 これらの結果から, マニピュレータは操作能力に加えて, 尾翼に類似した四足歩行ロボットの機敏性と安定性を向上させることが示唆された。

In this research, we investigated the innovative use of a manipulator as a tail in quadruped robots to augment their physical capabilities. Previous studies have primarily focused on enhancing various abilities by attaching robotic tails that function solely as tails on quadruped robots. While these tails improve the performance of the robots, they come with several disadvantages, such as increased overall weight and higher costs. To mitigate these limitations, we propose the use of a 6-DoF manipulator as a tail, allowing it to serve both as a tail and as a manipulator. To control this highly complex robot, we developed a controller based on reinforcement learning for the robot equipped with the manipulator. Our experimental results demonstrate that robots equipped with a manipulator outperform those without a manipulator in tasks such as rapid turning, aerial reorientation, and balancing. These results indicate that the manipulator can improve the agility and stability of quadruped robots, similar to a tail, in addition to its manipulation capabilities.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# マルチレベル要約によるブログ生成のためのLLMの強化

Empowering LLMs for Verilog Generation through Multi-Level Summarization ( http://arxiv.org/abs/2407.10424v1 )

ライセンス: Link先を確認
Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen, (参考訳) プロセッサ設計の複雑さとコストの増大により、プロセッサ設計の自動化に対する需要が急増した。 命令調整型大規模言語モデル(LLM)は、Pythonのような汎用プログラミング言語のコードを自動的に生成する際、顕著な性能を示している。 しかし、GPT-3.5のような先進的なLCMでさえ、Verilog生成において限られた性能を示すため、高品質な命令チューニングデータが不足しているため、これらの手法はVerilogのようなハードウェア記述言語(HDL)では失敗する。 この問題に関して,(1)実世界から収集したVerilogコードは,LLMが生成したコードよりも高品質であることを示す。 2) GPT-3.5 のような LLM は、生成するのではなく、Verilog コードの要約に優れている。 そこで本研究では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。 まず、先進的なLLMから対応するコードを生成する代わりに、VerilogコードでLLMをプロンプトし、多レベル要約により対応する自然言語記述を生成する。 実験の結果、CodeVは以前のオープンソースSOTAの14.4%(VerilogEvalのBetterV)と11.3%(RTLCoderのRTLCoder)を比較的上回り、またVerilogEvalの商用SOTA GPT-4の22.1%を上回った。

The increasing complexity and high costs associated with modern processor design have led to a surge in demand for processor design automation. Instruction-tuned large language models (LLMs) have demonstrated remarkable performance in automatically generating code for general-purpose programming languages like Python. However, these methods fail on hardware description languages (HDLs) like Verilog due to the scarcity of high-quality instruction tuning data, as even advanced LLMs like GPT-3.5 exhibit limited performance on Verilog generation. Regarding this issue, we observe that (1) Verilog code collected from the real world has higher quality than those generated by LLMs. (2) LLMs like GPT-3.5 excel in summarizing Verilog code rather than generating it. Based on these observations, this paper introduces CodeV, a series of open-source instruction-tuned Verilog generation LLMs. Instead of generating descriptions first and then getting the corresponding code from advanced LLMs, we prompt the LLM with Verilog code and let the LLM generate the corresponding natural language description by multi-level summarization. Experimental results show that CodeV relatively surpasses the previous open-source SOTA by 14.4% (BetterV in VerilogEval) and 11.3% (RTLCoder in RTLLM) respectively, and also relatively outperforms previous commercial SOTA GPT-4 by 22.1% in VerilogEval.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# マルチテンポラルハイパースペクトル像アンミキシング用トランス

Transformer for Multitemporal Hyperspectral Image Unmixing ( http://arxiv.org/abs/2407.10427v1 )

ライセンス: Link先を確認
Hang Li, Qiankun Dong, Xueshuo Xie, Xia Xu, Tao Li, Zhenwei Shi, (参考訳) MTHU(Multitemporal Hyperspectral Image Unmixing)は表面の動的変化のモニタリングと解析において重要な役割を担う。 しかし、単一時間アンミックスと比較して、マルチテンポラルアプローチは異なるフェーズにわたる情報の包括的考慮を必要とするため、大きな課題となる。 この課題に対処するために、エンドツーエンドの教師なしディープラーニングモデルであるMultitemporal Hyperspectral Image Unmixing Transformer (MUFormer)を提案する。 マルチテンポラルハイパースペクトル像のアンミックスを効果的に行うために,グローバル・アウェアネス・モジュール (GAM) とチェンジ・エンハンスメント・モジュール (CEM) の2つの重要なモジュールを紹介した。 グローバル・アウェアネス・モジュールは全フェーズにわたって自己注意を計算し、グローバル・ウェイト・アロケーションを促進する。 一方、Change Enhancement Moduleは、隣接する位相間の終端変化を比較することで、局所的な時間変化を動的に学習する。 これらのモジュール間の相乗効果により、終端および豊富な変化に関する意味情報をキャプチャし、マルチテンポラルハイパースペクトル画像アンミックスの有効性を高めることができる。 我々は,1つの実データと2つの合成データセットを用いて実験を行い,そのモデルがマルチテンポラルハイパースペクトル像のアンミックス効果を著しく向上させることを示した。

Multitemporal hyperspectral image unmixing (MTHU) holds significant importance in monitoring and analyzing the dynamic changes of surface. However, compared to single-temporal unmixing, the multitemporal approach demands comprehensive consideration of information across different phases, rendering it a greater challenge. To address this challenge, we propose the Multitemporal Hyperspectral Image Unmixing Transformer (MUFormer), an end-to-end unsupervised deep learning model. To effectively perform multitemporal hyperspectral image unmixing, we introduce two key modules: the Global Awareness Module (GAM) and the Change Enhancement Module (CEM). The Global Awareness Module computes self-attention across all phases, facilitating global weight allocation. On the other hand, the Change Enhancement Module dynamically learns local temporal changes by comparing endmember changes between adjacent phases. The synergy between these modules allows for capturing semantic information regarding endmember and abundance changes, thereby enhancing the effectiveness of multitemporal hyperspectral image unmixing. We conducted experiments on one real dataset and two synthetic datasets, demonstrating that our model significantly enhances the effect of multitemporal hyperspectral image unmixing.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# スコープの拡大:多段階進行伝播を用いた帰納的知識グラフ推論

Expanding the Scope: Inductive Knowledge Graph Reasoning with Multi-Starting Progressive Propagation ( http://arxiv.org/abs/2407.10430v1 )

ライセンス: Link先を確認
Zhoutian Shao, Yuanning Cui, Wei Hu, (参考訳) 知識グラフ(KG)は不完全であると広く認識されており、新しい実体が現実世界に常に出現している。 帰納的KG推論は、これらの新しい実体に欠けている事実を予測することを目的としている。 既存のモデルの中で、グラフニューラルネットワーク(GNN)ベースのモデルでは、このタスクに有望なパフォーマンスを示している。 しかし、距離と拡張性の問題により、非効率なメッセージの伝搬が依然として問題となっている。 本稿では,条件付きメッセージパッシングニューラルネットワーク(C-MPNN)を利用した新しい帰納的KG推論モデルであるMStarを提案する。 キーとなる洞察は、複数のクエリ固有の開始エンティティを選択して、プログレッシブな伝播の範囲を広げることです。 限られたステップでクエリ関連メッセージを遠くの領域に伝達するために、我々はその後、これらの選択された開始エンティティに対して情報を伝達するハイウェイ層を設計する。 さらに、ノイズの多いトレーニングサンプルの影響を軽減するために、LinkVerifyと呼ばれるトレーニング戦略を導入する。 実験結果から,MStarは最先端モデル,特に遠距離モデルと比較して優れた性能を示すことがわかった。

Knowledge graphs (KGs) are widely acknowledged as incomplete, and new entities are constantly emerging in the real world. Inductive KG reasoning aims to predict missing facts for these new entities. Among existing models, graph neural networks (GNNs) based ones have shown promising performance for this task. However, they are still challenged by inefficient message propagation due to the distance and scalability issues. In this paper, we propose a new inductive KG reasoning model, MStar, by leveraging conditional message passing neural networks (C-MPNNs). Our key insight is to select multiple query-specific starting entities to expand the scope of progressive propagation. To propagate query-related messages to a farther area within limited steps, we subsequently design a highway layer to propagate information toward these selected starting entities. Moreover, we introduce a training strategy called LinkVerify to mitigate the impact of noisy training samples. Experimental results validate that MStar achieves superior performance compared with state-of-the-art models, especially for distant entities.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# 歯科用CBCTにおける3次元個別歯の分割のための多段階的枠組み

A Multi-Stage Framework for 3D Individual Tooth Segmentation in Dental CBCT ( http://arxiv.org/abs/2407.10433v1 )

ライセンス: Link先を確認
Chunshi Wang, Bin Zhao, Shuxue Ding, (参考訳) コーンビームCT(CBCT)は歯科疾患の診断方法として一般的である。 3次元歯の正確なセグメンテーションは治療において重要である。 深層学習に基づく手法は医用画像処理において説得力のある結果を得たが、ネットワークトレーニングには大量の注釈付きデータが必要であるため、データ収集とアノテーションに非常に時間がかかる。 さらに、異なるデバイスによって取得されたデータの分布に広く存在するドメインシフトは、モデルの一般化に深刻な影響を及ぼす。 この問題を解決するために, 歯科用CBCTにおける3次元歯のセグメンテーションのための多段階フレームワークを提案し, 3D (STS-3D) の課題において第3位を獲得した。 また, 他の半教師付きセグメンテーション法との比較実験により, 本手法の有効性が示唆された。

Cone beam computed tomography (CBCT) is a common way of diagnosing dental related diseases. Accurate segmentation of 3D tooth is of importance for the treatment. Although deep learning based methods have achieved convincing results in medical image processing, they need a large of annotated data for network training, making it very time-consuming in data collection and annotation. Besides, domain shift widely existing in the distribution of data acquired by different devices impacts severely the model generalization. To resolve the problem, we propose a multi-stage framework for 3D tooth segmentation in dental CBCT, which achieves the third place in the "Semi-supervised Teeth Segmentation" 3D (STS-3D) challenge. The experiments on validation set compared with other semi-supervised segmentation methods further indicate the validity of our approach.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# PolyRoom: フロアプラン再構築のためのルームアウェア変換器

PolyRoom: Room-aware Transformer for Floorplan Reconstruction ( http://arxiv.org/abs/2407.10439v1 )

ライセンス: Link先を確認
Yuzhou Liu, Lingjie Zhu, Xiaodong Ma, Hanqiao Ye, Xiang Gao, Xianwei Zheng, Shuhan Shen, (参考訳) 生の非構造データから幾何構造とトポロジー構造を再構成することは、屋内マッピング研究において常に重要な研究課題である。 本稿では,点雲からベクトル化された表現でフロアプランを再構築することを目的とする。 近年の進歩にもかかわらず、現在の手法は、角や縁の欠如、角の位置や角度の不正確さ、自己交差または重なり合う多角形、そして潜在的に予測できないトポロジーなど、いくつかの課題に直面している。 これらの課題に対処するために、一様サンプリング表現、ルームアウェアクエリ初期化、フロアプラン再構築のためのルームアウェアセルフアテンションを利用する、部屋アウェアトランスフォーマーであるPolyRoomを提案する。 具体的には、トレーニング中の密集的な監視と角度情報の有効活用を可能にするため、一様サンプリングフロアプラン表現を採用する。 さらに,非ポリゴンシーケンスを防止し,メモリ効率とモデル性能を向上させるために,部屋認識型クエリ初期化手法を提案する。 2つの広く使われているデータセットの実験結果は、PolyRoomが現在の最先端の手法を量的にも質的にも上回っていることを示している。 私たちのコードは、https://github.com/3dv-casia/PolyRoom/で利用可能です。

Reconstructing geometry and topology structures from raw unstructured data has always been an important research topic in indoor mapping research. In this paper, we aim to reconstruct the floorplan with a vectorized representation from point clouds. Despite significant advancements achieved in recent years, current methods still encounter several challenges, such as missing corners or edges, inaccuracies in corner positions or angles, self-intersecting or overlapping polygons, and potentially implausible topology. To tackle these challenges, we present PolyRoom, a room-aware Transformer that leverages uniform sampling representation, room-aware query initialization, and room-aware self-attention for floorplan reconstruction. Specifically, we adopt a uniform sampling floorplan representation to enable dense supervision during training and effective utilization of angle information. Additionally, we propose a room-aware query initialization scheme to prevent non-polygonal sequences and introduce room-aware self-attention to enhance memory efficiency and model performance. Experimental results on two widely used datasets demonstrate that PolyRoom surpasses current state-of-the-art methods both quantitatively and qualitatively. Our code is available at: https://github.com/3dv-casia/PolyRoom/.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# アクティブシュータインシデントにおけるビルの安全性設計の強化:強化学習に基づくシミュレーションによるビルの出口パラメータの探索

Enhancing Building Safety Design for Active Shooter Incidents: Exploration of Building Exit Parameters using Reinforcement Learning-Based Simulations ( http://arxiv.org/abs/2407.10441v1 )

ライセンス: Link先を確認
Ruying Liu, Wanjing Wu, Burcin Becerik-Gerber, Gale M. Lucas, (参考訳) 米国におけるアクティブ・シューティング・インシデント(ASI)の急増により、建築設計による公共安全の強化が迫られている。 本研究では,シューターの動的挙動を無視した既存研究のギャップに対処する強化学習に基づくシミュレーション手法を提案する。 本研究では,現実的なオフィス環境下でアクティブシューティングをシミュレートする自律エージェントを開発し,設計パラメータとAII結果の相互作用に関する洞察を提供することを目的とした。 建築出口数(アクセス可能な出口の総数)と構成(出口が利用可能か否かの配置)が避難や被害率に与える影響を定量的に検討する。 出口の可用性が向上すると避難結果が大幅に改善し、害が軽減される。 射手の最初の位置に近い射手は、遠くにあるものよりもアクセシビリティが重要である。 ダイナミックシューターの挙動を包含することにより、進化する脅威に対する効果的な安全設計に関する予備的な洞察を提供する。

With the alarming rise in active shooter incidents (ASIs) in the United States, enhancing public safety through building design has become a pressing need. This study proposes a reinforcement learning-based simulation approach addressing gaps in existing research that has neglected the dynamic behaviours of shooters. We developed an autonomous agent to simulate an active shooter within a realistic office environment, aiming to offer insights into the interactions between building design parameters and ASI outcomes. A case study is conducted to quantitatively investigate the impact of building exit numbers (total count of accessible exits) and configuration (arrangement of which exits are available or not) on evacuation and harm rates. Findings demonstrate that greater exit availability significantly improves evacuation outcomes and reduces harm. Exits nearer to the shooter's initial position hold greater importance for accessibility than those farther away. By encompassing dynamic shooter behaviours, this study offers preliminary insights into effective building safety design against evolving threats.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# データエッジでの推論:モデル依存下でのモデリングと推論のためのガウス過程、重複の欠如、外挿

Inference at the data's edge: Gaussian processes for modeling and inference under model-dependency, poor overlap, and extrapolation ( http://arxiv.org/abs/2407.10442v1 )

ライセンス: Link先を確認
Soonhong Cho, Doeun Kim, Chad Hazlett, (参考訳) ガウス過程(GP)は、予測された(非現実的な)値に対する不確実性を扱うための原則化されたアプローチを提供する、非常に柔軟な非線形回帰アプローチである。 選択されたモデル空間と観測データの関数としての予測点上の後方分布を計算し、不確実性推定を効果的に計算する従来の手法とは対照的である。 これは、モデル依存が深刻な脅威を引き起こす、外挿または弱い重複の条件下では特に有用である。 まず、GPのアクセス可能な説明を提供し、社会科学推論問題に適した実装を提供する。 そのため、ユーザ・センサ・ハイパーパラメータの数を3から0に削減する。 次に、GPがもっとも価値のある設定について説明する。従来の手法では、データスパース領域におけるモデル依存性/外挿による特性が貧弱な場合。 具体的には 一 治療群及び対照群が相同性に乏しい比較 二 イベントに先立って、その後に外挿して模型を取り付ける割り込み時間帯の設計 三 回帰不連続性(Regress discontinuity)。

The Gaussian Process (GP) is a highly flexible non-linear regression approach that provides a principled approach to handling our uncertainty over predicted (counterfactual) values. It does so by computing a posterior distribution over predicted point as a function of a chosen model space and the observed data, in contrast to conventional approaches that effectively compute uncertainty estimates conditionally on placing full faith in a fitted model. This is especially valuable under conditions of extrapolation or weak overlap, where model dependency poses a severe threat. We first offer an accessible explanation of GPs, and provide an implementation suitable to social science inference problems. In doing so we reduce the number of user-chosen hyperparameters from three to zero. We then illustrate the settings in which GPs can be most valuable: those where conventional approaches have poor properties due to model-dependency/extrapolation in data-sparse regions. Specifically, we apply it to (i) comparisons in which treated and control groups have poor covariate overlap; (ii) interrupted time-series designs, where models are fitted prior to an event by extrapolated after it; and (iii) regression discontinuity, which depends on model estimates taken at or just beyond the edge of their supporting data.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# 画像間ネットワークに対するバックドア攻撃

Backdoor Attacks against Image-to-Image Networks ( http://arxiv.org/abs/2407.10445v1 )

ライセンス: Link先を確認
Wenbo Jiang, Hongwei Li, Jiaming He, Rui Zhang, Guowen Xu, Tianwei Zhang, Rongxing Lu, (参考訳) 近年,深層学習に基づく画像合成(I2I)ネットワークが,画像の超解像や復調といったI2Iタスクの主要な選択肢となっている。 優れた性能にもかかわらず、I2Iネットワークのバックドア脆弱性は調査されていない。 この研究ギャップを埋めるため、我々はI2Iネットワークのバックドア攻撃に対する感受性に関する包括的な調査を行っている。 具体的には、侵入されたI2Iネットワークが通常、クリーンな入力画像に対して動作する新しいバックドア攻撃手法を提案するが、トリガーを含む悪意のある入力画像に対して、敵の事前定義されたイメージを出力する。 I2I のバックドア攻撃を実現するために,生成した UAP をバックドアトリガとして使用する I2I ネットワークに対する汎用対向摂動 (UAP) 生成アルゴリズムを提案する。 また、メインタスクとバックドアタスクを含むバックドアトレーニングプロセスでは、動的重み付け法によるマルチタスク学習(MTL)を用いて収束率を高速化する。 I2Iタスクの攻撃に加えて、I2Iバックドアを拡張して、画像分類やオブジェクト検出を含む下流タスクを攻撃します。 大規模な実験は、最先端のI2Iネットワークアーキテクチャに対するI2Iバックドアの有効性と、主要なバックドア防御に対する堅牢性を示す。

Recently, deep learning-based Image-to-Image (I2I) networks have become the predominant choice for I2I tasks such as image super-resolution and denoising. Despite their remarkable performance, the backdoor vulnerability of I2I networks has not been explored. To fill this research gap, we conduct a comprehensive investigation on the susceptibility of I2I networks to backdoor attacks. Specifically, we propose a novel backdoor attack technique, where the compromised I2I network behaves normally on clean input images, yet outputs a predefined image of the adversary for malicious input images containing the trigger. To achieve this I2I backdoor attack, we propose a targeted universal adversarial perturbation (UAP) generation algorithm for I2I networks, where the generated UAP is used as the backdoor trigger. Additionally, in the backdoor training process that contains the main task and the backdoor task, multi-task learning (MTL) with dynamic weighting methods is employed to accelerate convergence rates. In addition to attacking I2I tasks, we extend our I2I backdoor to attack downstream tasks, including image classification and object detection. Extensive experiments demonstrate the effectiveness of the I2I backdoor on state-of-the-art I2I network architectures, as well as the robustness against different mainstream backdoor defenses.
翻訳日:2024-07-16 16:20:45 公開日:2024-07-15
# DDFAD:オーディオデータのためのデータセット蒸留フレームワーク

DDFAD: Dataset Distillation Framework for Audio Data ( http://arxiv.org/abs/2407.10446v1 )

ライセンス: Link先を確認
Wenbo Jiang, Rui Zhang, Hongwei Li, Xiaoyuan Liu, Haomiao Yang, Shui Yu, (参考訳) ディープニューラルネットワーク(DNN)は多くのアプリケーションで大きな成功を収めている。 DNNの顕著なパフォーマンスは、大規模で高品質なトレーニングデータセットが利用可能であることによるところが大きい。 しかし、そのような膨大なトレーニングデータを処理するには、膨大な計算資源とストレージ資源が必要である。 データセットの蒸留はこの問題に対する有望な解決策であり、大規模なデータセットをより小さな蒸留データセットに圧縮する機能を提供する。 蒸留データセットでトレーニングされたモデルは、データセット全体でトレーニングされたモデルと同等のパフォーマンスを達成することができる。 データセットの蒸留は画像データで実証されているが、音声データに対するデータセットの蒸留は調査されていない。 本研究では,音声データのためのデータセット蒸留フレームワーク(Dataset Distillation Framework for Audio Data, DDFAD)を提案する。 具体的には、まず、音声データの抽出機能としてFused Differential MFCC(FD-MFCC)を提案する。 その後、FD-MFCCは、一致する訓練軌跡蒸留法により蒸留される。 最後に,Griffin-Limアルゴリズムに基づく音声信号再構成アルゴリズムを提案し,蒸留したFD-MFCCから音声信号を再構成する。 様々なオーディオデータセットに対するDFADの有効性を示す大規模な実験を行った。 さらに,DDFADは連続学習やニューラルアーキテクチャ検索など,多くのアプリケーションにおいて将来性があることを示す。

Deep neural networks (DNNs) have achieved significant success in numerous applications. The remarkable performance of DNNs is largely attributed to the availability of massive, high-quality training datasets. However, processing such massive training data requires huge computational and storage resources. Dataset distillation is a promising solution to this problem, offering the capability to compress a large dataset into a smaller distilled dataset. The model trained on the distilled dataset can achieve comparable performance to the model trained on the whole dataset. While dataset distillation has been demonstrated in image data, none have explored dataset distillation for audio data. In this work, for the first time, we propose a Dataset Distillation Framework for Audio Data (DDFAD). Specifically, we first propose the Fused Differential MFCC (FD-MFCC) as extracted features for audio data. After that, the FD-MFCC is distilled through the matching training trajectory distillation method. Finally, we propose an audio signal reconstruction algorithm based on the Griffin-Lim Algorithm to reconstruct the audio signal from the distilled FD-MFCC. Extensive experiments demonstrate the effectiveness of DDFAD on various audio datasets. In addition, we show that DDFAD has promising application prospects in many applications, such as continual learning and neural architecture search.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# 隠れた共同ファウンダーによる因果推定のためのスペクトル表現

Spectral Representation for Causal Estimation with Hidden Confounders ( http://arxiv.org/abs/2407.10448v1 )

ライセンス: Link先を確認
Tongzheng Ren, Haotian Sun, Antoine Moulin, Arthur Gretton, Bo Dai, (参考訳) 本稿では,隠れた共同創設者が存在する場合の因果効果推定の問題に対処し,新たに観察された共同創設者による楽器的変動回帰と,因果学習のプロキシという2つの設定に焦点をあてる。 我々の手法は条件付き期待演算子の特異値分解を使い、続いて、IV回帰の文脈では、Darolles et al [2011] によるセミナルアプローチのニューラルネット一般化とみなすことができるサドル点最適化問題を用いる。 サドル点定式化は、二重サンプリングバイアスを回避でき、現代的な関数近似法に適応できるため、近年、かなりの注目を集めている。 様々な環境で実験的な検証を行い,提案手法が従来のベンチマーク手法よりも優れていることを示す。

We address the problem of causal effect estimation where hidden confounders are present, with a focus on two settings: instrumental variable regression with additional observed confounders, and proxy causal learning. Our approach uses a singular value decomposition of a conditional expectation operator, followed by a saddle-point optimization problem, which, in the context of IV regression, can be thought of as a neural net generalization of the seminal approach due to Darolles et al. [2011]. Saddle-point formulations have gathered considerable attention recently, as they can avoid double sampling bias and are amenable to modern function approximation methods. We provide experimental validation in various settings, and show that our approach outperforms existing methods on common benchmarks.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# 線形切断多変量正規分布に対する高速ロバスト楕円スライスサンプリング実装

A Fast, Robust Elliptical Slice Sampling Implementation for Linearly Truncated Multivariate Normal Distributions ( http://arxiv.org/abs/2407.10449v1 )

ライセンス: Link先を確認
Kaiwen Wu, Jacob R. Gardner, (参考訳) 楕円スライスサンプリング(楕円スライススライススライススライススライスススライスス)は、リジェクションフリーマルコフ連鎖モンテカルロ法である。 中心となるのは、楕円-ポリトープの交叉を解析的に構築することである。 本論文の主な新規性は、この交叉を$\mathcal{O}(m \log m)$ timeで計算するアルゴリズムであり、$m$はポリトープを表す線形不等式制約の数である。 このアルゴリズムに基づく実装により、数値安定性が向上し、実行時間を短縮し、複数のマルコフ連鎖を起動するために並列化が容易であることを示す。

Elliptical slice sampling, when adapted to linearly truncated multivariate normal distributions, is a rejection-free Markov chain Monte Carlo method. At its core, it requires analytically constructing an ellipse-polytope intersection. The main novelty of this paper is an algorithm that computes this intersection in $\mathcal{O}(m \log m)$ time, where $m$ is the number of linear inequality constraints representing the polytope. We show that an implementation based on this algorithm enhances numerical stability, speeds up running time, and is easy to parallelize for launching multiple Markov chains.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# GraphPrint:ドラッグターゲット親和性予測のための3Dタンパク質構造の特徴抽出

GraphPrint: Extracting Features from 3D Protein Structure for Drug Target Affinity Prediction ( http://arxiv.org/abs/2407.10452v1 )

ライセンス: Link先を確認
Amritpal Singh, (参考訳) 正確な薬物標的親和性予測は、薬物候補の選択を改善し、薬物発見プロセスを加速し、薬剤生産コストを削減できる。 これまでの研究は、タンパク質のアミノ酸配列に基づいて抽出された従来の指紋や、その結合親和性に影響を与える3D構造を無視した使用済みの特徴に焦点を当てていた。 本研究では,薬物標的親和性予測のための3Dタンパク質構造機能を組み込むフレームワークであるGraphPrintを提案する。 アミノ酸残基位置座標を用いてタンパク質3D構造のグラフ表現を生成し、それらを薬物グラフ表現と組み合わせ、薬物標的親和性を共同学習する。 本モデルでは,KIBAデータセットにおける平均2乗誤差0.1378,一致指数0.8929を達成し,従来のタンパク質機能のみを用いた場合の精度を向上する。 我々のアブレーション研究は、3Dタンパク質の構造に基づく特徴が従来の特徴と相補的な情報を提供することを示している。

Accurate drug target affinity prediction can improve drug candidate selection, accelerate the drug discovery process, and reduce drug production costs. Previous work focused on traditional fingerprints or used features extracted based on the amino acid sequence in the protein, ignoring its 3D structure which affects its binding affinity. In this work, we propose GraphPrint: a framework for incorporating 3D protein structure features for drug target affinity prediction. We generate graph representations for protein 3D structures using amino acid residue location coordinates and combine them with drug graph representation and traditional features to jointly learn drug target affinity. Our model achieves a mean square error of 0.1378 and a concordance index of 0.8929 on the KIBA dataset and improves over using traditional protein features alone. Our ablation study shows that the 3D protein structure-based features provide information complementary to traditional features.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# LLMテキスト表現によるメディカルレコメンデーションの強化

Enhancing Medication Recommendation with LLM Text Representation ( http://arxiv.org/abs/2407.10453v1 )

ライセンス: Link先を確認
Yu-Tzu Lee, (参考訳) 既存の医薬品レコメンデーションモデルのほとんどは、医療コードのような構造化データのみを用いて予測され、残りの大量の非構造化データや半構造化データの未利用データとともに予測される。 そこで本研究では,Large Language Model (LLM) テキスト表現を用いた薬剤推奨の強化手法を提案する。 LLMは強力な言語理解と生成能力を利用し、複雑な用語を含む臨床ノートのような複雑で長い構造化されていないデータから情報を抽出することができる。 本手法は,2つの異なるデータセット上でのテキストと医療コードの組み合わせ表現により,選択したいくつかの既存ベースモデルに適用し,薬剤推奨性能を向上させることができる。 LLMのテキスト表現だけでは、医療コード表現に匹敵する能力を示すことさえできる。 全体として、これは改善されたレコメンデーションのために他のモデルに適用できる一般的な方法である。

Most of the existing medication recommendation models are predicted with only structured data such as medical codes, with the remaining other large amount of unstructured or semi-structured data underutilization. To increase the utilization effectively, we proposed a method of enhancing medication recommendation with Large Language Model (LLM) text representation. LLM harnesses powerful language understanding and generation capabilities, enabling the extraction of information from complex and lengthy unstructured data such as clinical notes which contain complex terminology. This method can be applied to several existing base models we selected and improve medication recommendation performance with the combination representation of text and medical codes experiments on two different datasets. LLM text representation alone can even demonstrate a comparable ability to the medical code representation alone. Overall, this is a general method that can be applied to other models for improved recommendations.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# Deflated Dynamics Value Iteration

Deflated Dynamics Value Iteration ( http://arxiv.org/abs/2407.10454v1 )

ライセンス: Link先を確認
Jongmin Lee, Amin Rakhsha, Ernest K. Ryu, Amir-massoud Farahmand, (参考訳) 値反復 (VI) アルゴリズムはマルコフ決定過程の値関数を反復的に計算する手法であり、多くの強化学習 (RL) アルゴリズムの基礎でもある。 反復$k$ の関数としての VI の誤差収束率は$O(\gamma^k)$ であるため、割引係数 $\gamma$ が 1 ドルに近づくと遅くなる。 値関数の計算を高速化するために, DDVI (Deflated Dynamics Value Iteration) を提案する。 DDVI は行列分割法と行列デフレレーション法を用いて遷移行列 $\mathcal{P}^{\pi}$ のトップ$s$支配固有構造を効果的に除去(定義)する。 これは$\tilde{O}(\gamma^k |\lambda_{s+1}|^k)$収束率となり、$\lambda_{s+1}$is $(s+1)$-the largest eigenvalue of the dynamics matrix。 次に、DDVIをRL設定に拡張し、DDTDアルゴリズムを示す。 提案アルゴリズムの有効性を実証的に示す。

The Value Iteration (VI) algorithm is an iterative procedure to compute the value function of a Markov decision process, and is the basis of many reinforcement learning (RL) algorithms as well. As the error convergence rate of VI as a function of iteration $k$ is $O(\gamma^k)$, it is slow when the discount factor $\gamma$ is close to $1$. To accelerate the computation of the value function, we propose Deflated Dynamics Value Iteration (DDVI). DDVI uses matrix splitting and matrix deflation techniques to effectively remove (deflate) the top $s$ dominant eigen-structure of the transition matrix $\mathcal{P}^{\pi}$. We prove that this leads to a $\tilde{O}(\gamma^k |\lambda_{s+1}|^k)$ convergence rate, where $\lambda_{s+1}$is $(s+1)$-th largest eigenvalue of the dynamics matrix. We then extend DDVI to the RL setting and present Deflated Dynamics Temporal Difference (DDTD) algorithm. We empirically show the effectiveness of the proposed algorithms.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# データをスローするな - シーケンス知識の蒸留の改善

Don't Throw Away Data: Better Sequence Knowledge Distillation ( http://arxiv.org/abs/2407.10456v1 )

ライセンス: Link先を確認
Jun Wang, Eleftheria Briakou, Hamid Dadkhahi, Rishabh Agarwal, Colin Cherry, Trevor Cohn, (参考訳) 知識蒸留における重要な要素は、教師と学生を結びつける方法である。 主要なシーケンス知識蒸留法は、教師が復号した出力に対する教師あり学習を伴い、最小ベイズリスク(MBR)復号を組み込んだ現在の最先端技術によって実証される。 本稿では,MBRを蒸留訓練においてより緊密に統合し,特に1つの選択されたシーケンスではなく,高得点のMBR翻訳を用いて,教師出力の豊富な多様性を捉えることを目的とする。 英語からドイツ語,英語,日本語への翻訳実験では,タスクとモデルサイズの違いの両面で,強いベースライン法よりも一貫した改善が見られた。 さらに、データ効率とキャパシティ・呪文の側面に着目した詳細な分析を行い、MBR-nを解明し、そのさらなる可能性を探る。

A critical component in knowledge distillation is the means of coupling the teacher and student. The predominant sequence knowledge distillation method involves supervised learning of the student against teacher-decoded outputs, and is exemplified by the current state of the art, which incorporates minimum Bayes risk (MBR) decoding. In this paper we seek to integrate MBR more tightly in distillation training, specifically by using several high scoring MBR translations, rather than a single selected sequence, thus capturing a rich diversity of teacher outputs. Our experiments on English to German and English to Japanese translation show consistent improvements over strong baseline methods for both tasks and with varying model sizes. Additionally, we conduct a detailed analysis focusing on data efficiency and capacity curse aspects to elucidate MBR-n and explore its further potential.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# The Good, The Bad, and The Greedy: The Evaluation of LLMs should not Ignore Non-Determinism

The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism ( http://arxiv.org/abs/2407.10457v1 )

ライセンス: Link先を確認
Yifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin, (参考訳) 大規模言語モデル(LLM)の現在の評価は、通常、例ごとに1つの出力に焦点を絞って、非決定性を見落としていることが多い。 これにより、現実世界のアプリケーションにおけるLLMパフォーマンスの多様性に対する理解が制限されます。 本研究は,非決定性に関するベンチマークの一貫性の同定,一意なモデル動作の検証など,強欲な復号化とサンプリングのパフォーマンス差に関する重要な疑問に対処する。 広範な実験を通して、グリーディ復号法は一般に最も評価されたタスクのサンプリング方法より優れていることが観察された。 また、異なるLLMサイズとアライメント法で一貫した性能を観察し、アライメントがサンプリングのばらつきを低減できることを示した。 さらに,我々のベスト・オブ・Nサンプリング手法は,小型LLMが GPT-4-Turbo などの大型モデルと一致したり,超えたりすることを示し,小型 LLM の未発見の可能性を強調した。 本研究は, LLM評価における非決定性の検討の重要性を示し, 今後のLCM開発・評価への洞察を提供する。

Current evaluations of large language models (LLMs) often overlook non-determinism, typically focusing on a single output per example. This limits our understanding of LLM performance variability in real-world applications. Our study addresses this issue by exploring key questions about the performance differences between greedy decoding and sampling, identifying benchmarks' consistency regarding non-determinism, and examining unique model behaviors. Through extensive experiments, we observe that greedy decoding generally outperforms sampling methods for most evaluated tasks. We also observe consistent performance across different LLM sizes and alignment methods, noting that alignment can reduce sampling variance. Moreover, our best-of-N sampling approach demonstrates that smaller LLMs can match or surpass larger models such as GPT-4-Turbo, highlighting the untapped potential of smaller LLMs. This research shows the importance of considering non-determinism in LLM evaluations and provides insights for future LLM development and evaluation.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# DiffStega: 拡散モデルを用いたUniversal Training-Free Coverless Image Steganographyを目指して

DiffStega: Towards Universal Training-Free Coverless Image Steganography with Diffusion Models ( http://arxiv.org/abs/2407.10459v1 )

ライセンス: Link先を確認
Yiwei Yang, Zheyuan Liu, Jun Jia, Zhongpai Gao, Yunhao Li, Wei Sun, Xiaohong Liu, Guangtao Zhai, (参考訳) 従来の画像ステガノグラフィーは、許可されていないエンティティによるステガナリシスを避けることを目的として、別のイメージを隠蔽することに焦点を当てている。 カバーレス画像ステガノグラフィ(CIS)は、カバー画像を使用しないことにより、非受容性を高める。 近年の研究では、拡散モデルによるCISの鍵としてテキストプロンプトが活用されている。 しかし、このアプローチでは、プライベートプロンプトの推測時に無効化、セマンティックな多様性のための公開プロンプトの作成、頻繁な送信中のプロンプトリークのリスクという3つの課題に直面している。 これらの課題に対処するため、我々は、ユニバーサルアプリケーションのための革新的なトレーニングフリー拡散ベースのCIS戦略であるDiffStegaを提案する。 DiffStegaは、パスワードに依存した参照イメージを、テキストと並行してプロンプトとして使用し、認証された当事者だけが隠された情報を検索できるようにする。 さらに,不許可な復号化に対するステガノグラフィーの安全性を高めるため,ノイズフリップ手法を開発した。 一般的なCISタスクにまたがる手法を包括的に評価するために,様々な画像ステガノグラフィーインスタンスからなるデータセットを作成する。 実験の結果,既存の手法よりも,特に汎用性,パスワードの感度,回復性などの面で,本手法の大幅な改善が示唆された。 コードは \url{https://github.com/evtricks/DiffStega} で公開されている。

Traditional image steganography focuses on concealing one image within another, aiming to avoid steganalysis by unauthorized entities. Coverless image steganography (CIS) enhances imperceptibility by not using any cover image. Recent works have utilized text prompts as keys in CIS through diffusion models. However, this approach faces three challenges: invalidated when private prompt is guessed, crafting public prompts for semantic diversity, and the risk of prompt leakage during frequent transmission. To address these issues, we propose DiffStega, an innovative training-free diffusion-based CIS strategy for universal application. DiffStega uses a password-dependent reference image as an image prompt alongside the text, ensuring that only authorized parties can retrieve the hidden information. Furthermore, we develop Noise Flip technique to further secure the steganography against unauthorized decryption. To comprehensively assess our method across general CIS tasks, we create a dataset comprising various image steganography instances. Experiments indicate substantial improvements in our method over existing ones, particularly in aspects of versatility, password sensitivity, and recovery quality. Codes are available at \url{https://github.com/evtricks/DiffStega}.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# BandControlNet:微粒な時空間特徴を持つ並列トランスフォーマーに基づく定位可能なポピュラー音楽生成

BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features ( http://arxiv.org/abs/2407.10462v1 )

ライセンス: Link先を確認
Jing Luo, Xinyu Yang, Dorien Herremans, (参考訳) 制御可能な音楽生成は、ユーザの意図を好みの音楽に投影することにより、人間と作曲システムの相互作用を促進する。 制御性の導入という課題は、シンボリック・ミュージック・ジェネレーションの分野でますます重要な問題となっている。 制御可能な生成可能な多構成音楽システムを構築する場合、主に2つの大きな課題、すなわち制御性の弱さと音楽の質の低下がある。 これらの課題に対処するために、まず、生成モデルの制御性を高めるために、時空間的特徴を強力かつきめ細かな制御として提案する。 さらに、REMI_Trackと呼ばれる効率的な音楽表現は、マルチトラック音楽を複数の並列音楽シーケンスに変換し、Byte Pair Encoding (BPE)技術で各トラックのシーケンス長を短縮するように設計されている。 その後、並列トランスフォーマーに基づく条件モデルであるBandControlNetをリリースし、複数の音楽シーケンスに対処し、与えられた時空間制御機能に適応した高品質な音楽サンプルを生成する。 より具体的には、BandControlNetの2つの特別設計モジュール、すなわち、構造強化自己アテンション(SE-SA)とクロストラックトランスフォーマー(CTT)を使用して、結果の音楽構造とトラック間の調和モデリングを強化する。 異なる長さの2つのポピュラー音楽データセットを用いて実験した結果,提案したBandControlNetは,実測値と推定速度の両面において,他の条件付き音楽生成モデルよりも優れ,長い楽曲サンプルを生成する上で大きな堅牢性を示すことがわかった。 主観的な評価によると、短いデータセットでトレーニングされたBandControlNetは、最先端のモデルに匹敵する品質の音楽を生成できる一方で、長いデータセットを使用して大幅にパフォーマンスが向上する。

Controllable music generation promotes the interaction between humans and composition systems by projecting the users' intent on their desired music. The challenge of introducing controllability is an increasingly important issue in the symbolic music generation field. When building controllable generative popular multi-instrument music systems, two main challenges typically present themselves, namely weak controllability and poor music quality. To address these issues, we first propose spatiotemporal features as powerful and fine-grained controls to enhance the controllability of the generative model. In addition, an efficient music representation called REMI_Track is designed to convert multitrack music into multiple parallel music sequences and shorten the sequence length of each track with Byte Pair Encoding (BPE) techniques. Subsequently, we release BandControlNet, a conditional model based on parallel Transformers, to tackle the multiple music sequences and generate high-quality music samples that are conditioned to the given spatiotemporal control features. More concretely, the two specially designed modules of BandControlNet, namely structure-enhanced self-attention (SE-SA) and Cross-Track Transformer (CTT), are utilized to strengthen the resulting musical structure and inter-track harmony modeling respectively. Experimental results tested on two popular music datasets of different lengths demonstrate that the proposed BandControlNet outperforms other conditional music generation models on most objective metrics in terms of fidelity and inference speed and shows great robustness in generating long music samples. The subjective evaluations show BandControlNet trained on short datasets can generate music with comparable quality to state-of-the-art models, while outperforming them significantly using longer datasets.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# LiteFocus:ロングオーディオ合成のための高速化拡散推論

LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis ( http://arxiv.org/abs/2407.10468v1 )

ライセンス: Link先を確認
Zhenxiong Tan, Xinyin Ma, Gongfan Fang, Xinchao Wang, (参考訳) 遅延拡散モデルは音声生成において有望な結果を示しており、従来の手法よりも顕著に進歩している。 しかし、彼らのパフォーマンスは短いオーディオクリップで印象的だが、長いオーディオシーケンスに拡張する際の課題に直面している。 これらの課題は、モデルの自己注意機構とトレーニングが主に10秒のクリップで行われているため、適応なしでより長いオーディオの拡張が複雑になる。 これらの問題に対応するために,我々はLiteFocusという新しい手法を導入し,長い音声合成において既存の音声潜在拡散モデルの推論を強化する。 自己注意の注意パターンを観察し、同周波数焦点とクロス周波数補償に指定された二重スパース形式を用いて、同周波数制約下での注意計算を削減し、クロス周波数補充による音質の向上を図る。 LiteFocusは、80秒のオーディオクリップの合成において、拡散ベースのTTAモデルによる推論時間を1.99倍に削減し、オーディオ品質も向上した。

Latent diffusion models have shown promising results in audio generation, making notable advancements over traditional methods. However, their performance, while impressive with short audio clips, faces challenges when extended to longer audio sequences. These challenges are due to model's self-attention mechanism and training predominantly on 10-second clips, which complicates the extension to longer audio without adaptation. In response to these issues, we introduce a novel approach, LiteFocus that enhances the inference of existing audio latent diffusion models in long audio synthesis. Observed the attention pattern in self-attention, we employ a dual sparse form for attention calculation, designated as same-frequency focus and cross-frequency compensation, which curtails the attention computation under same-frequency constraints, while enhancing audio quality through cross-frequency refillment. LiteFocus demonstrates substantial reduction on inference time with diffusion-based TTA model by 1.99x in synthesizing 80-second audio clips while also obtaining improved audio quality.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# GROOT:拡散モデルに基づく音声合成のためのロバストな透かしを生成する

GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis ( http://arxiv.org/abs/2407.10471v1 )

ライセンス: Link先を確認
Weizhi Liu, Yue Li, Dongdong Lin, Hui Tian, Haizhou Li, (参考訳) 拡散モデルのような生成モデルの開発が盛んに進んでいる中、合成されたオーディオを自然のものと区別するタスクは、ますます困難になってきている。 ディープフェイク検出は、この課題に対処するための実行可能なソリューションを提供する。 しかし、この防御措置は、生成モデルの継続的な改良を意図せず推進する。 ウォーターマーキングは、積極的に持続的な戦術として出現し、合成されたコンテンツの創造と普及を事前に規制している。 そこで,本論文は先駆者として,合成音声とその音源拡散モデルを積極的に監視するためのパラダイムを提示する,再生可能なロバストな音声透かし手法(Groot)を提案する。 このパラダイムでは、専用エンコーダを備えたパラメータ固定拡散モデルにより、透かし生成と音声合成のプロセスが同時に実行される。 その後、オーディオに埋め込まれた透かしを軽量デコーダで検索できる。 実験結果は、特にロバスト性の観点から、Grootの卓越した性能が、最先端の手法よりも優れていることを示している。 個々のポストプロセッシング攻撃に対する印象的なレジリエンスに加えて、Grootは複合攻撃に直面した際の異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。

Amid the burgeoning development of generative models like diffusion models, the task of differentiating synthesized audio from its natural counterpart grows more daunting. Deepfake detection offers a viable solution to combat this challenge. Yet, this defensive measure unintentionally fuels the continued refinement of generative models. Watermarking emerges as a proactive and sustainable tactic, preemptively regulating the creation and dissemination of synthesized content. Thus, this paper, as a pioneer, proposes the generative robust audio watermarking method (Groot), presenting a paradigm for proactively supervising the synthesized audio and its source diffusion models. In this paradigm, the processes of watermark generation and audio synthesis occur simultaneously, facilitated by parameter-fixed diffusion models equipped with a dedicated encoder. The watermark embedded within the audio can subsequently be retrieved by a lightweight decoder. The experimental results highlight Groot's outstanding performance, particularly in terms of robustness, surpassing that of the leading state-of-the-art methods. Beyond its impressive resilience against individual post-processing attacks, Groot exhibits exceptional robustness when facing compound attacks, maintaining an average watermark extraction accuracy of around 95%.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# Kinetic Typography Diffusion Model

Kinetic Typography Diffusion Model ( http://arxiv.org/abs/2407.10476v1 )

ライセンス: Link先を確認
Seonmi Park, Inhwan Bae, Seunghyun Shin, Hae-Gon Jeon, (参考訳) 本稿では,ユーザ優先のアニマタブルな「テキストコンテンツ」を生成するリアルなアクティカルタイポグラフィー手法を提案する。 近年,映像拡散モデルが進歩し,テキストの出現率の向上が図られている。 そこで我々はまず,約600Kの動画からなる運動型タイポグラフィーデータセットを構築した。 我々のデータセットは、プロのモーショングラフィックデザイナーが設計した584のテンプレートの様々な組み合わせで構成されており、各文字の位置、グリフ、サイズ(飛行、グリッチ、色収差、反射効果など)を変更する。 次に,速度論的タイポグラフィのためのビデオ拡散モデルを提案する。 これには美的外観、動作効果、読みやすい文字の3つの要件がある。 本稿は要件を特定します。 そこで我々は,ビデオ拡散モデルの空間的および時間的ガイダンスとして,静的なキャプションと動的キャプションをそれぞれ提示する。 静的キャプションには、各文字の形状を表す色、テクスチャ、グリフなど、ビデオ全体の外観が記述されている。 動的キャプションは文字や背景の動きを説明する。 コンボリューションをゼロにするもう1つのガイダンスを加えて、どのテキストコンテンツがビデオで見えるかを決めます。 テキスト内容にゼロ畳み込みを適用し,拡散モデルに印加する。 最後に,予測単語と接地真実の差を最小限に抑えることで,予測文字を可読化するためのグリフ損失を提案する。 実験の結果,本モデルはテキストプロンプトに基づいて,可読性および芸術的文字運動を伴う動画像を生成することがわかった。

This paper introduces a method for realistic kinetic typography that generates user-preferred animatable 'text content'. We draw on recent advances in guided video diffusion models to achieve visually-pleasing text appearances. To do this, we first construct a kinetic typography dataset, comprising about 600K videos. Our dataset is made from a variety of combinations in 584 templates designed by professional motion graphics designers and involves changing each letter's position, glyph, and size (i.e., flying, glitches, chromatic aberration, reflecting effects, etc.). Next, we propose a video diffusion model for kinetic typography. For this, there are three requirements: aesthetic appearances, motion effects, and readable letters. This paper identifies the requirements. For this, we present static and dynamic captions used as spatial and temporal guidance of a video diffusion model, respectively. The static caption describes the overall appearance of the video, such as colors, texture and glyph which represent a shape of each letter. The dynamic caption accounts for the movements of letters and backgrounds. We add one more guidance with zero convolution to determine which text content should be visible in the video. We apply the zero convolution to the text content, and impose it on the diffusion model. Lastly, our glyph loss, only minimizing a difference between the predicted word and its ground-truth, is proposed to make the prediction letters readable. Experiments show that our model generates kinetic typography videos with legible and artistic letter motions based on text prompts.
翻訳日:2024-07-16 16:11:00 公開日:2024-07-15
# 進化的アルゴリズムのためのディープラーニングに基づく演算子

Deep Learning-Based Operators for Evolutionary Algorithms ( http://arxiv.org/abs/2407.10477v1 )

ライセンス: Link先を確認
Eliad Shem-Tov, Moshe Sipper, Achiya Elyasaf, (参考訳) 本稿では、遺伝的アルゴリズムのクロスオーバー演算子と遺伝的プログラミングの突然変異演算子という、ディープラーニングの能力を利用する2つの新しいドメイン非依存型遺伝演算子を提案する。 Deep Neural Crossoverは、深層強化学習とエンコーダ・デコーダアーキテクチャの機能を活用して、子孫遺伝子を選択する。 BERT変異は複数のgp-ツリーノードをマスクし、そのマスクをノードに置き換える。 実験を通して両オペレータの有効性を示す。

We present two novel domain-independent genetic operators that harness the capabilities of deep learning: a crossover operator for genetic algorithms and a mutation operator for genetic programming. Deep Neural Crossover leverages the capabilities of deep reinforcement learning and an encoder-decoder architecture to select offspring genes. BERT mutation masks multiple gp-tree nodes and then tries to replace these masks with nodes that will most likely improve the individual's fitness. We show the efficacy of both operators through experimentation.
翻訳日:2024-07-16 16:10:59 公開日:2024-07-15
# エルミート行列空間の幾何学とシュリーファー-ヴォルフ変換

The geometry of the Hermitian matrix space and the Schrieffer--Wolff transformation ( http://arxiv.org/abs/2407.10478v1 )

ライセンス: Link先を確認
Gergő Pintér, György Frank, Dániel Varjas, András Pályi, (参考訳) 量子力学において、シュリーファー-ヴォルフ変換(Schrieffer--Wolff、SW)変換(準退化摂動理論とも呼ばれる)は、ハミルトニアンの次元を減少させる近似法として知られている。 我々は、SW変換の幾何学的解釈を提示する:我々は、それがエルミート行列の空間における局所座標チャートを、$k$フォールドの縮退部分多様体の近くで誘導することを証明する。 この結果に着想を得て、我々は '距離定理' を定め、例えば、ハミルトニアンの隣接する固有値$k$の標準偏差が、対応する$k$-フォールドの退化部分多様体からこのハミルトニアンの距離と等しいことを示し、$\sqrt{k}$で割る。 さらに、縮退ハミルトニアンの一パラメータ摂動について検討し、標準偏差と固有値の対差がエネルギー固有値の分割の順序と同じであることを示す。 応用として、超越定理を用いてワイル点の「保護」を証明し、量子誤差補正と位相秩序の結果に基づいて、ある種の縮退部分多様体の幾何学的性質を推測する。

In quantum mechanics, the Schrieffer--Wolff (SW) transformation (also called quasi-degenerate perturbation theory) is known as an approximative method to reduce the dimension of the Hamiltonian. We present a geometric interpretation of the SW transformation: We prove that it induces a local coordinate chart in the space of Hermitian matrices near a $k$-fold degeneracy submanifold. Inspired by this result, we establish a `distance theorem': we show that the standard deviation of $k$ neighboring eigenvalues of a Hamiltonian equals the distance of this Hamiltonian from the corresponding $k$-fold degeneracy submanifold, divided by $\sqrt{k}$. Furthermore, we investigate one-parameter perturbations of a degenerate Hamiltonian, and prove that the standard deviation and the pairwise differences of the eigenvalues lead to the same order of splitting of the energy eigenvalues, which in turn is the same as the order of distancing from the degeneracy submanifold. As applications, we prove the `protection' of Weyl points using the transversality theorem, and infer geometrical properties of certain degeneracy submanifolds based on results from quantum error correction and topological order.
翻訳日:2024-07-16 16:10:59 公開日:2024-07-15
# SuperPADL:プログレッシブ・スーパービジョン蒸留による言語指向物理制御

SuperPADL: Scaling Language-Directed Physics-Based Control with Progressive Supervised Distillation ( http://arxiv.org/abs/2407.10481v1 )

ライセンス: Link先を確認
Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng, (参考訳) 人間の動きを物理的にシミュレートしたモデルでは、しばしばリアルタイムに、高品質なレスポンシブなキャラクターアニメーションを生成することができる。 自然言語はこれらのモデルを制御するフレキシブルなインターフェースとして機能し、専門家や非専門家のユーザはアニメーションを素早く作成し、編集することができる。 近年,テキストインタフェース,強化学習(RL)を用いたトレーニング制御ポリシなど,物理に基づく多くのアニメーション手法が提案されている。 しかし、これらの手法を数百の運動を超えて拡張することは依然として困難である。 一方、キネマティックアニメーションモデルは、教師付き学習手法を利用することで、何千もの多様な動きから学べる。 これらの成功にインスパイアされた本研究では、RLと教師あり学習の両方を活用して、何千もの多様なモーションクリップでコントローラをトレーニングする、物理学ベースのテキスト・トゥ・モーションのためのスケーラブルなフレームワークであるSuperPADLを紹介します。 SuperPADLはプログレッシブ蒸留を用いて段階的に訓練され、RLを使用する専門専門家が多数いる。 これらの専門家は、強化学習と教師あり学習を組み合わせて、より大きくより堅牢な政策に反復蒸留される。 最終SuperPADLコントローラは5000以上のスキルを含むデータセットでトレーニングされ、コンシューマGPU上でリアルタイムに動作します。 さらに、当社のポリシーはスキル間の自然な移行が可能であり、ユーザはインタラクティブにマルチステージアニメーションを作成できる。 この大規模データスケールでは,SuperPADLがRLベースのベースラインを大幅に上回っていることを実験的に実証した。

Physically-simulated models for human motion can generate high-quality responsive character animations, often in real-time. Natural language serves as a flexible interface for controlling these models, allowing expert and non-expert users to quickly create and edit their animations. Many recent physics-based animation methods, including those that use text interfaces, train control policies using reinforcement learning (RL). However, scaling these methods beyond several hundred motions has remained challenging. Meanwhile, kinematic animation models are able to successfully learn from thousands of diverse motions by leveraging supervised learning methods. Inspired by these successes, in this work we introduce SuperPADL, a scalable framework for physics-based text-to-motion that leverages both RL and supervised learning to train controllers on thousands of diverse motion clips. SuperPADL is trained in stages using progressive distillation, starting with a large number of specialized experts using RL. These experts are then iteratively distilled into larger, more robust policies using a combination of reinforcement learning and supervised learning. Our final SuperPADL controller is trained on a dataset containing over 5000 skills and runs in real time on a consumer GPU. Moreover, our policy can naturally transition between skills, allowing for users to interactively craft multi-stage animations. We experimentally demonstrate that SuperPADL significantly outperforms RL-based baselines at this large data scale.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# NGP-RT:リアルタイム新規ビュー合成のための軽量注意機能付きマルチレベルハッシュ機能

NGP-RT: Fusing Multi-Level Hash Features with Lightweight Attention for Real-Time Novel View Synthesis ( http://arxiv.org/abs/2407.10482v1 )

ライセンス: Link先を確認
Yubin Hu, Xiaoyang Guo, Yang Xiao, Jingwei Huang, Yong-Jin Liu, (参考訳) Instant-NGPのレンダリング速度を向上させるための新しい手法として,NGP-RTを提案する。 古典的なNeRFベースの方法として、Instant-NGPは暗黙的な特徴をマルチレベルグリッドやハッシュテーブルに格納し、暗黙的な特徴を明示的な色や密度に変換するために浅いMDPを適用している。 高速なトレーニング速度を実現するが、特にリアルタイムアプリケーションでは、暗黙のマルチレベル機能集約のためのポイント毎のMLP実行のために、レンダリング速度を改善する余地がまだたくさんある。 この課題に対処するために,提案したNGP-RTは,色と密度をハッシュの特徴として明示的に記憶し,軽量な注意機構を活用して,計算集約型MLPの代わりにハッシュ衝突を曖昧にする。 レンダリング段階では、NGP-RTは、予め計算された占有距離グリッドを光マーチング戦略に組み込んで、最も近い占有ボクセルまでの距離を知らせ、マーチングポイントの数とグローバルメモリアクセスを減少させる。 Mip-NeRF360データセットでは、NGP-RTは従来のNeRFベースの手法よりも優れたレンダリング品質を実現し、単一のNvidia RTX 3090 GPU上で1080pの解像度で108fpsを達成した。 我々のアプローチは、効率よく高品質なレンダリングを必要とするNeRFベースのリアルタイムアプリケーションに対して有望である。

This paper presents NGP-RT, a novel approach for enhancing the rendering speed of Instant-NGP to achieve real-time novel view synthesis. As a classic NeRF-based method, Instant-NGP stores implicit features in multi-level grids or hash tables and applies a shallow MLP to convert the implicit features into explicit colors and densities. Although it achieves fast training speed, there is still a lot of room for improvement in its rendering speed due to the per-point MLP executions for implicit multi-level feature aggregation, especially for real-time applications. To address this challenge, our proposed NGP-RT explicitly stores colors and densities as hash features, and leverages a lightweight attention mechanism to disambiguate the hash collisions instead of using computationally intensive MLP. At the rendering stage, NGP-RT incorporates a pre-computed occupancy distance grid into the ray marching strategy to inform the distance to the nearest occupied voxel, thereby reducing the number of marching points and global memory access. Experimental results show that on the challenging Mip-NeRF360 dataset, NGP-RT achieves better rendering quality than previous NeRF-based methods, achieving 108 fps at 1080p resolution on a single Nvidia RTX 3090 GPU. Our approach is promising for NeRF-based real-time applications that require efficient and high-quality rendering.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# G-PCGRL:強化学習による手続き型グラフデータ生成

G-PCGRL: Procedural Graph Data Generation via Reinforcement Learning ( http://arxiv.org/abs/2407.10483v1 )

ライセンス: Link先を確認
Florian Rupp, Kai Eckert, (参考訳) グラフデータ構造は、さまざまな領域における関係や相互接続をモデル化するための汎用的で強力な手段を提供する。 ゲームでは、グラフベースのデータ構造は全表現であり、例えば、ゲーム経済、スキルツリー、複雑な分岐クエストラインを表す。 本稿では,G-PCGRLを提案する。G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PCGRL,G-PC GRL)。 したがって、この問題は、与えられた制約を満たすためにグラフの隣接行列を操作するものである。 提案手法は,PCGRL(Reinforcement Learning)フレームワークによる手続き的コンテンツ生成を適応・拡張し,マルコフ決定プロセスとしてグラフデータ生成の問題を枠組み化するための新しい表現を導入する。 我々は,ゲーム内の2つのグラフデータ領域(ゲームエコノミーとスキルツリー)におけるG-PCGRLの評価を行い,本手法の性能を元のPCGRLと比較した。 その結果,本手法は,ゲーム作成プロセスにおけるデザイナの支援とインスピレーションを行うために,グラフベースのコンテンツを迅速かつ確実に生成することが可能であることが示唆された。 さらに、トレーニングされたモデルは、生成されるノードの種類と数の観点から制御可能である。

Graph data structures offer a versatile and powerful means to model relationships and interconnections in various domains, promising substantial advantages in data representation, analysis, and visualization. In games, graph-based data structures are omnipresent and represent, for example, game economies, skill trees or complex, branching quest lines. With this paper, we propose G-PCGRL, a novel and controllable method for the procedural generation of graph data using reinforcement learning. Therefore, we frame this problem as manipulating a graph's adjacency matrix to fulfill a given set of constraints. Our method adapts and extends the Procedural Content Generation via Reinforcement Learning (PCGRL) framework and introduces new representations to frame the problem of graph data generation as a Markov decision process. We compare the performance of our method with the original PCGRL, the run time with a random search and evolutionary algorithm, and evaluate G-PCGRL on two graph data domains in games: game economies and skill trees. The results show that our method is capable of generating graph-based content quickly and reliably to support and inspire designers in the game creation process. In addition, trained models are controllable in terms of the type and number of nodes to be generated.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# リーマン幾何学のレンズによる共分散プールにおける行列関数正規化の理解

Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry ( http://arxiv.org/abs/2407.10484v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Xiao-Jun Wu, Gaowen Liu, Nicu Sebe, (参考訳) グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。 GCPは通常、行列対数やパワーなどの行列関数正規化を適用して共分散行列の分類を行い、次いでユークリッド分類器を用いる。 しかし、共分散行列は本質的にリーマン多様体(Symmetric Positive Definite (SPD) manifold)と呼ばれる)の中に存在する。 現在の文献は、なぜユークリッド分類器が行列パワーの正規化後にリーマン的特徴に直接適用できるのかを十分に説明していない。 このギャップを緩和するために、この論文はリーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。 GCPにおける行列関数の基本的なメカニズムは、接分類器(接空間上のユークリッド分類器)に基づくものと、リーマン分類器に基づくものである。 細粒度および大規模視覚分類データセットの広範な実験による理論的解析と実証的検証により、行列関数の作用機構は、それらが暗黙的に尊重するリーマン分類器に帰属するべきであると結論づける。

Global Covariance Pooling (GCP) has been demonstrated to improve the performance of Deep Neural Networks (DNNs) by exploiting second-order statistics of high-level representations. GCP typically performs classification of the covariance matrices by applying matrix function normalization, such as matrix logarithm or power, followed by a Euclidean classifier. However, covariance matrices inherently lie in a Riemannian manifold, known as the Symmetric Positive Definite (SPD) manifold. The current literature does not provide a satisfactory explanation of why Euclidean classifiers can be applied directly to Riemannian features after the normalization of the matrix power. To mitigate this gap, this paper provides a comprehensive and unified understanding of the matrix logarithm and power from a Riemannian geometry perspective. The underlying mechanism of matrix functions in GCP is interpreted from two perspectives: one based on tangent classifiers (Euclidean classifiers on the tangent space) and the other based on Riemannian classifiers. Via theoretical analysis and empirical validation through extensive experiments on fine-grained and large-scale visual classification datasets, we conclude that the working mechanism of the matrix functions should be attributed to the Riemannian classifiers they implicitly respect.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# 再マージン損失を考慮したUAVプラットフォーム多目的追跡のための効果的な動作モデリング

Effective Motion Modeling for UAV-platform Multiple Object Tracking with Re-Margin Loss ( http://arxiv.org/abs/2407.10485v1 )

ライセンス: Link先を確認
Mufeng Yao, Jinlong Peng, Qingdong He, Bo Peng, Hao Chen, Mingmin Chi, Chao Liu, Jon Atli Benediktsson, (参考訳) 無人航空機(UAV)プラットフォームからの複数の物体追跡(MOT)には、効率的なモーションモデリングが必要である。 これは、UAV-MOTが大規模で不規則な動きによる追跡困難に直面し、現在のUAV-MOTデータセットの長期分布によるトレーニングが不十分なためである。 従来のUAV-MOT法では、追跡性能と速度を制限したスパース方式で、動作と検出の特徴を冗長に抽出するか、動作モデルを監督するかのいずれかであった。 そこで本研究では,最小コストで高精度な動作モデリングを実現するためのフロー・バイ・検出モジュールを提案する。 従来の作業で無視された動きの長期化問題に着目して、フロー誘導マージン損失は、大きな移動物体のより完全な訓練を可能にするように設計されている。 大規模な不規則な動きを伴う物体の追跡と,UAV-MOTタスクにおける既存の最先端手法よりも優れていることを示す。

Multiple object tracking (MOT) from unmanned aerial vehicle (UAV) platforms requires efficient motion modeling. This is because UAV-MOT faces tracking difficulties caused by large and irregular motion, and insufficient training due to the motion long-tailed distribution of current UAV-MOT datasets. Previous UAV-MOT methods either extract motion and detection features redundantly or supervise motion model in a sparse scheme, which limited their tracking performance and speed. To this end, we propose a flowing-by-detection module to realize accurate motion modeling with a minimum cost. Focusing on the motion long-tailed problem that were ignored by previous works, the flow-guided margin loss is designed to enable more complete training of large moving objects. Experiments on two widely open-source datasets show that our proposed model can successfully track objects with large and irregular motion and outperform existing state-of-the-art methods in UAV-MOT tasks.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# IDEAL: クエリ中心の要約のための大規模言語モデルの無限的および動的特徴付けを活用する

IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization ( http://arxiv.org/abs/2407.10486v1 )

ライセンス: Link先を確認
Jie Cao, Dian Jiao, Qiang Yan, Wenqiao Zhang, Siliang Tang, Yueting Zhuang, (参考訳) クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。 大規模言語モデル (LLMs) の出現により, 大規模事前学習によるテキスト理解能力が著しく向上し, 抽出スニペット生成の可能性が高まった。 本稿では,LLMをベースとしたQFSモデル,Longthy Document Summarization,Query-LLMアライメントの2つの不必要な特性を系統的に検討した。 それに対応して、上記の特徴にアクセスするために、Query-aware HyperExpert と Query- Focus Infini- Attention という2つのモジュールを提案する。 これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。 既存のQFSベンチマークで行った大規模な実験は、提案手法の有効性と一般化性を示している。 私たちのコードはhttps://github.com/DCDmllm/IDEAL_Summary.comで公開されています。

Query-focused summarization (QFS) aims to produce summaries that answer particular questions of interest, enabling greater user control and personalization. With the advent of large language models (LLMs), shows their impressive capability of textual understanding through large-scale pretraining, which implies the great potential of extractive snippet generation. In this paper, we systematically investigated two indispensable characteristics that the LLMs-based QFS models should be harnessed, Lengthy Document Summarization and Efficiently Fine-grained Query-LLM Alignment, respectively. Correspondingly, we propose two modules called Query-aware HyperExpert and Query-focused Infini-attention to access the aforementioned characteristics. These innovations pave the way for broader application and accessibility in the field of QFS technology. Extensive experiments conducted on existing QFS benchmarks indicate the effectiveness and generalizability of the proposed approach. Our code is publicly available at https://github.com/DCDmllm/IDEAL_Summary.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# Lite2Relight:3D対応のシングル画像ポートレートリライティング

Lite2Relight: 3D-aware Single Image Portrait Relighting ( http://arxiv.org/abs/2407.10487v1 )

ライセンス: Link先を確認
Pramod Rao, Gereon Fox, Abhimitra Meka, Mallikarjun B R, Fangneng Zhan, Tim Weyrich, Bernd Bickel, Hanspeter Pfister, Wojciech Matusik, Mohamed Elgharib, Christian Theobalt, (参考訳) 人間の肖像画の写実的な3Dビューの合成とリライティングは、AR/VR応用の進展に欠かせない。 ポートレートライティングの既存の手法は、物理的に現実的なライティングやアイデンティティ保存の不正確さと相まって、一般化と3次元整合性の面でかなりの限界を示している。 さらに、単一視点からのパーソナライゼーションは達成が困難であり、テストフェーズ中に多視点画像を必要とする場合も少なくない。 本稿では,インタラクティブな速度で物理的に可視光編集を行いながら,肖像画の立体的一貫した頭部ポーズを予測できるLite2Relightを紹介する。 提案手法はEG3Dの生成能力と効率的な容積表現を独自に拡張し,光ステージデータセットを用いて顔の反射率を暗黙的に歪め,ターゲットのHDRI環境マップ下でのリライティングを行う。 事前学習した幾何認識エンコーダと特徴アライメントモジュールを利用して、入力画像を3次元空間にマッピングし、強い顔形状と反射率で拡張する。 定量的および定性的な評価を通じて,本手法は,有効性,光現実性,実用性の観点から,最先端の手法よりも優れていることを示す。 これには、髪、目、表情を含むフルヘッドの3D一貫性のある結果が含まれる。 Lite2Relightは、様々な領域でフォトリアリスティックな肖像画編集を大規模に採用する方法を舗装し、以前制約されていた問題に対する堅牢でインタラクティブなソリューションを提供する。 プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/Lite2Relight/

Achieving photorealistic 3D view synthesis and relighting of human portraits is pivotal for advancing AR/VR applications. Existing methodologies in portrait relighting demonstrate substantial limitations in terms of generalization and 3D consistency, coupled with inaccuracies in physically realistic lighting and identity preservation. Furthermore, personalization from a single view is difficult to achieve and often requires multiview images during the testing phase or involves slow optimization processes. This paper introduces Lite2Relight, a novel technique that can predict 3D consistent head poses of portraits while performing physically plausible light editing at interactive speed. Our method uniquely extends the generative capabilities and efficient volumetric representation of EG3D, leveraging a lightstage dataset to implicitly disentangle face reflectance and perform relighting under target HDRI environment maps. By utilizing a pre-trained geometry-aware encoder and a feature alignment module, we map input images into a relightable 3D space, enhancing them with a strong face geometry and reflectance prior. Through extensive quantitative and qualitative evaluations, we show that our method outperforms the state-of-the-art methods in terms of efficacy, photorealism, and practical application. This includes producing 3D-consistent results of the full head, including hair, eyes, and expressions. Lite2Relight paves the way for large-scale adoption of photorealistic portrait editing in various domains, offering a robust, interactive solution to a previously constrained problem. Project page: https://vcai.mpi-inf.mpg.de/projects/Lite2Relight/
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# CLIPはどのように、どこで処理しますか?

How and where does CLIP process negation? ( http://arxiv.org/abs/2407.10488v1 )

ライセンス: Link先を確認
Vincent Quantmeyer, Pablo Mosteiro, Albert Gatt, (参考訳) 事前学習されたビジョン・アンド・ランゲージ(VL)モデルにおいて、言語理解をテストするための様々なベンチマークが提案されている。 ここでは、モデルが否定を理解することをテストするために使用するVALSEベンチマーク(Parcalabescu et al, 2022)の存在課題に基づいて構築する。 しかしながら、そのようなVLベンチマークはモデル性能を測定するのに有用であるが、これらのモデルがそれらの出力に到達する内部プロセスについては何も明らかにしていない。 モデル解釈可能性に関する文献からインスピレーションを得て,VLモデルの振る舞いを否定の理解について説明する。 具体的には、非常に影響力のあるVLモデルであるCLIP(Radford et al, 2021)のテキストエンコーダの詳細な解析を通して、これらの疑問にアプローチする。 我々は、このタスクにおいて、否定処理を行うエンコーダの一部をローカライズし、アテンションヘッドの役割を分析する。 私たちの貢献は3倍です。 言語モデル解釈可能性の文献(因果トレースなど)からの手法をマルチモーダルモデルやタスクに変換する方法を実証し、VALSE存在課題におけるCLIPプロセスの否定について具体的な知見を提供し、言語理解のベンチマークとしてVALSEデータセットに固有の制限を強調した。

Various benchmarks have been proposed to test linguistic understanding in pre-trained vision \& language (VL) models. Here we build on the existence task from the VALSE benchmark (Parcalabescu et al, 2022) which we use to test models' understanding of negation, a particularly interesting issue for multimodal models. However, while such VL benchmarks are useful for measuring model performance, they do not reveal anything about the internal processes through which these models arrive at their outputs in such visio-linguistic tasks. We take inspiration from the growing literature on model interpretability to explain the behaviour of VL models on the understanding of negation. Specifically, we approach these questions through an in-depth analysis of the text encoder in CLIP (Radford et al, 2021), a highly influential VL model. We localise parts of the encoder that process negation and analyse the role of attention heads in this task. Our contributions are threefold. We demonstrate how methods from the language model interpretability literature (such as causal tracing) can be translated to multimodal models and tasks; we provide concrete insights into how CLIP processes negation on the VALSE existence task; and we highlight inherent limitations in the VALSE dataset as a benchmark for linguistic understanding.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# LLMファインタニングの学習ダイナミクス

Learning Dynamics of LLM Finetuning ( http://arxiv.org/abs/2407.10490v1 )

ライセンス: Link先を確認
Yi Ren, Danica J. Sutherland, (参考訳) 学習力学は、特定のトレーニング例の学習がモデルの他の例の予測にどのように影響するかを記述するもので、ディープラーニングシステムの振る舞いを理解するための強力なツールを提供する。 ステップワイズ分解を解析し,異なる応答間の影響を蓄積することにより,ファインタニング中の大規模言語モデルの学習ダイナミクスについて検討する。 我々のフレームワークは、命令チューニングと選好チューニングの両方のための一般的なアルゴリズムのトレーニングに関する多くの興味深い観察を均一に解釈することができる。 この分析は、これらの手法の利点がどこから来たのかを説明するだけでなく、アライメント性能をさらに改善するためのシンプルで効果的な方法ももたらします。 実験用のコードはhttps://github.com/Joshua-Ren/Learning_dynamics_LLMで公開されている。

Learning dynamics, which describes how the learning of specific training examples influences the model's prediction of other examples, give us a powerful tool for understanding the behavior of deep learning systems. We study the learning dynamics of large language models during finetuning, by analyzing the step-wise decomposition and accumulated influence among different responses. Our framework allows a uniform interpretation of many interesting observations about the training of popular algorithms for both instruction tuning and preference tuning. The analysis not only explains where the benefits of these methods come from but also inspires a simple, effective method to further improve the alignment performance. Code for experiments is available at https://github.com/Joshua-Ren/Learning_dynamics_LLM.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# ロバスト・マシン・アンラーニングのための学習

Learning to Unlearn for Robust Machine Unlearning ( http://arxiv.org/abs/2407.10494v1 )

ライセンス: Link先を確認
Mark He Huang, Lin Geng Foo, Jun Liu, (参考訳) マシン・アンラーニング(MU)は、トレーニングされたモデルから特定のデータサンプルの知識を、完全な再トレーニングを必要とせずに取り除こうとしている。 この分野での最近の進歩にもかかわらず、未学習の二重目的間のバランスは依然として困難である。 一般化という新たな視点から,未学習プロセスの最適化にメタラーニングアプローチを採用し,記憶と記憶を統一的に改善する,新たなLTU(Learning-to-Unlearn)フレームワークを導入する。 LTUにはメタ最適化スキームが含まれており、モデルが特定のデータサンプルを徹底的に忘れつつ、残りのセットの小さなサブセットでのみ、一般化可能な知識を効果的に保存できるようにする。 また、勾配競合を緩和して記憶・忘れるための最適化トラジェクトリを整列するグラディエント調和戦略を導入し、効率よく効率的なモデル更新を実現する。 提案手法は,MUの効率性と有効性の向上を実証し,データ権利とモデル再利用可能性の課題に対する有望な解決策を提供する。

Machine unlearning (MU) seeks to remove knowledge of specific data samples from trained models without the necessity for complete retraining, a task made challenging by the dual objectives of effective erasure of data and maintaining the overall performance of the model. Despite recent advances in this field, balancing between the dual objectives of unlearning remains challenging. From a fresh perspective of generalization, we introduce a novel Learning-to-Unlearn (LTU) framework, which adopts a meta-learning approach to optimize the unlearning process to improve forgetting and remembering in a unified manner. LTU includes a meta-optimization scheme that facilitates models to effectively preserve generalizable knowledge with only a small subset of the remaining set, while thoroughly forgetting the specific data samples. We also introduce a Gradient Harmonization strategy to align the optimization trajectories for remembering and forgetting via mitigating gradient conflicts, thus ensuring efficient and effective model updates. Our approach demonstrates improved efficiency and efficacy for MU, offering a promising solution to the challenges of data rights and model reusability.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# Gromov-Wasserstein正則化による双曲表現の改善

Improving Hyperbolic Representations via Gromov-Wasserstein Regularization ( http://arxiv.org/abs/2407.10495v1 )

ライセンス: Link先を確認
Yifei Yang, Wonjun Lee, Dongmian Zou, Gilad Lerman, (参考訳) 双曲表現は、データ構造内の固有の階層や複雑さをモデル化する上で、顕著な効果を示している。 双曲型ニューラルネットワークは、データからそのような表現を学習するためによく用いられるが、元の特徴空間の幾何学的構造を保存するには不十分であることが多い。 この課題に対して、我々はGromov-Wasserstein (GW) 距離を双曲型ニューラルネットワークにおける新しい正規化機構として適用した。 GW距離は、双曲空間にデータを埋め込んだ後、元のデータ構造がどれだけうまく維持されているかを定量化する。 具体的には、双曲型ニューラルネットワークの層を輸送マップとして明示的に扱い、それに応じてGW距離を計算する。 我々は、トレーニングセットに基づいて計算されたGW距離が、基礎となるデータ分布のGW距離をよく近似していることを検証する。 提案手法は, 画像分類や半教師付きグラフリンク予測, ノード分類など, 様々なタスクにまたがる最先端の手法に対する一貫した拡張を示す。

Hyperbolic representations have shown remarkable efficacy in modeling inherent hierarchies and complexities within data structures. Hyperbolic neural networks have been commonly applied for learning such representations from data, but they often fall short in preserving the geometric structures of the original feature spaces. In response to this challenge, our work applies the Gromov-Wasserstein (GW) distance as a novel regularization mechanism within hyperbolic neural networks. The GW distance quantifies how well the original data structure is maintained after embedding the data in a hyperbolic space. Specifically, we explicitly treat the layers of the hyperbolic neural networks as a transport map and calculate the GW distance accordingly. We validate that the GW distance computed based on a training set well approximates the GW distance of the underlying data distribution. Our approach demonstrates consistent enhancements over current state-of-the-art methods across various tasks, including few-shot image classification, as well as semi-supervised graph link prediction and node classification.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# CIBench: コードインタープリタプラグインによるLLMの評価

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin ( http://arxiv.org/abs/2407.10499v1 )

ライセンス: Link先を確認
Songyang Zhang, Chuyu Zhang, Yingfan Hu, Haowen Shen, Kuikun Liu, Zerun Ma, Fengzhe Zhou, Wenwei Zhang, Xuming He, Dahua Lin, Kai Chen, (参考訳) 複雑な問題を解決するために外部ツールを使用するLCMベースのエージェントは大きな進歩を遂げているが、それらの能力のベンチマークは困難であり、それによってそれらの制限を明確に理解するのを妨げる。 本稿では,データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。 評価フレームワークは評価データセットと2つの評価モードを含む。 評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。 2つの評価モードは、LLMの人的援助なしでの能力を評価する。 コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。

While LLM-Based agents, which use external tools to solve complex problems, have made significant progress, benchmarking their ability is challenging, thereby hindering a clear understanding of their limitations. In this paper, we propose an interactive evaluation framework, named CIBench, to comprehensively assess LLMs' ability to utilize code interpreters for data science tasks. Our evaluation framework includes an evaluation dataset and two evaluation modes. The evaluation dataset is constructed using an LLM-human cooperative approach and simulates an authentic workflow by leveraging consecutive and interactive IPython sessions. The two evaluation modes assess LLMs' ability with and without human assistance. We conduct extensive experiments to analyze the ability of 24 LLMs on CIBench and provide valuable insights for future LLMs in code interpreter utilization.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# AirDnD - Asynchronous In-Range Dynamic and Distributed Network Orchestration Framework

AirDnD -- Asynchronous In-Range Dynamic and Distributed Network Orchestration Framework ( http://arxiv.org/abs/2407.10500v1 )

ライセンス: Link先を確認
Malsha Ashani Mahawatta Dona, Christian Berger, Yinan Yu, (参考訳) IoTデバイスの利用が増加し、大量のデータが生成され、構造化されたコンピューティングインフラストラクチャを備えたデータセンタが確立された。 このようなデータセンターの未使用リソースの削減は、タスクを監視し、様々な計算ユニットにまたがってそれらをオフロードすることで達成できる。 このアプローチは、エッジデバイスやスマート車によって生成されたミニモバイルデータ池でも使用することができる。 本研究の目的は、動的メッシュネットワークを形成することにより、分散エッジデバイスにおけるコンピューティングリソースの利用を改善することである。 メッシュネットワーク内のノードは、未使用のコンピューティングリソースを持つ別のノードと計算タスクを共有する。 提案手法は,エンティティ間のデータ転送の最小化を実現する。 提案したAirDnDビジョンは、近辺の車両から重要な計算結果を収集し、その知覚を高めるために、「角を見回す」ことで知られる交差点に接近する自動運転車に関する現実的なシナリオに適用される。 提案手法は, 地理的に分散したエッジデバイスを生物に変換する3つのモデルから構成される。

The increasing usage of IoT devices has generated an extensive volume of data which resulted in the establishment of data centers with well-structured computing infrastructure. Reducing underutilized resources of such data centers can be achieved by monitoring the tasks and offloading them across various compute units. This approach can also be used in mini mobile data ponds generated by edge devices and smart vehicles. This research aims to improve and utilize the usage of computing resources in distributed edge devices by forming a dynamic mesh network. The nodes in the mesh network shall share their computing tasks with another node that possesses unused computing resources. This proposed method ensures the minimization of data transfer between entities. The proposed AirDnD vision will be applied to a practical scenario relevant to an autonomous vehicle that approaches an intersection commonly known as ``looking around the corner'' in related literature, collecting essential computational results from nearby vehicles to enhance its perception. The proposed solution consists of three models that transform growing amounts of geographically distributed edge devices into a living organism.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# 繰り返しオークションにおける利用者の疲労を考慮した実用的政策学習手法

A pragmatic policy learning approach to account for users' fatigue in repeated auctions ( http://arxiv.org/abs/2407.10504v1 )

ライセンス: Link先を確認
Benjamin Heymann, Rémi Chan--Renous-Legoubin, Alexandre Gilotte, (参考訳) オンライン広告バナーはオークションを通じてリアルタイムに販売され、ユーザーが表示するバナーが増えるほど、次のバナーのマージン値が小さくなる。 この事実はベーシックなMLモデルによって検出することができ、これは前回の競売が現在の機会価値を減らしたことを予測するために使用することができる。 しかし、現在の競売に勝つことが将来の価値にどのように影響するかを正しく説明する入札を生み出すには、学習が十分ではない。 実際、この予測を用いて現在の競売の予想利益を最大化する政策は、競売の繰り返しを十分に考慮していないため、不注意と称されることがある。 この見地からすると、ほとんどの文献の入札者は不便なようだ。 当然のことながら、不服従はコストを生じさせ、我々はこのコスト不服従の重要性を実証的に2つの議論する。 第一に、オフラインの対実分析、第二に、政治的学習に対する不忍のコストを軽減し、注目すべきビジネス指標の改善

Online advertising banners are sold in real-time through auctions.Typically, the more banners a user is shown, the smaller the marginalvalue of the next banner for this user is. This fact can be detected bybasic ML models, that can be used to predict how previously won auctionsdecrease the current opportunity value. However, learning is not enough toproduce a bid that correctly accounts for how winning the current auctionimpacts the future values. Indeed, a policy that uses this prediction tomaximize the expected payoff of the current auction could be dubbedimpatient because such policy does not fully account for the repeatednature of the auctions. Under this perspective, it seems that most biddersin the literature are impatient. Unsurprisingly, impatience induces a cost.We provide two empirical arguments for the importance of this cost ofimpatience. First, an offline counterfactual analysis and, second, a notablebusiness metrics improvement by mitigating the cost of impatience withpolicy learning
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# 空間除算を用いた2つの動的非コヒーレント音源の分離推定における超解像

Superresolution in separation estimation between two dynamic incoherent sources using spatial demultiplexing ( http://arxiv.org/abs/2407.10507v1 )

ライセンス: Link先を確認
Konrad Schlichtholz, Łukasz Rudnicki, (参考訳) サブレイリー系における分解能(超解像)の達成は、量子光学とメトロジーにおいて急速に発展しているトピックの1つである。 近年,Hermite-Gaussモードにおける空間モードデマルチプレクシング(SPADE)に基づく完全測定により,2つの弱非コヒーレント定常源間の分離推定精度の量子限界に達することが示されている。 それ以来、モード間のミスアライメントやクロストークのような異なる不完全性が研究され、この結果がより現実的な実験的な設定にどのように変換されるかを確認している。 本稿では、ソースの定常性に関する仮定を捨てて、完璧な設定から別の逸脱を考える。 これは、惑星が必ず恒星の周りを公転する天体物理学的な応用に関係している。 本研究では、回転と振動の2つの力学の例を分析し、SPADEによる計測の堅牢性を示す。 この分析はFisher情報に基づいており、Cram\'er-Rao 境界を通して精度の限界を求めることができる。 さらに,このパラメータの知識の欠如にもかかわらず測定精度を保ちながら,定常源シナリオにおける推定パラメータ(システム方向角)の1つを削減できる測定アルゴリズムを定式化した。

Achieving resolution in the sub-Rayleigh regime (superresolution) is one of the rapidly developing topics in quantum optics and metrology. Recently, it was shown that perfect measurement based on spatial mode demultiplexing (SPADE) in Hermite-Gauss modes allows one to reach the quantum limit of precision for estimation of separation between two weak incoherent stationary sources. Since then, different imperfections such as misalignment or crosstalk between modes have been studied to check how this result translates into more realistic experimental setups. In this paper, we consider another deviation from the perfect setup by discarding the assumption about the stationarity of the sources. This is relevant for example for astrophysical applications where planets necessarily orbit around the star. We analyze two examples of dynamics: rotations and oscillations, showing the robustness of the SPADE-based measurement against them. The analysis is based on Fisher information, which allows one to obtain the precision limit through Cram\'er-Rao bound. Furthermore, we formulate a measurement algorithm that allows for the reduction of one parameter for estimation (system orientation angle) in the stationary sources scenario, maintaining the measurement precision despite the lack of knowledge about this parameter.
翻訳日:2024-07-16 16:00:42 公開日:2024-07-15
# TCM-FTP:草本述語予測のための微調整大言語モデル

TCM-FTP: Fine-Tuning Large Language Models for Herbal Prescription Prediction ( http://arxiv.org/abs/2407.10510v1 )

ライセンス: Link先を確認
Xingzhi Zhou, Xin Dong, Chunhao Li, Yuning Bai, Yulong Xu, Ka Chun Cheung, Simon See, Xinpeng Song, Runshun Zhang, Xuezhong Zhou, Nevin L. Zhang, (参考訳) 伝統的な中国医学(TCM)は、症状や徴候を治療するために処方薬中のハーブの特定の組み合わせに依存している。 TCM処方薬の予測は、実際的な意味を持つ興味深い技術的課題を示す。 しかし、高品質な臨床データセットの不足と症状とハーブの複雑な関係により、この課題は制限に直面している。 これらの課題に対処するために,消化器系疾患の経験者による医療記録を含む新しいデータセットであるDigestDSを紹介した。 また、DigDSの教師付き微調整により、事前訓練された大規模言語モデル(LLM)を活用するためのTCM-FTP(TCM Fine-Tuning Pre-trained)を提案する。 また,低ランク適応手法を用いて計算効率を向上させる。 TCM-FTPは、処方薬にハーブを置換することでデータ拡張も含み、注文に依存しない性質を活かしている。 TCM-FTPのF1スコアは0.8031であり、従来の手法をはるかに上回っている。 さらに, 平均2乗誤差0.0604を正規化することにより, 投薬予測において顕著な精度を示す。 対照的に、微調整のないLDMは性能が良くない。 LLMは広範囲のタスクで機能を示すが、本研究はTCM処方の微調整の重要性を示すものであり、それを実現する効果的な方法を提案する。

Traditional Chinese medicine (TCM) relies on specific combinations of herbs in prescriptions to treat symptoms and signs, a practice that spans thousands of years. Predicting TCM prescriptions presents a fascinating technical challenge with practical implications. However, this task faces limitations due to the scarcity of high-quality clinical datasets and the intricate relationship between symptoms and herbs. To address these issues, we introduce DigestDS, a new dataset containing practical medical records from experienced experts in digestive system diseases. We also propose a method, TCM-FTP (TCM Fine-Tuning Pre-trained), to leverage pre-trained large language models (LLMs) through supervised fine-tuning on DigestDS. Additionally, we enhance computational efficiency using a low-rank adaptation technique. TCM-FTP also incorporates data augmentation by permuting herbs within prescriptions, capitalizing on their order-agnostic properties. Impressively, TCM-FTP achieves an F1-score of 0.8031, surpassing previous methods significantly. Furthermore, it demonstrates remarkable accuracy in dosage prediction, achieving a normalized mean square error of 0.0604. In contrast, LLMs without fine-tuning perform poorly. Although LLMs have shown capabilities on a wide range of tasks, this work illustrates the importance of fine-tuning for TCM prescription prediction, and we have proposed an effective way to do that.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# CV-QKD用モノリシック集積超低騒音バランス受信機

Monolithically Integrated Ultra-Low Noise Balanced Receiver for CV-QKD ( http://arxiv.org/abs/2407.10517v1 )

ライセンス: Link先を確認
Dinka Milovančev, Nemanja Vokić, (参考訳) そこで本研究では,光相関検出に用いる低雑音アナログフロントエンドの設計において,入力参照ノイズの大幅なダウンスケーリングを実現するためのモノリシック光電子統合プラットフォームについて検討する。 このようなモノリシックな統合アプローチの性能は、平衡光検出器にワイヤボンディングを必要とする同じ技術で設計された異種統合ソリューションと比較される。 設計された回路は1GHz以上の帯域をターゲットとしている。 改良されたノイズ性能は、連続可変量子鍵分布(CV-QKD)におけるセキュアな鍵レートの増加と到達可能なリーチに対して活用される。

In this work we explore monolithic opto-electronic integration platform for significant down-scaling of input-referred noise in custom designed low-noise analog front-end used for balanced photodetection. The performance of such monolithically integrated approach is compared to heterogeneously integrated solution designed in the same technology which requires wire-bonding to the balanced photodetectors. The designed circuits are targeting bandwidth above 1 GHz. The improved noise performance is leveraged against increased secure key rates and achievable reach in continuous-variable quantum key distribution (CV-QKD).
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# マトリックス製品状態アンザッツの変分量子イマジナリー時間進化 : トランスコリックスハミルトニアンの試験

Variational Quantum Imaginary Time Evolution for Matrix Product State Ansatz with Tests on Transcorrelated Hamiltonians ( http://arxiv.org/abs/2407.10523v1 )

ライセンス: Link先を確認
Hao-En Li, Xiang Li, Jia-Cheng Huang, Guang-Ze Zhang, Zhu-Ping Shen, Chen Zhao, Jun Li, Han-Shi Hu, (参考訳) マトリックス生成物状態(MPS)アンザッツは、分子ハミルトニアンの基礎状態を発見し、量子化学問題を解くための有望なアプローチを提供する。 この概念に基づいて、量子回路MPS (QCMPS) の手法により、比較的少数の量子ビットを用いた化学系のシミュレーションが可能となる。 本研究では,変分量子想像時間進化(VarQITE)手法を用いて,QCMPSアンサッツの最適化性能を向上させる。 マクラークランの変分原理によって導かれ、VarQITE法は分析指標と勾配を提供し、QCMPSの収束効率と堅牢性を改善した。 我々はこれらの改善を$\rm H_2$,$\rm H_4$,$\rm LiH$分子のシミュレーションにより数値的に検証する。 さらに、VarQITEが非エルミートハミルトニアンに適用可能であることを考慮し、トランスコリックス(TC)ハミルトニアンの基礎状態を作成する上での有効性を評価する。 このアプローチは、より少ない量子ビットを使用しながら、完全基底集合 (CBS) の極限に匹敵するエネルギーを推定する。 具体的には、ベリリウム原子と$\rm LiH$分子をわずか3量子ビットでシミュレーションし、これらの系のCBS基底状態エネルギーと高い忠実性を維持する。 この量子ビットの低減は、QCMPSアンサッツとトランスコリレーションの両方の利点によって達成される。 本研究は, この量子化学アルゴリズムの短期量子デバイスへの応用の可能性を示すものである。

The matrix product state (MPS) ansatz offers a promising approach for finding the ground state of molecular Hamiltonians and solving quantum chemistry problems. Building on this concept, the proposed technique of quantum circuit MPS (QCMPS) enables the simulation of chemical systems using a relatively small number of qubits. In this study, we enhance the optimization performance of the QCMPS ansatz by employing the variational quantum imaginary time evolution (VarQITE) approach. Guided by McLachlan's variational principle, the VarQITE method provides analytical metrics and gradients, resulting in improved convergence efficiency and robustness of the QCMPS. We validate these improvements numerically through simulations of $\rm H_2$, $\rm H_4$, and $\rm LiH$ molecules. Additionally, given that VarQITE is applicable to non-Hermitian Hamiltonians, we evaluate its effectiveness in preparing the ground state of transcorrelated (TC) Hamiltonians. This approach yields energy estimates comparable to the complete basis set (CBS) limit while using even fewer qubits. Specifically, we perform simulations of the beryllium atom and $\rm LiH$ molecule using only three qubits, maintaining high fidelity with the CBS ground state energy of these systems. This qubit reduction is achieved through the combined advantages of both the QCMPS ansatz and transcorrelation. Our findings demonstrate the potential practicality of this quantum chemistry algorithm on near-term quantum devices.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# テキスト・ツー・モーション生成のための局所動作誘導運動拡散モデル

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation ( http://arxiv.org/abs/2407.10528v1 )

ライセンス: Link先を確認
Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Runyi Yu, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen, (参考訳) テキスト・トゥ・モーション・ジェネレーションは、言語における局所的なアクションを基礎づけるだけでなく、これらの個々のアクションをシームレスにブレンドして、多様で現実的なグローバルな動きを合成する必要がある。 しかし、既存の動き生成法は、局所的な行動の生成と制御の重要性を無視しながら、大域的な動きの直接合成に重点を置いている。 本稿では,局所動作をきめ細かい制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型運動拡散モデルを提案する。 具体的には,局所的な動作のサンプリングを自動で参照し,グラフアテンションネットワークを利用して各局所的な動作のガイドウェイトを全体の動作合成で評価する。 グローバルな動きを合成する拡散過程において, 局所作用勾配を計算し, 条件付きガイダンスを提供する。 この局所的・グローバル的パラダイムは、直接的グローバルなモーション生成に関連する複雑さを低減し、多様な動作を条件としてサンプリングすることで、動きの多様性を促進する。 人間の動作データセットであるHumanML3DとKITの大規模な実験により,本手法の有効性が示された。 さらに,本手法は,様々な局所行動のシームレスな組み合わせや,多様なユーザの嗜好を調整し,コミュニティにとって潜在的に重要なものとなるような,継続的なガイドウェイト調整の柔軟性を提供する。 プロジェクトページはhttps://jpthu17.github.io/GuidedMotion-project/で公開されている。

Text-to-motion generation requires not only grounding local actions in language but also seamlessly blending these individual actions to synthesize diverse and realistic global motions. However, existing motion generation methods primarily focus on the direct synthesis of global motions while neglecting the importance of generating and controlling local actions. In this paper, we propose the local action-guided motion diffusion model, which facilitates global motion generation by utilizing local actions as fine-grained control signals. Specifically, we provide an automated method for reference local action sampling and leverage graph attention networks to assess the guiding weight of each local action in the overall motion synthesis. During the diffusion process for synthesizing global motion, we calculate the local-action gradient to provide conditional guidance. This local-to-global paradigm reduces the complexity associated with direct global motion generation and promotes motion diversity via sampling diverse actions as conditions. Extensive experiments on two human motion datasets, i.e., HumanML3D and KIT, demonstrate the effectiveness of our method. Furthermore, our method provides flexibility in seamlessly combining various local actions and continuous guiding weight adjustment, accommodating diverse user preferences, which may hold potential significance for the community. The project page is available at https://jpthu17.github.io/GuidedMotion-project/.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 動的相転移, コースティックス, 量子ダークバンド

Dynamical Phase Transitions, Caustics, and Quantum Dark Bands ( http://arxiv.org/abs/2407.10529v1 )

ライセンス: Link先を確認
Valentin Link, Walter T. Strunz, D. H. J. O'Dell, (参考訳) 我々は、時間とともに多体状態のフォック空間表現における因果関係を示すことによって、量子系の動的相転移(DPT)に関する新しい視点を提供する。 このようにして、毎日の自然現象の観点から量子スピン系におけるDPTの説明が見つかる: 虹(アレクサンダーのダークバンド)の一次と二次の弓(コースティックス)の間の暗いバンド。 DPTは、フォック空間の隣り合う折りたたみ因果関係を装い、空の角の関数と見なされるものの時間依存的なアナログである2つのバック・ツー・バック・エアリー関数のエバネッセントテールの間の切替線を横切るときに発生する。 因果関係の構造的安定性と普遍的性質は、カタストロフィ理論によって数学的に説明され、我々の分析が適用可能であることを示唆している。 そこで本研究では, 有限系実験におけるDPTの存在を検証するためのプロトコルを提案する。

We provide a new perspective on dynamical phase transitions (DPTs) in quantum systems by showing their connection to caustics forming in the Fock space representation of the many-body state over time. In this way we find an explanation for DPTs in a quantum spin system in terms of an everyday natural phenomenon: The dark band between the primary and seconday bows (caustics) in rainbows (Alexander's dark band). The DPT occurs when the Loschmidt echo crosses the switching line between the evanescent tails of two back-to-back Airy functions that dress neighbouring fold caustics in Fock space and is the time-dependent analogue of what is seen as a function of angle in the sky. The structural stability and universal properties of caustics, as described mathematically by catastrophe theory, suggests our analysis has wide applicability. Based on our thorough analytical understanding we propose a protocol which can be used to verify the existence of a DPT in a finite system experiment.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 通勤者の指数近似のための分割法

Splitting techniques for approximating the exponential of commutators ( http://arxiv.org/abs/2407.10533v1 )

ライセンス: Link先を確認
F. Casas, A. Escorihuela-Tomàs, (参考訳) 我々は、2つの任意の作用素の可換作用素の指数を関連する作用素の指数の観点から近似する位数 3 から 6 の積公式を構築する。 この新しいスキームは指数関数の数を減らし、他の他の他の方法よりも効率的な近似を提供するが、それでも近似の順序を上げるための再帰的手続きの開始方法として使うことができる。

We construct product formulas of orders 3 to 6 approximating the exponential of a commutator of two arbitrary operators in terms of the exponentials of the operators involved. The new schemes require a reduced number of exponentials and thus provide more efficient approximations than other previously published alternatives, whereas they can be still used as a starting methods of recursive procedures to increase the order of approximation.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# GNNを用いたマルチデータセットセマンティックセマンティックセグメンテーションのためのラベルの自動統一

Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs ( http://arxiv.org/abs/2407.10534v1 )

ライセンス: Link先を確認
Rong Ma, Jie Chen, Xiangyang Xue, Jian Pu, (参考訳) 深層教師付きモデルには、広範囲なトレーニングデータを同化する重要な能力があり、複数のデータセットのトレーニングを通じてモデルパフォーマンスを向上させる機会を提供する。 しかし、データセット間で異なるラベル空間から生じる矛盾は、モデルの性能に悪影響を及ぼす可能性がある。 本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。 これにより、セマンティックセグメンテーションモデルを複数のデータセットで同時にトレーニングすることが可能になり、パフォーマンスが向上する。 従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。 これにより、マルチデータセットセグメンテーションモデルのトレーニングの効率性と効果が大幅に向上する。 その結果,WildDash 2ベンチマークでは,7つのデータセットを同時にトレーニングした場合に,他のマルチデータセットのトレーニング手法よりも大幅に優れており,最先端のパフォーマンスを実現していることがわかった。

Deep supervised models possess significant capability to assimilate extensive training data, thereby presenting an opportunity to enhance model performance through training on multiple datasets. However, conflicts arising from different label spaces among datasets may adversely affect model performance. In this paper, we propose a novel approach to automatically construct a unified label space across multiple datasets using graph neural networks. This enables semantic segmentation models to be trained simultaneously on multiple datasets, resulting in performance improvements. Unlike existing methods, our approach facilitates seamless training without the need for additional manual reannotation or taxonomy reconciliation. This significantly enhances the efficiency and effectiveness of multi-dataset segmentation model training. The results demonstrate that our method significantly outperforms other multi-dataset training methods when trained on seven datasets simultaneously, and achieves state-of-the-art performance on the WildDash 2 benchmark.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 室内環境における全方位イメージングを用いたロボット位置推定のためのシームズニューラルネットワークの実験的検討

An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments ( http://arxiv.org/abs/2407.10536v1 )

ライセンス: Link先を確認
J. J. Cabrera, V. Román, A. Gil, O. Reinoso, L. Payá, (参考訳) 本研究の目的は,ロボットに搭載されたカタディオプトリ・ビジョン・システムによって撮像された全方位画像を用いた局所化問題に対処することである。 そこで本研究では,パノラマ画像を用いた屋内環境モデリングのためのシメセニューラルネットワークの可能性について検討する。 シームズニューラルネットワークは、2つの入力データ、この場合、2つのパノラマ画像間の類似性関数を生成する能力によって特徴付けられる。 本研究では、2つの畳み込みニューラルネットワーク(CNN)からなるシームズニューラルネットワークを用いる。 各CNNの出力は、各画像の特徴付けに使用される記述子である。 画像の相似性は、これらの記述子間の距離を測定することによって計算される。 この事実により、シームズニューラルネットワークは特に画像検索タスクに適している。 まず,2つの画像が同じ部屋で撮影されたか,異なる部屋で撮影されたかを検出するために,局所化に強く関係した初期課題を評価する。 次に、グローバルなローカライゼーション問題におけるシームズニューラルネットワークの評価を行う。 この結果は、COLD-Freiburgデータセットを用いて、特に曇りや夜の条件で撮影された画像を使用する場合、様々な照明条件において、ローカライゼーションタスクを解くための従来の手法よりも優れていた。

The objective of this paper is to address the localization problem using omnidirectional images captured by a catadioptric vision system mounted on the robot. For this purpose, we explore the potential of Siamese Neural Networks for modeling indoor environments using panoramic images as the unique source of information. Siamese Neural Networks are characterized by their ability to generate a similarity function between two input data, in this case, between two panoramic images. In this study, Siamese Neural Networks composed of two Convolutional Neural Networks (CNNs) are used. The output of each CNN is a descriptor which is used to characterize each image. The dissimilarity of the images is computed by measuring the distance between these descriptors. This fact makes Siamese Neural Networks particularly suitable to perform image retrieval tasks. First, we evaluate an initial task strongly related to localization that consists in detecting whether two images have been captured in the same or in different rooms. Next, we assess Siamese Neural Networks in the context of a global localization problem. The results outperform previous techniques for solving the localization task using the COLD-Freiburg dataset, in a variety of lighting conditions, specially when using images captured in cloudy and night conditions.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# PET画像からの前立腺腫瘍容積のセグメンテーションは異なる球技である

Segmentation of Prostate Tumour Volumes from PET Images is a Different Ball Game ( http://arxiv.org/abs/2407.10537v1 )

ライセンス: Link先を確認
Shrajan Bhandary, Dejan Kuhn, Zahra Babaiee, Tobias Fechter, Simon K. B. Spohn, Constantinos Zamboglou, Anca-Ligia Grosu, Radu Grosu, (参考訳) PET画像からの前立腺腫瘍の正確な分画は, 医用画像解析における重大な課題である。 CT や MR からオルガンを導出する作業や改善にもかかわらず、既存の標準は十分に伝達されず、PET 関連のタスクで質の高い結果をもたらす。 特に、現代の方法では、腫瘍の輪郭を手動でアノテーションするときに医師が適用した強度に基づくスケーリングを正確に考慮することができない。 本稿では, 前立腺に局在した吸入閾値範囲が, 異常値の抑制に有効であることを示す。 そこで我々は、この強度閾値を用いて、新しいカスタム・フィーチャー・クリッピング正規化手法を実装した。 我々は、nU-Netフレームワークを用いて、異なる正規化スキームの下で複数の確立されたU-Net変種を評価する。 全てのモデルは、[68-Ga]Ga-PSMA-11と[18-F]PSMA-1007の2つの放射性トレーサを用いて、複数のデータセットで訓練、試験された。 この結果から, PETスキャンを新規なクリッピング技術で前処理した場合, U-Netモデルの方が優れた性能が得られることがわかった。

Accurate segmentation of prostate tumours from PET images presents a formidable challenge in medical image analysis. Despite considerable work and improvement in delineating organs from CT and MR modalities, the existing standards do not transfer well and produce quality results in PET related tasks. Particularly, contemporary methods fail to accurately consider the intensity-based scaling applied by the physicians during manual annotation of tumour contours. In this paper, we observe that the prostate-localised uptake threshold ranges are beneficial for suppressing outliers. Therefore, we utilize the intensity threshold values, to implement a new custom-feature-clipping normalisation technique. We evaluate multiple, established U-Net variants under different normalisation schemes, using the nnU-Net framework. All models were trained and tested on multiple datasets, obtained with two radioactive tracers: [68-Ga]Ga-PSMA-11 and [18-F]PSMA-1007. Our results show that the U-Net models achieve much better performance when the PET scans are preprocessed with our novel clipping technique.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 効率的な点クラウドマッチングによる3次元形状合成

3D Geometric Shape Assembly via Efficient Point Cloud Matching ( http://arxiv.org/abs/2407.10542v1 )

ライセンス: Link先を確認
Nahyuk Lee, Juhong Min, Junha Lee, Seungwook Kim, Kanghee Lee, Jaesik Park, Minsu Cho, (参考訳) 幾何学的形状をより大きなターゲット構造に組み立てることを学ぶことは、様々な応用において重要な課題である。 本研究では,部分形状の点雲間の局所的対応を粗いレベルと細いレベルの両方で確立することで,この問題に対処する。 この目的のために、我々は、メモリと計算の低コストを伴いながら、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層であるProxy Match Transform (PMT)を導入する。 PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。 本研究では,Breaking Badの大規模3次元幾何形状評価ベンチマークを用いてPMTRの評価を行い,最先端手法と比較して優れた性能と効率性を示した。 プロジェクトページ: https://nahyuklee.github.io/pmtr.com

Learning to assemble geometric shapes into a larger target structure is a pivotal task in various practical applications. In this work, we tackle this problem by establishing local correspondences between point clouds of part shapes in both coarse- and fine-levels. To this end, we introduce Proxy Match Transform (PMT), an approximate high-order feature transform layer that enables reliable matching between mating surfaces of parts while incurring low costs in memory and computation. Building upon PMT, we introduce a new framework, dubbed Proxy Match TransformeR (PMTR), for the geometric assembly task. We evaluate the proposed PMTR on the large-scale 3D geometric shape assembly benchmark dataset of Breaking Bad and demonstrate its superior performance and efficiency compared to state-of-the-art methods. Project page: https://nahyuklee.github.io/pmtr.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 画像における知覚モデル能力の領域依存性の理解

Understanding the Dependence of Perception Model Competency on Regions in an Image ( http://arxiv.org/abs/2407.10543v1 )

ライセンス: Link先を確認
Sara Pohland, Claire Tomlin, (参考訳) ディープニューラルネットワーク(DNN)ベースの知覚モデルは、多くのアプリケーションで有用であるが、これらのモデルはブラックボックスであり、その出力はまだ十分に理解されていない。 実世界の意思決定システムが人間の介入なしにそのような知覚モデルを確実に活用できるようにするためには,認識モデルの能力レベルを判断し,モデルが無能な場合に適切に対応させなければならない。 モデルが無能な場合、システムが適切な動作についてインテリジェントな判断を下すためには、モデルが無能な理由を理解するのに役立ちます。 入力画像中の領域を識別する5つの新しい手法を探索し、画像トリミング、セグメントマスキング、ピクセル摂動、コンピテンシー勾配、再構築損失などと呼ぶ。 我々は,これら5つの手法を用いて,未知の物体を識別し,未知のクラスに関連付けられた領域を認識し,未知の領域を同定する能力を評価する。 特に、知覚モデルに不慣れな画像の側面が、この能力の低下を引き起こしている場合において、能力勾配と再構成損失法は、低モデル能力に関連する領域を特定する上で非常に有望であることがわかった。 どちらの手法も、モデルに不慣れな画像領域の検出において、計算時間が低く、高い精度を持つため、意思決定パイプラインにおいて潜在的に有用である。 メソッドと結果を再現するためのコードはGitHubで公開されている。

While deep neural network (DNN)-based perception models are useful for many applications, these models are black boxes and their outputs are not yet well understood. To confidently enable a real-world, decision-making system to utilize such a perception model without human intervention, we must enable the system to reason about the perception model's level of competency and respond appropriately when the model is incompetent. In order for the system to make an intelligent decision about the appropriate action when the model is incompetent, it would be useful for the system to understand why the model is incompetent. We explore five novel methods for identifying regions in the input image contributing to low model competency, which we refer to as image cropping, segment masking, pixel perturbation, competency gradients, and reconstruction loss. We assess the ability of these five methods to identify unfamiliar objects, recognize regions associated with unseen classes, and identify unexplored areas in an environment. We find that the competency gradients and reconstruction loss methods show great promise in identifying regions associated with low model competency, particularly when aspects of the image that are unfamiliar to the perception model are causing this reduction in competency. Both of these methods boast low computation times and high levels of accuracy in detecting image regions that are unfamiliar to the model, allowing them to provide potential utility in decision-making pipelines. The code for reproducing our methods and results is available on GitHub: https://github.com/sarapohland/explainable-competency.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# エッジデバイスのための低メモリフットプリントによる効率的な連続学習

Efficient Continual Learning with Low Memory Footprint For Edge Device ( http://arxiv.org/abs/2407.10545v1 )

ライセンス: Link先を確認
Zeqing Wang, Fei Cheng, Kangye Ji, Bohu Huang, (参考訳) 連続学習(CL)は動的知識の獲得に有用である。 強力なクラウドプラットフォームは、CL(例えばカスタマイズされたレコメンデーションシステム)の能力を完全に発揮できるが、エッジデバイスに対する同様のパーソナライズされた要件はほとんど無視されている。 この現象は、ニューラルネットワークのトレーニングと、CLの忘れられる問題を克服することに関わる膨大なリソースオーバーヘッドに起因している。 本稿では,これらのシナリオに着目し,LightCLと呼ばれるコンパクトなアルゴリズムを提案する。 他のCLメソッドとは異なり、忘れるのを遅らせるためのすべてのタスクの中でリソースの消費が一般化できるため、LightCLはニューラルネットワークで既に一般化されたコンポーネントのリソース消費を圧縮し、いくつかの余分なリソースを使用して他の部分のメモリを改善する。 まず,CLにおける可塑性学習とメモリ安定性の2つの新しい指標を提案する。 下層と中層がより一般化可能であり、より深い層が反対であるという発見に基づいて、下層と中層を凍結することで、$\textit{Maintain Generalizability}$を$\textit{Maintain Generalizability} とします。 次に、以前のタスクの特徴抽出パターンを安定化させ、より深いレイヤでの一般化性を改善するために、$\textit{Memorize Feature Patterns}$を値します。 実験的な比較では、LightCLは他のSOTAメソッドよりも遅延し、最大$\textbf{6.16$\times$}のメモリフットプリントを削減し、LightCLの効率性に優れた性能を示す。 また,エッジデバイスであるJetson Nanoにおいて,本手法の有効性を検証した。

Continual learning(CL) is a useful technique to acquire dynamic knowledge continually. Although powerful cloud platforms can fully exert the ability of CL,e.g., customized recommendation systems, similar personalized requirements for edge devices are almost disregarded. This phenomenon stems from the huge resource overhead involved in training neural networks and overcoming the forgetting problem of CL. This paper focuses on these scenarios and proposes a compact algorithm called LightCL. Different from other CL methods bringing huge resource consumption to acquire generalizability among all tasks for delaying forgetting, LightCL compress the resource consumption of already generalized components in neural networks and uses a few extra resources to improve memory in other parts. We first propose two new metrics of learning plasticity and memory stability to seek generalizability during CL. Based on the discovery that lower and middle layers have more generalizability and deeper layers are opposite, we $\textit{Maintain Generalizability}$ by freezing the lower and middle layers. Then, we $\textit{Memorize Feature Patterns}$ to stabilize the feature extracting patterns of previous tasks to improve generalizability in deeper layers. In the experimental comparison, LightCL outperforms other SOTA methods in delaying forgetting and reduces at most $\textbf{6.16$\times$}$ memory footprint, proving the excellent performance of LightCL in efficiency. We also evaluate the efficiency of our method on an edge device, the Jetson Nano, which further proves our method's practical effectiveness.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# レイピーのAIアートにおけるエゴセントリックな著作権認識

Laypeople's Egocentric Perceptions of Copyright for AI-Generated Art ( http://arxiv.org/abs/2407.10546v1 )

ライセンス: Link先を確認
Gabriel Lima, Nina Grgić-Hlača, Elissa Redmiles, (参考訳) 近年のジェネレーティブAI(GenAI)のブレークスルーは、著作権法に基づくAI生成の状況に関する議論を加速させている。 本研究は、著作権保護に関連する要因に関するAI生成技術の一般人の認識(N$ = 424)を調査する。 創造的なアウトプットを評価する際に、人々が自我中心のバイアスを示すことを示唆する以前の研究に触発されて、AI生成アートにも同じことが当てはまるかどうかもテストします。 すなわち、著作権保護(AI生成アートの作成者)と未投資の第三者の認識の違いについて検討する。 そこでは、ある参加者がGenAIモデルを使用して検討用の画像を生成し、他の参加者がこれらの投稿を評価した。 参加者は、AI生成画像のオーサシップと著作権を、AIシステムに画像を生成するよう促したユーザと、AIモデルをトレーニングするために作成したアーティストに委ねる可能性が高い。 また,参加者は他者よりも自己中心的に自分の芸術を好み,他者よりも自作を高く評価した。 さらに,本研究の結果から,人間は,創造性や努力などに関して,自分達のAI生成技術をより好意的に判断するが,他者(スキル)ではないことが示唆された。 我々の発見は、AI生成出力の著作権保護の可能性に関する今後の議論に影響を及ぼす。

Recent breakthroughs in generative AI (GenAI) have fueled debates concerning the status of AI-generated creations under copyright law. This research investigates laypeople's perceptions ($N$ = 424) of AI-generated art concerning factors associated with copyright protection. Inspired by prior work suggesting that people show egocentric biases when evaluating their own creative outputs, we also test if the same holds for AI-generated art. Namely, we study the differences between the perceptions of those who have something to gain from copyright protection -- creators of AI-generated art -- and uninvested third parties. To answer our research questions, we held an incentivized AI art competition, in which some participants used a GenAI model to generate images for consideration while others evaluated these submissions. We find that participants are most likely to attribute authorship and copyright over AI-generated images to the users who prompted the AI system to generate the image and the artists whose creations were used for training the AI model. We also find that participants egocentrically favored their own art over other participants' art and rated their own creations higher than other people evaluated them. Moreover, our results suggest that people judge their own AI-generated art more favorably with respect to some factors (creativity and effort) but not others (skills). Our findings have implications for future debates concerning the potential copyright protection of AI-generated outputs.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# ヒューマン・アウェア・パス・プランニングのための社会的コスト関数の学習

Learning Social Cost Functions for Human-Aware Path Planning ( http://arxiv.org/abs/2407.10547v1 )

ライセンス: Link先を確認
Andrea Eirale, Matteo Leonetti, Marcello Chiaberge, (参考訳) 社会的受容を達成することは、社会ロボットナビゲーションの主要な目標の1つである。 この話題は近年注目されているが、研究の大半は障害物のない軌道に沿ってロボットエージェントを駆動することに焦点を当てており、個人距離を尊重し、ナビゲーションを最適化するために将来の人間の動きを推定する計画を立てている。 しかし、日常生活における社会的相互作用は、カットするよりもキューの端に立っている場合など、運動に厳密に依存しない規範によっても規定される。 本稿では,一般的な社会的シナリオを認識し,従来のプランナーのコスト関数を適応させる新しい手法を提案する。 このソリューションは、従来のナビゲーションの堅牢性を維持しながら、他の方法では発生しない様々なソーシャルナビゲーション行動を実行することを可能にする。 我々のアプローチでは、ロボットはタスクごとに異なるモジュールを持つのではなく、単一の学習モデルで異なる社会的規範を学習することができる。 概念実証として、話し合う人々の集団の相互作用空間をキューイングし、尊重するタスクについて考察するが、この方法は動きを伴わない他の人間の活動にまで拡張することができる。

Achieving social acceptance is one of the main goals of Social Robotic Navigation. Despite this topic has received increasing interest in recent years, most of the research has focused on driving the robotic agent along obstacle-free trajectories, planning around estimates of future human motion to respect personal distances and optimize navigation. However, social interactions in everyday life are also dictated by norms that do not strictly depend on movement, such as when standing at the end of a queue rather than cutting it. In this paper, we propose a novel method to recognize common social scenarios and modify a traditional planner's cost function to adapt to them. This solution enables the robot to carry out different social navigation behaviors that would not arise otherwise, maintaining the robustness of traditional navigation. Our approach allows the robot to learn different social norms with a single learned model, rather than having different modules for each task. As a proof of concept, we consider the tasks of queuing and respect interaction spaces of groups of people talking to one another, but the method can be extended to other human activities that do not involve motion.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 顔偽ビデオ検出のための自然な一貫性表現の学習

Learning Natural Consistency Representation for Face Forgery Video Detection ( http://arxiv.org/abs/2407.10550v1 )

ライセンス: Link先を確認
Daichi Zhang, Zihao Xiao, Shikun Li, Fanzhao Lin, Jianmin Li, Shiming Ge, (参考訳) Face Forgeryのビデオは、社会的な重要な懸念を招き、さまざまな検知器が提案されている。 しかし、完全教師付き検出器は特定の偽造法やビデオに容易に適合し、既存の自己監督検出器はオーディオやマルチモダリティなどの補助的なタスクに厳しいため、一般化と堅牢性が制限される。 本稿では,視覚のみのリアル・フェイス・ビデオを活用することで,この問題に対処できるかどうかを検討する。 この目的のために,偽ビデオが未知の偽造法や異なる摂動の下でも自然時空間の一貫性を維持するのに苦戦しているという観察から着想を得た,実顔映像の自然な一貫性表現(NACO)を自己監督的に学習することを提案する。 我々のNACOはまず,各フレームの空間的特徴をCNNによって抽出し,それをTransformerに統合し,CNNとTransformerの利点をそれぞれ局所的空間受容野と長期記憶に活用する。 さらに、自然整合性表現学習を強化するために、空間予測モジュール~(SPM)と時間コントラストモジュール~(TCM)を導入する。 SPMは時空間の空間的特徴を時空間表現から予測することを目的としており、TCMは時空間表現の潜時距離を自然な順序をシャッフルすることで時空間表現の一貫性を乱し、NACOを時空間の時間的一貫性により敏感にする可能性がある。 表現学習段階の後、MLPヘッドを微調整して、通常の偽ビデオ分類タスクを実行する。 大規模な実験により,本手法は他の最先端の競合相手よりも優れた一般化とロバスト性を示した。

Face Forgery videos have elicited critical social public concerns and various detectors have been proposed. However, fully-supervised detectors may lead to easily overfitting to specific forgery methods or videos, and existing self-supervised detectors are strict on auxiliary tasks, such as requiring audio or multi-modalities, leading to limited generalization and robustness. In this paper, we examine whether we can address this issue by leveraging visual-only real face videos. To this end, we propose to learn the Natural Consistency representation (NACO) of real face videos in a self-supervised manner, which is inspired by the observation that fake videos struggle to maintain the natural spatiotemporal consistency even under unknown forgery methods and different perturbations. Our NACO first extracts spatial features of each frame by CNNs then integrates them into Transformer to learn the long-range spatiotemporal representation, leveraging the advantages of CNNs and Transformer on local spatial receptive field and long-term memory respectively. Furthermore, a Spatial Predictive Module~(SPM) and a Temporal Contrastive Module~(TCM) are introduced to enhance the natural consistency representation learning. The SPM aims to predict random masked spatial features from spatiotemporal representation, and the TCM regularizes the latent distance of spatiotemporal representation by shuffling the natural order to disturb the consistency, which could both force our NACO more sensitive to the natural spatiotemporal consistency. After the representation learning stage, a MLP head is fine-tuned to perform the usual forgery video classification task. Extensive experiments show that our method outperforms other state-of-the-art competitors with impressive generalization and robustness.
翻訳日:2024-07-16 15:50:53 公開日:2024-07-15
# 生成人工知能を超えて - 自然言語生成のロードマップ

Beyond Generative Artificial Intelligence: Roadmap for Natural Language Generation ( http://arxiv.org/abs/2407.10554v1 )

ライセンス: Link先を確認
María Miró Maestre, Iván Martínez-Murillo, Tania J. Martin, Borja Navarro-Colorado, Antonio Ferrández, Armando Suárez Cueto, Elena Lloret, (参考訳) 生成人工知能は、Large Language Models (LLMs) の結果、指数関数的に成長した。 本論文の焦点である自然言語処理(NLP)とそのサブフィールド自然言語生成(NLG)の分野において,ディープラーニング手法の優れた性能が実現されている。 成長しているLLMファミリーの中には、一般的なGPT-4、Bard、より具体的には、ChatGPTのようなツールが、NLG研究に関わるタスクのほとんどを解決する際に、他のLLMのベンチマークとなった。 このシナリオは、NLGの次のステップと、LLMの時代における新しい課題に対処するために、フィールドがどのように適応し、進化するかについて、新たな疑問を提起する。 そこで本研究では,最近NLGで発表された調査の代表的なサンプルについて概説する。 そこで我々は,科学コミュニティに対して,どのNLG面がまだLLMによって適切に対処されていないかを特定するための研究ロードマップを提供することを目標とし,今後対処すべき今後の研究線を提案する。

Generative Artificial Intelligence has grown exponentially as a result of Large Language Models (LLMs). This has been possible because of the impressive performance of deep learning methods created within the field of Natural Language Processing (NLP) and its subfield Natural Language Generation (NLG), which is the focus of this paper. Within the growing LLM family are the popular GPT-4, Bard and more specifically, tools such as ChatGPT have become a benchmark for other LLMs when solving most of the tasks involved in NLG research. This scenario poses new questions about the next steps for NLG and how the field can adapt and evolve to deal with new challenges in the era of LLMs. To address this, the present paper conducts a review of a representative sample of surveys recently published in NLG. By doing so, we aim to provide the scientific community with a research roadmap to identify which NLG aspects are still not suitably addressed by LLMs, as well as suggest future lines of research that should be addressed going forward.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# スピン量子ビットの基底および励起状態に対する捕捉イオン量子コンピュータ上での確率的想像時間進化の符号化

Encoded probabilistic imaginary-time evolution on a trapped-ion quantum computer for ground and excited states of spin qubits ( http://arxiv.org/abs/2407.10555v1 )

ライセンス: Link先を確認
Hirofumi Nishi, Yuki Takei, Taichi Kosugi, Shunsuke Mieda, Yutaka Natsume, Takeshi Aoyagi, Yu-ichiro Matsushita, (参考訳) 本研究では, 量子コンピュータを用いて, 量子ビットであることが期待されるダイヤモンド(いわゆるNV中心)およびウルツ石型窒化アルミニウムのスピン欠陥に対する低エネルギーハミルトニアンを解く。 フォールトトレラント量子コンピュータ(FTQC)時代に使用するために設計された確率的想像時間進化(PITE)法は、有効ハミルトニアンに代表されるスピン一重項状態の基底状態と励起状態を計算するために用いられた。 複数のスレーター行列式で記述すべき密度汎関数理論(DFT)を用いてスピン一重項状態を正確に計算することは困難である。 現在の量子コンピュータに固有の量子エラーの影響を軽減するため、Iceberg符号と呼ばれる$[[n+2,n,2 ]$の量子エラー検出(QED)コードを実装した。 PITEの各ステップにおけるアンシラ量子ビットの測定によるエンコード状態の破壊は避けられないものの,論理的成功状態の復号と復号に成功した。 PITEの実装において、有効ハミルトニアンは対角部と比較的小さな非対角部からなることが観察された。 対角成分が支配的なハミルトンシミュレーションの効率的な実装は、二次トロッタースズキ分解に基づく量子コンピュータ上で開発された。 これは、符号化されたPITE回路が捕捉されたイオン量子コンピュータ上で実行される最初の例である。 その結果、QEDは量子誤差を効果的に低減し、スピン一重項状態の基底状態と励起状態の両方を得ることに成功した。 Zr$_{\rm Al}$V$_{\rm N}$, Ti$_{\rm Al}$V$_{\rm N}$, Hf$_{\rm Al}$V$_{\rm N}$欠陥は量子センサーのスピン量子ビットとして高いポテンシャルを持つ。

In this study, we employed a quantum computer to solve a low-energy effective Hamiltonian for spin defects in diamond (so-called NV centre) and wurtzite-type aluminium nitride, which are anticipated to be qubits. The probabilistic imaginary-time evolution (PITE) method, designed for use in a fault-tolerant quantum computer (FTQC) era, was employed to calculate the ground and excited states of the spin singlet state, as represented by the effective Hamiltonian. It is difficult to compute the spin singlet state correctly using density functional theory (DFT), which should be described by multiple Slater determinants. To mitigate the effects of quantum errors inherent in current quantum computers, we implemented a $[[ n+2,n,2 ]]$ quantum error detection (QED) code called the Iceberg code. Despite the inevitable destruction of the encoded state resulting from the measurement of the ancilla qubit at each PITE step, we were able to successfully re-encode and recover the logical success state. In the implementation of the PITE, it was observed that the effective Hamiltonian comprises large components of the diagonal part and a relatively small non-diagonal part, which is frequently the case with quantum chemistry calculations. An efficient implementation of Hamiltonian simulations, in which the diagonal components dominate, was developed on a quantum computer based on the second-order Trotter-Suzuki decomposition. This is the first instance of an encoded PITE circuit being executed on a trapped-ion quantum computer. Our results demonstrate that QED effectively reduces quantum errors and that we successfully obtained both the ground and excited states of the spin singlet state. Our demonstration clearly manifests that Zr$_{\rm Al}$V$_{\rm N}$, Ti$_{\rm Al}$V$_{\rm N}$, and Hf$_{\rm Al}$V$_{\rm N}$ defects have a high potential as spin qubits for quantum sensors.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# ConTEXTure: テクスチャへの一貫性のあるマルチビューイメージ

ConTEXTure: Consistent Multiview Images to Texture ( http://arxiv.org/abs/2407.10558v1 )

ライセンス: Link先を確認
Jaehoon Ahn, Sumin Cho, Harim Jung, Kibeom Hong, Seonghoon Ban, Moon-Ryul Jung, (参考訳) ConTEXTureは、複数の視点からの画像を用いて、所定の3次元メッシュのテクスチャマップ/アトラスを作成するために設計された生成ネットワークである。 プロセスは、3Dメッシュを記述する"Napoleon, front view"などのテキストプロンプトからフロントビューイメージを生成することから始まります。 異なる視点からの追加画像は、このフロントビューイメージから導き出され、それに対するカメラのポーズが引き起こされる。 ConTEXTureは、テキストプロンプトを6つの視点(例: 'Napoleon, front view' 、 'Napoleon, left view' など)に使用する TEXTure ネットワーク上に構築されている。 しかし、TEXTureは、これらの視点を正確に表現しない非フロント視点の画像を生成することが多く、この問題に対処するために、Zero123++を用いて、6つの特定の視点に対して複数のビュー一貫性のある画像を同時に生成し、最初のフロントビューイメージと6つの視点に対するメッシュの深さマップに条件付けする。 ConTEXTureは、これらのビュー一貫性画像を利用することで、全ての視点画像からテクスチャアトラスを同時に学習する。 このアプローチは、バック、サイド、ボトム、トップを含む様々な視点からのレンダリング画像が、視点の不規則性から解放されることを保証する。

We introduce ConTEXTure, a generative network designed to create a texture map/atlas for a given 3D mesh using images from multiple viewpoints. The process begins with generating a front-view image from a text prompt, such as 'Napoleon, front view', describing the 3D mesh. Additional images from different viewpoints are derived from this front-view image and camera poses relative to it. ConTEXTure builds upon the TEXTure network, which uses text prompts for six viewpoints (e.g., 'Napoleon, front view', 'Napoleon, left view', etc.). However, TEXTure often generates images for non-front viewpoints that do not accurately represent those viewpoints.To address this issue, we employ Zero123++, which generates multiple view-consistent images for the six specified viewpoints simultaneously, conditioned on the initial front-view image and the depth maps of the mesh for the six viewpoints. By utilizing these view-consistent images, ConTEXTure learns the texture atlas from all viewpoint images concurrently, unlike previous methods that do so sequentially. This approach ensures that the rendered images from various viewpoints, including back, side, bottom, and top, are free from viewpoint irregularities.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# 深層学習逆問題によるLIP-CAR-コントラスト剤低減

LIP-CAR: contrast agent reduction by a deep learned inverse problem ( http://arxiv.org/abs/2407.10559v1 )

ライセンス: Link先を確認
Davide Bianchi, Sonia Colombo Serra, Davide Evangelista, Pengpeng Luo, Elena Morotti, Giovanni Valbusa, (参考訳) 医用画像プロトコルにおける造影剤の採用は、正確かつタイムリーな診断に不可欠である。 優れた安全プロファイルによって特徴付けられるが、コントラスト剤の使用には、アレルギー反応の稀なリスク、潜在的な環境影響、患者や医療システムに対する経済的負担など、制限がある。 本研究では,コントラスト剤の投与量を減少させるとともに,視覚的拡張を保ちながらコントラスト剤の投与量を減少させるコントラスト剤還元(CAR)問題に対処する。 CARタスクに関する現在の文献は、完全な画像処理フレームワーク内のディープラーニング技術に基づいている。 これらの技術は、低線量コントラスト剤で取得した画像から高線量画像をデジタル的にシミュレートする。 本稿では,「学習逆問題」 (LIP) アプローチの実現可能性について,最先端文献におけるエンドツーエンドのパラダイムとは対照的に検討する。 具体的には,高線量画像を対応する低線量画像にマッピングするイメージ・ツー・イメージ演算子を学習し,CARタスクを逆問題とする。 次に、正規化された最適化の修正によってこの問題を解決する。 正規化法は、堅牢性と説明可能性を提供するよく確立された数学的手法である。 私たちのアプローチは、これらの厳密なテクニックと最先端のディープラーニングツールを組み合わせています。 本手法の有効性を確認し, シミュレーションした高線量画像の安定性と精度の向上を図った。

The adoption of contrast agents in medical imaging protocols is crucial for accurate and timely diagnosis. While highly effective and characterized by an excellent safety profile, the use of contrast agents has its limitation, including rare risk of allergic reactions, potential environmental impact and economic burdens on patients and healthcare systems. In this work, we address the contrast agent reduction (CAR) problem, which involves reducing the administered dosage of contrast agent while preserving the visual enhancement. The current literature on the CAR task is based on deep learning techniques within a fully image processing framework. These techniques digitally simulate high-dose images from images acquired with a low dose of contrast agent. We investigate the feasibility of a ``learned inverse problem'' (LIP) approach, as opposed to the end-to-end paradigm in the state-of-the-art literature. Specifically, we learn the image-to-image operator that maps high-dose images to their corresponding low-dose counterparts, and we frame the CAR task as an inverse problem. We then solve this problem through a regularized optimization reformulation. Regularization methods are well-established mathematical techniques that offer robustness and explainability. Our approach combines these rigorous techniques with cutting-edge deep learning tools. Numerical experiments performed on pre-clinical medical images confirm the effectiveness of this strategy, showing improved stability and accuracy in the simulated high-dose images.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# Pathformer3D:360度画像のための3Dスキャンパス変換器

Pathformer3D: A 3D Scanpath Transformer for 360° Images ( http://arxiv.org/abs/2407.10563v1 )

ライセンス: Link先を確認
Rong Quan, Yantao Lai, Mengyu Qiu, Dong Liang, (参考訳) 360{\deg}イメージのスキャンパス予測は、バーチャル/拡張現実アプリケーションにおける高速なレンダリングとより良いユーザインタラクションを実現するのに役立つ。 しかし、既存の360{\deg}画像のスキャンパス予測モデルは、2次元の正方形射影平面上でスキャンパス予測を実行するため、常に2次元平面の歪みと座標の不連続により大きな計算誤差が発生する。 本研究では,3次元球面座標系における360{\deg}画像の走査パス予測を行い,新しい3次元走査パス変換器Pathformer3Dを提案する。 具体的には、まず3Dトランスフォーマーエンコーダを使用して、360{\deg}画像の3Dコンテキスト特徴表現を抽出する。 そして、コンテクスト特徴表現と履歴固定情報をトランスフォーマーデコーダに入力し、現在の時間ステップの固定埋め込みを出力し、自己注意モジュールを使用して人間の視覚系の視覚的動作記憶機構を模倣し、固定間の時間依存性を直接モデル化する。 最後に、各固定埋め込みから3次元ガウス分布を学習し、そこから固定位置をサンプリングすることができる。 4つのパノラマ眼球追跡データセットの評価は、Pathformer3Dが現在の最先端手法よりも優れていることを示している。 コードはhttps://github.com/lsztzp/Pathformer3Dで入手できる。

Scanpath prediction in 360{\deg} images can help realize rapid rendering and better user interaction in Virtual/Augmented Reality applications. However, existing scanpath prediction models for 360{\deg} images execute scanpath prediction on 2D equirectangular projection plane, which always result in big computation error owing to the 2D plane's distortion and coordinate discontinuity. In this work, we perform scanpath prediction for 360{\deg} images in 3D spherical coordinate system and proposed a novel 3D scanpath Transformer named Pathformer3D. Specifically, a 3D Transformer encoder is first used to extract 3D contextual feature representation for the 360{\deg} image. Then, the contextual feature representation and historical fixation information are input into a Transformer decoder to output current time step's fixation embedding, where the self-attention module is used to imitate the visual working memory mechanism of human visual system and directly model the time dependencies among the fixations. Finally, a 3D Gaussian distribution is learned from each fixation embedding, from which the fixation position can be sampled. Evaluation on four panoramic eye-tracking datasets demonstrates that Pathformer3D outperforms the current state-of-the-art methods. Code is available at https://github.com/lsztzp/Pathformer3D .
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# PULPo:確率論的に教師なしのラプラシアンピラミッド登録

PULPo: Probabilistic Unsupervised Laplacian Pyramid Registration ( http://arxiv.org/abs/2407.10567v1 )

ライセンス: Link先を確認
Leonard Siegert, Paul Fischer, Mattias P. Heinrich, Christian F. Baumgartner, (参考訳) 変形可能な画像登録は多くの医療画像応用に基礎がある。 登録は本質的にあいまいな作業であり、多くの実行可能なソリューションを許可することが多い。 ニューラルネットワークベースの登録技術は、高速かつ正確な登録を可能にするが、既存のアプローチの大部分は、不確実性を見積もることができない。 本稿では不確実な定量化が可能な確率的変形可能な登録法であるPULPoを提案する。 PULPoはラプラシアピラミッドを用いて、異なる階層レベルの変形場の分布を確率論的にモデル化する。 これにより、変形場の局所的な側面と同様に、大域的にモデル化することができる。 提案手法を広範に使用している2つのニューロイメージングデータセット上で評価した結果,登録性能が向上し,現在の最先端技術と比較して精度の高いキャリブレーション不確実性定量化が可能であることが判明した。

Deformable image registration is fundamental to many medical imaging applications. Registration is an inherently ambiguous task often admitting many viable solutions. While neural network-based registration techniques enable fast and accurate registration, the majority of existing approaches are not able to estimate uncertainty. Here, we present PULPo, a method for probabilistic deformable registration capable of uncertainty quantification. PULPo probabilistically models the distribution of deformation fields on different hierarchical levels combining them using Laplacian pyramids. This allows our method to model global as well as local aspects of the deformation field. We evaluate our method on two widely used neuroimaging datasets and find that it achieves high registration performance as well as substantially better calibrated uncertainty quantification compared to the current state-of-the-art.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# CNNを用いた乳癌分類のためのスタッキング強化バッグアンサンブル学習

Stacking-Enhanced Bagging Ensemble Learning for Breast Cancer Classification with CNN ( http://arxiv.org/abs/2407.10574v1 )

ライセンス: Link先を確認
Peihceng Wu, Runze Ma, Teoh Teik Toe, (参考訳) 本稿では,乳がん分類のためのBaggingおよびスタックングアンサンブル学習手法に基づくCNN分類ネットワークを提案する。 このモデルはDDSMの公開データセットでトレーニングされ、テストされた。 このモデルは入力画像の高速かつ正確な分類を行うことができる。 以上の結果から, 2値分類では98.84%, 5値分類では98.34%であった。 また、マイクロ平均リコール率は94.80%、F1スコアは94.19%に達した。 比較実験では, モデルに対するバギング_ratioとn_modelの異なる値の影響と, アンサンブルバギングモデルに対するいくつかの手法を比較した。 さらに、同じパラメータ設定で、我々のBSECNNはVGG16とResNet-50をそれぞれ8.22%と6.33%の精度で上回った。

This paper proposes a CNN classification network based on Bagging and stacking ensemble learning methods for breast cancer classification. The model was trained and tested on the public dataset of DDSM. The model is capable of fast and accurate classification of input images. According to our research results, for binary classification (presence or absence of breast cancer), the accuracy reached 98.84%, and for five-class classification, the accuracy reached 98.34%. The model also achieved a micro-average recall rate of 94.80% and an F1 score of 94.19%. In comparative experiments, we compared the effects of different values of bagging_ratio and n_models on the model, as well as several methods for ensemble bagging models. Furthermore, under the same parameter settings, our BSECNN outperformed VGG16 and ResNet-50 in terms of accuracy by 8.22% and 6.33% respectively.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# AI生成したビジュアルメディアに対する防御に関する調査--検出・破壊・認証

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication ( http://arxiv.org/abs/2407.10575v1 )

ライセンス: Link先を確認
Jingyi Deng, Chenhao Lin, Zhengyu Zhao, Shuai Liu, Qian Wang, Chao Shen, (参考訳) 深層生成モデルは、画像合成、ビデオ生成、医療分析など、様々なコンピュータビジョンアプリケーションで顕著な性能を示している。 その顕著な進歩にもかかわらず、これらのモデルは偽情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。 本稿では,AI生成した視覚メディアに対する防御研究の体系的かつタイムリーなレビューを行い,検出,破壊,認証について述べる。 我々は既存の手法を概観し、主要な防衛関連タスクを統一された受動的・積極的な枠組みで要約する。 さらに,その堅牢性や公正性など,防衛の信頼性に関するデリバティブな課題を調査した。 各タスクに対して、その一般的なパイプラインを定式化し、第一のサブタスクに一様に適用可能な方法論的戦略に基づく分類法を提案する。 さらに、一般的に使われている評価データセット、基準、メトリクスを要約する。 最後に、レビューされた研究を分析し、現在の研究課題についての洞察を提供し、今後の研究の方向性を提案する。

Deep generative models have demonstrated impressive performance in various computer vision applications, including image synthesis, video generation, and medical analysis. Despite their significant advancements, these models may be used for malicious purposes, such as misinformation, deception, and copyright violation. In this paper, we provide a systematic and timely review of research efforts on defenses against AI-generated visual media, covering detection, disruption, and authentication. We review existing methods and summarize the mainstream defense-related tasks within a unified passive and proactive framework. Moreover, we survey the derivative tasks concerning the trustworthiness of defenses, such as their robustness and fairness. For each task, we formulate its general pipeline and propose a taxonomy based on methodological strategies that are uniformly applicable to the primary subtasks. Additionally, we summarize the commonly used evaluation datasets, criteria, and metrics. Finally, by analyzing the reviewed studies, we provide insights into current research challenges and suggest possible directions for future research.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# 持続的でエネルギー効率の良い機械学習に向けたハイブリッドインテリジェンスを活用する

Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning ( http://arxiv.org/abs/2407.10580v1 )

ライセンス: Link先を確認
Daniel Geissler, Paul Lukowicz, (参考訳) ハイブリッドインテリジェンスは、人間の認知能力と人工知能の両方の強みを組み合わせることで、意思決定、問題解決、システム全体のパフォーマンスを向上させることを目的としている。 機械学習開発を加速するスマートエージェントとして徐々に参加するLarge Language Models(LLM)の台頭により、ハイブリッドインテリジェンスは人間とマシンの効果的なインタラクションにおいて、ますます重要なトピックになりつつある。 本稿では,ハイブリット・インテリジェンス(Hybrid Intelligence)を,持続的でエネルギーを意識した機械学習に活用するためのアプローチを提案する。 機械学習モデルを開発する際、最終モデルの性能は最適化プロセスをよく規定するが、プロセス自体の効率は無視されることが多い。 さらに、近年では、複雑で大規模な計算プロセスの環境影響により、エネルギー効率が等しく重要になっている。 本研究の貢献は,Human-in-the-loop (HITL) と LLM エージェントを介し,機械学習開発プロセスにおける非効率性をさらに解決するために,二次的知識源を相互に取り入れることである。

Hybrid intelligence aims to enhance decision-making, problem-solving, and overall system performance by combining the strengths of both, human cognitive abilities and artificial intelligence. With the rise of Large Language Models (LLM), progressively participating as smart agents to accelerate machine learning development, Hybrid Intelligence is becoming an increasingly important topic for effective interaction between humans and machines. This paper presents an approach to leverage Hybrid Intelligence towards sustainable and energy-aware machine learning. When developing machine learning models, final model performance commonly rules the optimization process while the efficiency of the process itself is often neglected. Moreover, in recent times, energy efficiency has become equally crucial due to the significant environmental impact of complex and large-scale computational processes. The contribution of this work covers the interactive inclusion of secondary knowledge sources through Human-in-the-loop (HITL) and LLM agents to stress out and further resolve inefficiencies in the machine learning development process.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# LLMを用いた効率的なデータ選択によるゼロショットクロスリンガル性能の向上

Boosting Zero-Shot Crosslingual Performance using LLM-Based Augmentations with Effective Data Selection ( http://arxiv.org/abs/2407.10582v1 )

ライセンス: Link先を確認
Barah Fazili, Ashish Sunil Agrawal, Preethi Jyothi, (参考訳) 大きな言語モデル(LLM)は、非常に熟練したテキストジェネレータである。 LLMのこの能力を利用してゼロショットプロンプトによるタスク固有のデータを生成し、低リソースターゲット言語に対する言語間転送を促進する。 このデータに基づいて訓練されたソース言語におけるタスク固有データと教師モデルから、この教師を用いてLCM世代をラベル付けし、教師のラベルの確率を利用する単純なデータ選択戦略のセットを採用することを提案する。 我々のデータ選択戦略は、(サブセットの選択なしで)全てのLLM世代を使用するのと比較して、効率的なゼロショット精度を高めるのに役立つ多様な世代の代表的なサブセットを特定するのに役立ちます。 また、ソースデータの翻訳やLLM世代に最適なラベルなど、言語間パフォーマンスに影響を与える重要な設計選択についても強調する。 感情分析や自然言語推論タスク(最大7.13の絶対点と平均1.5の絶対点)を対象言語(ヒンディー語、マラティー語、ウルドゥー語、スワヒリ語)とドメインで比較した。

Large language models (LLMs) are very proficient text generators. We leverage this capability of LLMs to generate task-specific data via zero-shot prompting and promote cross-lingual transfer for low-resource target languages. Given task-specific data in a source language and a teacher model trained on this data, we propose using this teacher to label LLM generations and employ a set of simple data selection strategies that use the teacher's label probabilities. Our data selection strategies help us identify a representative subset of diverse generations that help boost zero-shot accuracies while being efficient, in comparison to using all the LLM generations (without any subset selection). We also highlight other important design choices that affect cross-lingual performance such as the use of translations of source data and what labels are best to use for the LLM generations. We observe significant performance gains across sentiment analysis and natural language inference tasks (of up to a maximum of 7.13 absolute points and 1.5 absolute points on average) across a number of target languages (Hindi, Marathi, Urdu, Swahili) and domains.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# 強化学習の3つのドッグマ

Three Dogmas of Reinforcement Learning ( http://arxiv.org/abs/2407.10583v1 )

ライセンス: Link先を確認
David Abel, Mark K. Ho, Anna Harutyunyan, (参考訳) 現代の強化学習は、少なくとも3つのドッグマによって条件付けられている。 ひとつは環境スポットライトであり、エージェントではなく環境をモデリングする傾向を示している。 2つ目は、適応ではなく、タスクの解決策を見つけるものとしての学習の扱いです。 3つ目は報酬仮説であり、すべての目標と目的は報酬信号の最大化とよく考えることができる。 これら3つのドッグマは、強化学習の科学と考えるものの多くを形作っている。 それぞれのドッグマは、フィールドの開発において重要な役割を担ってきたが、我々はそれらを表面に持ち込み、それが我々の科学パラダイムの基本的な要素であるかどうかを反映する時が来た。 知的エージェント研究の正統的な枠組みとしての強化学習の可能性を実現するため,我々はドグマを1つと2つ完全に取り除き,第3のアプローチを受け入れるべき時が来たことを示唆する。

Modern reinforcement learning has been conditioned by at least three dogmas. The first is the environment spotlight, which refers to our tendency to focus on modeling environments rather than agents. The second is our treatment of learning as finding the solution to a task, rather than adaptation. The third is the reward hypothesis, which states that all goals and purposes can be well thought of as maximization of a reward signal. These three dogmas shape much of what we think of as the science of reinforcement learning. While each of the dogmas have played an important role in developing the field, it is time we bring them to the surface and reflect on whether they belong as basic ingredients of our scientific paradigm. In order to realize the potential of reinforcement learning as a canonical frame for researching intelligent agents, we suggest that it is time we shed dogmas one and two entirely, and embrace a nuanced approach to the third.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# COSMU:単眼非拘束画像からの完全な3次元人体形状

COSMU: Complete 3D human shape from monocular unconstrained images ( http://arxiv.org/abs/2407.10586v1 )

ライセンス: Link先を確認
Marco Pesavento, Marco Volino, Adrian Hilton, (参考訳) 本研究では,モノクラー非拘束画像を利用して,対象画像から完全な3次元人物形状を復元する新しい枠組みを提案する。 本研究の目的は、入力対象に見えない再建された人体の領域において、高品質な詳細を再現することである。 提案手法は,物体領域の形状を再現できない1つの画像から3次元形状を復元するための既存のアプローチの限界に対処する。 複数のカメラから取得した複数のビューを使用して、単眼入力の欠落情報を復元することができる。 しかし、マルチビュー再構成手法は正確な校正・登録画像を必要とするため、現実のシナリオでは入手が困難である。 対象のRGB画像と同一人物の複数の未校正・未登録画像のコレクションを1台のカメラで取得し,完全な3次元形状を生成する新しい枠組みを提案する。 対象の入力画像に登録された人物の2次元多視点正規マップを生成するための新しいモジュールを提案する。 モジュールは、ボディ部分ベースの参照選択とボディ部分ベースの登録で構成される。 生成された2次元の正規地図は、多視点の注意に基づくニューラル暗黙のモデルによって処理され、3次元の形状の暗黙的な表現を推定し、観察された領域と閉鎖された領域の細部を再現する。 提案手法は, パラメトリックモデルを用いることなく, 3次元布地形状の非可視領域における高品質の細部を推定できることを示した。

We present a novel framework to reconstruct complete 3D human shapes from a given target image by leveraging monocular unconstrained images. The objective of this work is to reproduce high-quality details in regions of the reconstructed human body that are not visible in the input target. The proposed methodology addresses the limitations of existing approaches for reconstructing 3D human shapes from a single image, which cannot reproduce shape details in occluded body regions. The missing information of the monocular input can be recovered by using multiple views captured from multiple cameras. However, multi-view reconstruction methods necessitate accurately calibrated and registered images, which can be challenging to obtain in real-world scenarios. Given a target RGB image and a collection of multiple uncalibrated and unregistered images of the same individual, acquired using a single camera, we propose a novel framework to generate complete 3D human shapes. We introduce a novel module to generate 2D multi-view normal maps of the person registered with the target input image. The module consists of body part-based reference selection and body part-based registration. The generated 2D normal maps are then processed by a multi-view attention-based neural implicit model that estimates an implicit representation of the 3D shape, ensuring the reproduction of details in both observed and occluded regions. Extensive experiments demonstrate that the proposed approach estimates higher quality details in the non-visible regions of the 3D clothed human shapes compared to related methods, without using parametric models.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# メッセージはMedium: セキュアなメッセージングアプリがプッシュ通知サービスに機密データをリークする方法

The Medium is the Message: How Secure Messaging Apps Leak Sensitive Data to Push Notification Services ( http://arxiv.org/abs/2407.10589v1 )

ライセンス: Link先を確認
Nikita Samarin, Alex Sanchez, Trinity Chung, Akshay Dan Bhavish Juleemun, Conor Gilsenan, Nick Merrill, Joel Reardon, Serge Egelman, (参考訳) ほとんどのモダンなソフトウェアと同様に、セキュアなメッセージングアプリは重要なアプリ機能を実装するためにサードパーティのコンポーネントに依存している。 このプラクティスはエンジニアリングコストを削減しますが、設定ミスや不完全なドキュメントによる不注意なプライバシー侵害のリスクも伴います。 我々の研究では、Androidデバイスにプッシュ通知を送信するために、セキュアなメッセージングアプリによるGoogleのFirebase Cloud Messaging(FCM)サービスの使用について調査した。 われわれはGoogle Play Storeから人気の高い21のセキュアメッセージングアプリを分析し、FCM経由で送られたプッシュ通知のペイロードにリークする個人情報を判定した。 これらのアプリのうち、ユーザー識別子(10アプリ)、送信者または受信者名(7アプリ)、電話番号(2アプリ)を含む11のメタデータがリークされ、4つのアプリが実際のメッセージコンテンツをリークした。 さらに、私たちがFCMにリークしたデータはすべて、これらのアプリのプライバシー開示で具体的には公開されていません。 また、このプライバシー漏洩をFCMに緩和するための戦略を駆使したいくつかのアプリが、さまざまなレベルの成功を収めていることもわかりました。 私たちが特定した戦略の中で、共通性、共有性、あるいは支持度の高いものはありませんでした。 インセンティブは、プラットフォームやSDKプロバイダをモチベーションとして、デフォルトでシステムをセキュアかつプライベートにするために、正しく整列する必要があります。

Like most modern software, secure messaging apps rely on third-party components to implement important app functionality. Although this practice reduces engineering costs, it also introduces the risk of inadvertent privacy breaches due to misconfiguration errors or incomplete documentation. Our research investigated secure messaging apps' usage of Google's Firebase Cloud Messaging (FCM) service to send push notifications to Android devices. We analyzed 21 popular secure messaging apps from the Google Play Store to determine what personal information these apps leak in the payload of push notifications sent via FCM. Of these apps, 11 leaked metadata, including user identifiers (10 apps), sender or recipient names (7 apps), and phone numbers (2 apps), while 4 apps leaked the actual message content. Furthermore, none of the data we observed being leaked to FCM was specifically disclosed in those apps' privacy disclosures. We also found several apps employing strategies to mitigate this privacy leakage to FCM, with varying levels of success. Of the strategies we identified, none appeared to be common, shared, or well-supported. We argue that this is fundamentally an economics problem: incentives need to be correctly aligned to motivate platforms and SDK providers to make their systems secure and private by default.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# 歩行分析におけるDeep-Learning-based Markerless Pose Estimation System:DeepLabCut Custom Training and the Refinement Function

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function ( http://arxiv.org/abs/2407.10590v1 )

ライセンス: Link先を確認
Giulia Panconi, Stefano Grasso, Sara Guarducci, Lorenzo Mucchi, Diego Minciacchi, Riccardo Bravi, (参考訳) 人間の動きを研究するための現在の金の標準は、高精度だがコストや制御された環境に制約のあるマーカーベースのモーションキャプチャシステムである。 マーカレスポーズ推定システムは生態的な代替手段として登場し、自然環境における邪魔にならないデータ取得を可能にする。 本研究では,OpenPose (OP) とDeepLabCut (DLC) の2種類のマーカーレスシステムの性能を比較した。 健康な被験者40人が4つの力台とカメラを備えた5メートルの通路を歩いた。 OP BODY 25 Pre-Trained model (OPPT), DLC Model Zoo full human Pre-Trained model (DLCPT), DLC Custom-Trained model (DLCCT) を用いて歩行パラメータを求め, 実測系として得られたものと比較した。 DLCCTはDLCPTとOPPTより優れており、DeepLabCut転送学習を活用して、カスタムトレーニングニューラルネットワークによるポーズ推定性能を高めることの重要性を強調した。 さらに、DLCCTは、DLCリファインメント機能を実装しており、ロコモーションを評価するための最も有望なマーカーレスポーズ推定ソリューションを提供する。 そこで本研究では,DLCのトレーニングおよび改善プロセスについて,最適な性能を達成するために必要な知見を提供する。 本研究は, 臨床医や臨床医が, 実験室環境を超えて, 正確な移動評価を行うための, 低コストな方法を模索する上での視点を提供するものである。

The current gold standard for the study of human movement is the marker-based motion capture system that offers high precision but constrained by costs and controlled environments. Markerless pose estimation systems emerge as ecological alternatives, allowing unobtrusive data acquisition in natural settings. This study compares the performance of two popular markerless systems, OpenPose (OP) and DeepLabCut (DLC), in assessing locomotion. Forty healthy subjects walked along a 5 meters walkway equipped with four force platforms and a camera. Gait parameters were obtained using OP BODY 25 Pre-Trained model (OPPT), DLC Model Zoo full human Pre-Trained model (DLCPT) and DLC Custom-Trained model (DLCCT), then compared with those acquired from the force platforms as reference system. Our results demonstrated that DLCCT outperformed DLCPT and OPPT, highlighting the importance of leveraging DeepLabCut transfer learning to enhance the pose estimation performance with a custom-trained neural networks. Moreover, DLCCT, with the implementation of the DLC refinement function, offers the most promising markerless pose estimation solution for evaluating locomotion. Therefore, our data provide insights into the DLC training and refinement processes required to achieve optimal performance. This study offers perspectives for clinicians and practitioners seeking accurate low-cost methods for movement assessment beyond laboratory settings.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# InsertDiffusion: トレーニング不要な拡散アーキテクチャによるオブジェクトのアイデンティティ保持

InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture ( http://arxiv.org/abs/2407.10592v1 )

ライセンス: Link先を確認
Phillip Mueller, Jannik Wiese, Ioan Craciun, Lars Mikelsons, (参考訳) 画像合成の最近の進歩は、大規模な拡散モデルの出現によって加速されている。 しかし、広範囲のトレーニングなしに、現実的なオブジェクト視覚化を新しい、あるいは既存のバックグラウンドにシームレスに統合することは、依然として課題である。 本稿では,InsertDiffusionについて紹介する。InsertDiffusionは,画像にオブジェクトを効率よく埋め込むとともに,その構造的およびアイデンティティ的特性を保ちながら,オブジェクトを画像に埋め込む,新しい自由拡散アーキテクチャである。 当社のアプローチでは,既製の生成モデルを活用し,微調整の必要性を排除し,製品設計やマーケティングにおいて,迅速かつ適応可能な視覚化を実現する。 画像リアリズムと入力条件との整合性の観点から,既存の手法よりも優れた性能を示す。 生成タスクを独立したステップに分解することで、InsertDiffusionは、実用的なアプリケーションのための拡散モデルの能力を拡張するスケーラブルなソリューションを提供する。

Recent advancements in image synthesis are fueled by the advent of large-scale diffusion models. Yet, integrating realistic object visualizations seamlessly into new or existing backgrounds without extensive training remains a challenge. This paper introduces InsertDiffusion, a novel, training-free diffusion architecture that efficiently embeds objects into images while preserving their structural and identity characteristics. Our approach utilizes off-the-shelf generative models and eliminates the need for fine-tuning, making it ideal for rapid and adaptable visualizations in product design and marketing. We demonstrate superior performance over existing methods in terms of image realism and alignment with input conditions. By decomposing the generation task into independent steps, InsertDiffusion offers a scalable solution that extends the capabilities of diffusion models for practical applications, achieving high-quality visualizations that maintain the authenticity of the original objects.
翻訳日:2024-07-16 15:40:56 公開日:2024-07-15
# 移動ロボットの階層的位置決めにおけるCNNモデルとデータ拡張手法の評価

An evaluation of CNN models and data augmentation techniques in hierarchical localization of mobile robots ( http://arxiv.org/abs/2407.10596v1 )

ライセンス: Link先を確認
J. J. Cabrera, O. J. Céspedes, S. Cebollada, O. Reinoso, L. Payá, (参考訳) 本研究では,CNNモデルの評価とデータ拡張を行い,全方位画像を用いて移動ロボットの階層的位置決めを行う。 この意味では、バックボーンとして使用される様々な最先端CNNモデルのアブレーション研究を行い、ロボットの視覚的位置付けに対処するために、様々なデータ拡張視覚効果を提案する。 提案手法は,CNNの2つの目的による適応と再学習に基づいて,(1)画像が捕捉された部屋の予測にモデルを使用する粗いローカライゼーションステップを実行すること,(2)CNNの中間層から得られたディクリプタ間のペア比較により,予め予測された部屋に含まれる視覚地図の最も類似した画像を取得することからなる微妙なローカライゼーションステップに対処すること,である。 この意味で、提案するローカライゼーションに対処するために、ConvNeXtのような様々な最先端CNNモデルが与える影響を評価する。 最後に、モデルのトレーニングには、さまざまなデータ拡張視覚効果が別々に採用され、その影響が評価される。 その結果,照明条件の変化を含む実動作条件下でのCNNの性能評価を行った。 私たちのコードはプロジェクトのWebサイトhttps://github.com/juanjo-cabrera/IndoorLocalizationSingleCNN.gitで公開されています。

This work presents an evaluation of CNN models and data augmentation to carry out the hierarchical localization of a mobile robot by using omnidireccional images. In this sense, an ablation study of different state-of-the-art CNN models used as backbone is presented and a variety of data augmentation visual effects are proposed for addressing the visual localization of the robot. The proposed method is based on the adaption and re-training of a CNN with a dual purpose: (1) to perform a rough localization step in which the model is used to predict the room from which an image was captured, and (2) to address the fine localization step, which consists in retrieving the most similar image of the visual map among those contained in the previously predicted room by means of a pairwise comparison between descriptors obtained from an intermediate layer of the CNN. In this sense, we evaluate the impact of different state-of-the-art CNN models such as ConvNeXt for addressing the proposed localization. Finally, a variety of data augmentation visual effects are separately employed for training the model and their impact is assessed. The performance of the resulting CNNs is evaluated under real operation conditions, including changes in the lighting conditions. Our code is publicly available on the project website https://github.com/juanjo-cabrera/IndoorLocalizationSingleCNN.git
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# Dzyaloshinskii-Moriya相互作用による外部磁場中に位置する量子四重項系における負性度規準の解析

Analyzing negativity criterion in qubit-qutrit system located in external magnetic fields with the Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2407.10601v1 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) この研究は、XXX等方的ハイゼンベルクモデルと異方的XYZモデルの両方の複雑な力学に従えば、キュービット・キュートリット系によって現れる複雑な絡み合いのダイナミクスを考察する。 これらのモデルは、ジアロシンスキー・モリヤ相互作用(DM)と外部磁場の存在によって豊かになり、量子現象の複雑な相互作用を生み出す。 探査はスピンコヒーレント状態の重ね合わせで系を初期化し、時間とともに絡み合う進化の微妙な解析のステージを設定することで開始する。 エンタングルメント評価のための中心的基準として負性度法を用いて, DM相互作用, 外部磁場, およびこの複合系内のエンタングルメントダイナミクスの微妙な関係について考察する。 この包括的調査を通じて、これらの基本的な要素の相互作用から生じる複雑なダイナミクスや振る舞いを解明し、この文脈における量子エンタングルメントを規定する基礎原理に光を当てることを目指している。

This investigation delves into the intricate entanglement dynamics exhibited by qubit-qutrit systems when subjected to the intricate dynamics of both the XXX isotropic Heisenberg model and the anisotropic XYZ model. These models are enriched by the presence of Dzyaloshinskii-Moriya (DM) interactions and external magnetic fields, creating a complex interplay of quantum phenomena. The exploration commences by initializing the system in a superposition of spin-coherent states, setting the stage for a nuanced analysis of entanglement evolution over time. By employing the negativity metric as the pivotal criterion for assessing entanglement, we gain insights into the subtle relationships between DM interactions, external magnetic fields, and the entanglement dynamics within this composite system. Through this comprehensive investigation, we aim to unravel the intricate dynamics and behaviors that emerge from the interplay of these fundamental elements, shedding light on the underlying principles governing quantum entanglement in this context.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 知識蒸留における知識の欠如:実データを用いたコードスイッチングASRの実用的で効果的な知識蒸留を目指して

Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data ( http://arxiv.org/abs/2407.10603v1 )

ライセンス: Link先を確認
Liang-Hsuan Tseng, Zih-Ching Chen, Wei-Shun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee, (参考訳) 音声認識(ASR)の最近の進歩は、しばしば高品質な転写を生成するために大きな音声基盤モデルに依存している。 しかし、これらのモデルは限られた計算資源のために実用的ではない。 この状況は、コードスイッチングASR(CS-ASR)のような、より現実的で難しいシナリオにおいてさらに深刻である。 そこで本研究では,現実的な音声のみのデータを用いた知識蒸留によるCS-ASRのより効率的なモデル開発のためのフレームワークを提案する。 提案手法は, 教師モデルの知識と, 小さな補助モデルからの知見を両立させ, 知識蒸留(K$^2$D)における知識の欠如を解消する。 2つのドメイン内データセットと2つのドメイン外データセットに対するアプローチを評価し、K$^2$Dが有効であることを示す。 K$^2$Dをラベルのない現実的なデータに対して実施することにより、ベースライン法と教師モデルを全てのテストセットで上回りながら、5倍高速な生成速度を持つ2倍の小さなモデルを得ることに成功した。 私たちはHugging Face(https://huggingface.co/andybi7676/k2d-whisper.zh-en)でモデルを公開しました。

Recent advances in automatic speech recognition (ASR) often rely on large speech foundation models for generating high-quality transcriptions. However, these models can be impractical due to limited computing resources. The situation is even more severe in terms of more realistic or difficult scenarios, such as code-switching ASR (CS-ASR). To address this, we present a framework for developing more efficient models for CS-ASR through knowledge distillation using realistic speech-only data. Our proposed method, Leave No Knowledge Behind During Knowledge Distillation (K$^2$D), leverages both the teacher model's knowledge and additional insights from a small auxiliary model. We evaluate our approach on two in-domain and two out-domain datasets, demonstrating that K$^2$D is effective. By conducting K$^2$D on the unlabeled realistic data, we have successfully obtained a 2-time smaller model with 5-time faster generation speed while outperforming the baseline methods and the teacher model on all the testing sets. We have made our model publicly available on Hugging Face (https://huggingface.co/andybi7676/k2d-whisper.zh-en).
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 分散導波路における量子ビットの空間的アドレス化

Spatial Addressing of Qubits in a Dispersive Waveguide ( http://arxiv.org/abs/2407.10617v1 )

ライセンス: Link先を確認
Maximilian Zanner, Romain Albert, Eric I. Rosenthal, Silvia Casulleras, Ian Yang, Christian M. F. Schneider, Oriol Romero-Isart, Gerhard Kirchmair, (参考訳) 電磁場と相互作用する原子系の研究である導波管量子力学は、光と物質の間の複雑な相互作用を理解するための強力なプラットフォームである。 量子制御はこの分野で欠かせないツールであり、ほとんどの実験は特定の周波数で量子ビットと相互作用する狭帯域電磁波に焦点を当てている。 しかし、この相互作用は、分散のような導波路特性がパルスの進化と量子ビットへの影響に影響を与えるため、高速でブロードバンドなパルスと大きく変化する。 ここでは、マイクロ波導波路内のサブ波長距離で分離された超伝導量子ビットの空間アドレス化を実現するために分散を用いる。 この新しいアプローチは、パルスと量子ビットの間の位置依存的な相互作用を生み出すために自己焦点効果に依存する。 この実験は、量子実験の設計と解析における分散の重要性を強調し、量子状態の迅速な制御のための新しい道を提供する。

Waveguide quantum electrodynamics, the study of atomic systems interacting with propagating electromagnetic fields, is a powerful platform for understanding the complex interplay between light and matter. Qubit control is an indispensable tool in this field, and most experiments have so far focused on narrowband electromagnetic waves that interact with qubits at specific frequencies. This interaction, however, changes significantly with fast, broadband pulses, as waveguide properties like dispersion affect the pulse evolution and its impact on the qubit. Here, we use dispersion to achieve spatial addressing of superconducting qubits separated by a sub-wavelength distance within a microwave waveguide. This novel approach relies on a self-focusing effect to create a position-dependent interaction between the pulse and the qubits. This experiment emphasizes the importance of dispersion in the design and analysis of quantum experiments, and offers new avenues for the rapid control of quantum states.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# WildVidFit:画像に基づく拡散モデルによる野生での仮想トライオン

WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models ( http://arxiv.org/abs/2407.10625v1 )

ライセンス: Link先を確認
Zijian He, Peixin Chen, Guangrun Wang, Guanbin Li, Philip H. S. Torr, Liang Lin, (参考訳) ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。 従来の画像ベースの手法は、ワープとブレンディングに依存し、複雑な人間の動きや閉塞に苦しむ。 さらに、ビデオベースのモデルは、広範囲で高品質なデータと相当な計算資源を必要とする。 これらの課題に対処するため、我々は、衣料品の説明や人間の動きに合わせた映像を生成する過程として、ビデオ試行を再認識する。 私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。 このモデルは特定の衣服や個人に設定されており、ビデオではなく静止画で訓練されている。 セグメントの滑らか性向上のためのビデオマスク付きオートエンコーダや、隣接フレームの潜在空間における特徴アライメントのための自己教師付きモデルなど、事前訓練されたモデルからの拡散誘導を利用する。 この統合により、時間的コヒーレンスを維持するモデルの能力が著しく向上し、画像ベースのフレームワーク内でより効果的なビデオトライオンが可能になる。 VITON-HDとDressCodeのデータセットに関する我々の実験は、VVTとTikTokのデータセットに関するテストとともに、流体とコヒーレントなビデオを生成するWildVidFitの能力を実証している。 プロジェクトページのウェブサイトは wildvidfit-project.github.io にある。

Video virtual try-on aims to generate realistic sequences that maintain garment identity and adapt to a person's pose and body shape in source videos. Traditional image-based methods, relying on warping and blending, struggle with complex human movements and occlusions, limiting their effectiveness in video try-on applications. Moreover, video-based models require extensive, high-quality data and substantial computational resources. To tackle these issues, we reconceptualize video try-on as a process of generating videos conditioned on garment descriptions and human motion. Our solution, WildVidFit, employs image-based controlled diffusion models for a streamlined, one-stage approach. This model, conditioned on specific garments and individuals, is trained on still images rather than videos. It leverages diffusion guidance from pre-trained models including a video masked autoencoder for segment smoothness improvement and a self-supervised model for feature alignment of adjacent frame in the latent space. This integration markedly boosts the model's ability to maintain temporal coherence, enabling more effective video try-on within an image-based framework. Our experiments on the VITON-HD and DressCode datasets, along with tests on the VVT and TikTok datasets, demonstrate WildVidFit's capability to generate fluid and coherent videos. The project page website is at wildvidfit-project.github.io.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# NoviCode: 初心者による自然言語の発話からプログラムを生成する

NoviCode: Generating Programs from Natural Language Utterances by Novices ( http://arxiv.org/abs/2407.10626v1 )

ライセンス: Link先を確認
Asaf Achi Mordechai, Yoav Goldberg, Reut Tsarfaty, (参考訳) 現在のText-to-Codeモデルは、自然言語スニペットから実行可能なコードを生成する素晴らしい機能を示している。 しかし、近年の研究では、技術的な指示やプログラマ指向言語に焦点をあてており、これらのモデルが、非技術的ユーザによる自然言語記述を効果的に翻訳し、複雑な目標を表現できるかどうか、複雑なフローを含む実行可能プログラム(APIアクセスと制御構造をループとしてループ、条件、シーケンスとして構成する)に翻訳できるかどうか、疑問視されている。 非技術的記述から完全なプログラムを生成するという課題を解き明かすため,新しいNLプログラミングタスクであるNoviCodeを紹介した。 このタスクにおけるモデルの有効性を評価するために,生成したプログラムコードをその形式ではなく機能的実行に応じて評価するテストスイートを伴って,新しいベンチマークを提案する。 我々の実験によると、まず最初に、NoviCodeはコード合成領域における挑戦的なタスクであり、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを越えている。 第2に,NL音声をコードの構成階層構造に整合させることにより,このタスクにおけるLLMの性能を,エンドツーエンドのText-to-Codeに比べて大幅に向上させる手法を提案する。

Current Text-to-Code models demonstrate impressive capabilities in generating executable code from natural language snippets. However, current studies focus on technical instructions and programmer-oriented language, and it is an open question whether these models can effectively translate natural language descriptions given by non-technical users and express complex goals, to an executable program that contains an intricate flow - composed of API access and control structures as loops, conditions, and sequences. To unlock the challenge of generating a complete program from a plain non-technical description we present NoviCode, a novel NL Programming task, which takes as input an API and a natural language description by a novice non-programmer and provides an executable program as output. To assess the efficacy of models on this task, we provide a novel benchmark accompanied by test suites wherein the generated program code is assessed not according to their form, but according to their functional execution. Our experiments show that, first, NoviCode is indeed a challenging task in the code synthesis domain, and that generating complex code from non-technical instructions goes beyond the current Text-to-Code paradigm. Second, we show that a novel approach wherein we align the NL utterances with the compositional hierarchical structure of the code, greatly enhances the performance of LLMs on this task, compared with the end-to-end Text-to-Code counterparts.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# Arena Learning: シミュレーションチャットボットアリーナによる後トレーニングのためのデータフライホイールの構築

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena ( http://arxiv.org/abs/2407.10627v1 )

ライセンス: Link先を確認
Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen, (参考訳) 大規模言語モデル(LLM)の有効性を評価することは重大な課題である。 オンラインチャットボットアリーナにおける人手による戦闘の実施方法は非常に効果的な評価手法である。 しかし、このアプローチは人間のアノテーションに必要なコストと時間によって制限される。 本稿では、AIによるアノテーションを用いてこれらのアリーナ戦闘をシミュレートし、戦闘結果を評価するための革新的なオフライン戦略であるアレナ学習を紹介し、教師付き微調整学習と強化学習の両方を通じて目標モデルの継続的な改善を容易にする。 アリーナラーニングには2つの重要な要素がある。 まず、微妙に設計されたオフラインテストセットを使用して、さまざまなモデルのEloランキングを正確に予測するために開発されたパイプラインであるWizardArenaを通じて、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を維持する。 我々の結果は、WizardArenaの予測がオンラインアリーナの予測と密接に一致していることを示している。 第2に、戦闘結果と洗練されたモデルに基づいて、トレーニングデータの継続的な改善が伴う。 我々は、データフライホイールを構築し、その戦闘結果に基づいて目標モデルの弱点を強調し、訓練データを反復的に更新し、複数の異なるモデルの強みから学習できるようにする。 ターゲットモデルのWizardLM-$\beta$をトレーニングするためにArena Learningを適用し、さまざまなメトリクスで大幅なパフォーマンス向上を示します。 この完全に自動化されたトレーニングと評価パイプラインは、ポストトレーニングを通じて様々なLSMの継続的な進歩のステージを設定する。 特に,アリーナラーニングはWizardLM-2の成功において重要な役割を担い,本論文はWizardLM-2とそのデリバティブに関する今後の議論の基盤となる研究である。

Assessing the effectiveness of large language models (LLMs) presents substantial challenges. The method of conducting human-annotated battles in an online Chatbot Arena is a highly effective evaluative technique. However, this approach is limited by the costs and time required for human annotation. In this paper, we introduce Arena Learning, an innovative offline strategy designed to simulate these arena battles using AI-driven annotations to evaluate battle outcomes, thus facilitating the continuous improvement of the target model through both supervised fine-tuning and reinforcement learning. Arena Learning comprises two key elements. First, it ensures precise evaluations and maintains consistency between offline simulations and online competitions via WizardArena, a pipeline developed to accurately predict the Elo rankings of various models using a meticulously designed offline test set. Our results demonstrate that WizardArena's predictions closely align with those from the online Arena. Second, it involves the continuous improvement of training data based on the battle results and the refined model. We establish a data flywheel to iteratively update the training data by highlighting the weaknesses of the target model based on its battle results, enabling it to learn from the strengths of multiple different models. We apply Arena Learning to train our target model, WizardLM-$\beta$, and demonstrate significant performance enhancements across various metrics. This fully automated training and evaluation pipeline sets the stage for continuous advancements in various LLMs via post-training. Notably, Arena Learning plays a pivotal role in the success of WizardLM-2, and this paper serves both as an exploration of its efficacy and a foundational study for future discussions related to WizardLM-2 and its derivatives.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# スケールのバランスをとる: 公平な分類のための強化学習

Balancing the Scales: Reinforcement Learning for Fair Classification ( http://arxiv.org/abs/2407.10629v1 )

ライセンス: Link先を確認
Leon Eshuijs, Shihan Wang, Antske Fokkens, (参考訳) 分類タスクの公平さは、伝統的に神経表現からのバイアス除去に焦点を当ててきたが、最近のトレンドは、公正さをトレーニングプロセスに埋め込むアルゴリズム的手法を好んでいる。 これらの手法は、表現操作から生じる貴重な情報の潜在的排除を防止し、公正なパフォーマンスに向けてモデルをステアリングする。 強化学習(Reinforcement Learning, RL)は、相互作用を通じて学習し、望ましい行動を促進するために報酬関数を調整する能力を持つ。 本稿では,不均衡な分類におけるバイアスに対するRLの利用について,バイアスを軽減するために報酬関数をスケールすることで検討する。 我々は、コンテキスト的マルチアーム・バンディット・フレームワークを採用し、我々の目的に合った3つのRLアルゴリズムを適用し、バイアスを緩和するための新しいアプローチを実証する。

Fairness in classification tasks has traditionally focused on bias removal from neural representations, but recent trends favor algorithmic methods that embed fairness into the training process. These methods steer models towards fair performance, preventing potential elimination of valuable information that arises from representation manipulation. Reinforcement Learning (RL), with its capacity for learning through interaction and adjusting reward functions to encourage desired behaviors, emerges as a promising tool in this domain. In this paper, we explore the usage of RL to address bias in imbalanced classification by scaling the reward function to mitigate bias. We employ the contextual multi-armed bandit framework and adapt three popular RL algorithms to suit our objectives, demonstrating a novel approach to mitigating bias.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 機械学習を用いたMRI画像からの脳腫瘍の分類

Brain Tumor Classification From MRI Images Using Machine Learning ( http://arxiv.org/abs/2407.10630v1 )

ライセンス: Link先を確認
Vidhyapriya Ranganathan, Celshiya Udaiyar, Jaisree Jayanth, Meghaa P V, Srija B, Uthra S, (参考訳) 脳腫瘍は生命を脅かす問題であり、人間の身体の正常な機能を損なう。 悪性脳腫瘍の平均生存率は35.6%である。 適切な診断と効率的な治療計画のためには、早期に脳腫瘍を検出する必要がある。 医療画像技術の進歩により、脳画像は異なるモードで撮影される。 磁気共鳴イメージング(MRI)スキャンから関連する特徴を抽出する能力は、脳腫瘍分類器にとって重要なステップである。 異常腫瘍の進展を予測するため、MRIの異なるモードから関連性のある特徴を抽出する様々な方法が提案されている。 ほとんどの技術は、特徴抽出のための従来の画像処理法と分類のための機械学習を用いていた。 最近では、深層学習アルゴリズムを医用画像に応用することで、脳腫瘍の分類と診断が大幅に改善されている。 腫瘍は脳の異なる領域にあるため、腫瘍を局所化し、特定のカテゴリーに分類することは難しい課題である。 本研究の目的は,機械学習を用いた脳腫瘍検出のための予測システムを開発することである。

Brain tumor is a life-threatening problem and hampers the normal functioning of the human body. The average five-year relative survival rate for malignant brain tumors is 35.6 percent. For proper diagnosis and efficient treatment planning, it is necessary to detect the brain tumor in early stages. Due to advancement in medical imaging technology, the brain images are taken in different modalities. The ability to extract relevant characteristics from magnetic resonance imaging (MRI) scans is a crucial step for brain tumor classifiers. Several studies have proposed various strategies to extract relevant features from different modalities of MRI to predict the growth of abnormal tumors. Most techniques used conventional methods of image processing for feature extraction and machine learning for classification. More recently, the use of deep learning algorithms in medical imaging has resulted in significant improvements in the classification and diagnosis of brain tumors. Since tumors are located at different regions of the brain, localizing the tumor and classifying it to a particular category is a challenging task. The objective of this project is to develop a predictive system for brain tumor detection using machine learning(ensembling).
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 二次元エントロピーモデルによる双方向ステレオ画像圧縮

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model ( http://arxiv.org/abs/2407.10632v1 )

ライセンス: Link先を確認
Zhening Liu, Xinjie Zhang, Jiawei Shao, Zehong Lin, Jun Zhang, (参考訳) ステレオビジョン技術の急速な進歩により、ステレオ画像圧縮が重要な分野として出現し、注目され続けている。 従来のアプローチでは、一方のビューの圧縮が他方に依存し、結果として不均衡な圧縮となる一方向のパラダイムを主に採用していた。 この問題に対処するために、対称な双方向ステレオ画像圧縮アーキテクチャ、BiSICを導入する。 具体的には,3次元畳み込みに基づくコーデックバックボーンを提案する。 さらに、エントロピー符号化のための潜在表現の分布を効果的に推定するために、空間コンテキスト、チャネルコンテキスト、ステレオ依存性を含む様々な条件要素を統合する新しいクロス次元エントロピーモデルを設計する。 提案したBiSICは,PSNRとMS-SSIMの両面で,従来の画像・映像圧縮規格と最先端の学習手法に優れることを示した。

With the rapid advancement of stereo vision technologies, stereo image compression has emerged as a crucial field that continues to draw significant attention. Previous approaches have primarily employed a unidirectional paradigm, where the compression of one view is dependent on the other, resulting in imbalanced compression. To address this issue, we introduce a symmetric bidirectional stereo image compression architecture, named BiSIC. Specifically, we propose a 3D convolution based codec backbone to capture local features and incorporate bidirectional attention blocks to exploit global features. Moreover, we design a novel cross-dimensional entropy model that integrates various conditioning factors, including the spatial context, channel context, and stereo dependency, to effectively estimate the distribution of latent representations for entropy coding. Extensive experiments demonstrate that our proposed BiSIC outperforms conventional image/video compression standards, as well as state-of-the-art learning-based methods, in terms of both PSNR and MS-SSIM.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# モデルバイアスの評価 : ミスのキャラクタリゼーション

Evaluating Model Bias Requires Characterizing its Mistakes ( http://arxiv.org/abs/2407.10633v1 )

ライセンス: Link先を確認
Isabela Albuquerque, Jessica Schrouff, David Warde-Farley, Taylan Cemgil, Sven Gowal, Olivia Wiles, (参考訳) 素早い相関に直面するモデル性能を適切にベンチマークする能力は、より良い予測器を構築し、モデルが意図した通りに動作しているという自信を高めることが重要である。 モデル誤りの特徴付け(単純な定量化とは対照的に)は、モデルバイアスを適切に反映するために重要であり、最悪のグループ精度や精度ギャップといった標準的な指標によって無視される。 仮説テストフレームワークにインスパイアされたSkewSizeは、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。 マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。 SkewSizeは2つのカテゴリ変数間の相互作用の効果サイズ、すなわちバイアス属性を表すスパイラス変数とモデルの予測の集合である。 合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。 いずれの場合も、提案したSkewSizeは、他のメトリクスが捉えないバイアスを強調しつつ、命令チューニングのような最近提案されたテクニックの影響についての洞察を提供することができる。

The ability to properly benchmark model performance in the face of spurious correlations is important to both build better predictors and increase confidence that models are operating as intended. We demonstrate that characterizing (as opposed to simply quantifying) model mistakes across subgroups is pivotal to properly reflect model biases, which are ignored by standard metrics such as worst-group accuracy or accuracy gap. Inspired by the hypothesis testing framework, we introduce SkewSize, a principled and flexible metric that captures bias from mistakes in a model's predictions. It can be used in multi-class settings or generalised to the open vocabulary setting of generative models. SkewSize is an aggregation of the effect size of the interaction between two categorical variables: the spurious variable representing the bias attribute and the model's prediction. We demonstrate the utility of SkewSize in multiple settings including: standard vision models trained on synthetic data, vision models trained on ImageNet, and large scale vision-and-language models from the BLIP-2 family. In each case, the proposed SkewSize is able to highlight biases not captured by other metrics, while also providing insights on the impact of recently proposed techniques, such as instruction tuning.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 量子同型およびホモモルフィズムのNPA階層

NPA Hierarchy for Quantum Isomorphism and Homomorphism Indistinguishability ( http://arxiv.org/abs/2407.10635v1 )

ライセンス: Link先を確認
Prem Nigam Kar, David E. Roberson, Tim Seppelt, Peter Zeman, (参考訳) Man\v{c}inska と Roberson~[FOCS'20] は、2つのグラフが量子同型であることと、それらが平面グラフのクラスに対して同型でない場合に限ることを示した。 Atserias et al ~[JCTB'19] は一般に量子同型は決定不可能であることを証明した。 NPA階層は、量子同型性の半定値プログラミング緩和の列を与える。 最近、Roberson と Seppelt~[ICALP'23] は、グラフ同型半定型プログラミング緩和のラッサール階層の各レベルの実現性について、同型不同型の評価を得た。 我々は、グラフの量子同型に対するSDP緩和のNPA階層のそれぞれのレベルが、適切な平面グラフのクラスに対する準同型独立性と同値であることを示すことによって、この結果の量子的類似性を証明する。 NPA階層の収束と、これらのグラフクラスの和がすべての平面グラフの集合であるという事実を組み合わせることで、量子群の理論の使用を避けるMan\v{c}inskaとRoberson~[FOCS'20]の結果の新たな証明を与えることができる。 この準同型不連続性の特徴付けはまた、量子同型に対するSDP緩和のNPA階層のそれぞれの固定レベルの正確な実現性を決定するランダム化多項式時間アルゴリズムを与えることもできる。

Man\v{c}inska and Roberson~[FOCS'20] showed that two graphs are quantum isomorphic if and only if they are homomorphism indistinguishable over the class of planar graphs. Atserias et al.~[JCTB'19] proved that quantum isomorphism is undecidable in general. The NPA hierarchy gives a sequence of semidefinite programming relaxations of quantum isomorphism. Recently, Roberson and Seppelt~[ICALP'23] obtained a homomorphism indistinguishability characterization of the feasibility of each level of the Lasserre hierarchy of semidefinite programming relaxations of graph isomorphism. We prove a quantum analogue of this result by showing that each level of the NPA hierarchy of SDP relaxations for quantum isomorphism of graphs is equivalent to homomorphism indistinguishability over an appropriate class of planar graphs. By combining the convergence of the NPA hierarchy with the fact that the union of these graph classes is the set of all planar graphs, we are able to give a new proof of the result of Man\v{c}inska and Roberson~[FOCS'20] that avoids the use of the theory of quantum groups. This homomorphism indistinguishability characterization also allows us to give a randomized polynomial-time algorithm deciding exact feasibility of each fixed level of the NPA hierarchy of SDP relaxations for quantum isomorphism.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# イベント駆動ビデオ再構成のための時間的残留ガイド拡散フレームワーク

Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction ( http://arxiv.org/abs/2407.10636v1 )

ライセンス: Link先を確認
Lin Zhu, Yunlong Zheng, Yijun Zhang, Xiao Wang, Lizhi Wang, Hua Huang, (参考訳) イベントベースのビデオ再構成は、ハイダイナミックレンジや高速モーションキャプチャ機能など、そのアドバンテージから注目を集めている。 しかし、現在の方法では、連続したイベントフローからの時間情報の抽出が優先され、シーン内の低周波テクスチャの特徴が過度に強調され、過度に滑らかでぼやけたアーティファクトが生じる。 この課題に対処するには、時間的特徴、低周波テクスチャ、高周波イベントを含む条件情報の統合が必要である。 この問題に対処するために,時間的・周波数的イベントを効果的に活用する新しい手法である時間的残留ガイド拡散フレームワークを導入する。 本フレームワークには,事前学習した低周波強度推定モジュール,時間的再帰エンコーダモジュール,注目に基づく高周波事前拡張モジュールの3つの重要な条件付けモジュールが組み込まれている。 現時点の事象から時空間の変動を捉えるため,拡散モデルの対象として時間領域残像を用いる。 これら3つの条件付きパスと時間的残留フレームワークを組み合わせることで,我々のフレームワークは,イベントフローから高品質な映像を再構成し,アーティファクトや過度なスムース化といった問題を緩和する。 複数のベンチマークデータセットで実施された大規模な実験は、従来のイベントベースの再構築手法と比較して、我々のフレームワークの優れた性能を検証した。

Event-based video reconstruction has garnered increasing attention due to its advantages, such as high dynamic range and rapid motion capture capabilities. However, current methods often prioritize the extraction of temporal information from continuous event flow, leading to an overemphasis on low-frequency texture features in the scene, resulting in over-smoothing and blurry artifacts. Addressing this challenge necessitates the integration of conditional information, encompassing temporal features, low-frequency texture, and high-frequency events, to guide the Denoising Diffusion Probabilistic Model (DDPM) in producing accurate and natural outputs. To tackle this issue, we introduce a novel approach, the Temporal Residual Guided Diffusion Framework, which effectively leverages both temporal and frequency-based event priors. Our framework incorporates three key conditioning modules: a pre-trained low-frequency intensity estimation module, a temporal recurrent encoder module, and an attention-based high-frequency prior enhancement module. In order to capture temporal scene variations from the events at the current moment, we employ a temporal-domain residual image as the target for the diffusion model. Through the combination of these three conditioning paths and the temporal residual framework, our framework excels in reconstructing high-quality videos from event flow, mitigating issues such as artifacts and over-smoothing commonly observed in previous approaches. Extensive experiments conducted on multiple benchmark datasets validate the superior performance of our framework compared to prior event-based reconstruction methods.
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 時空間交通相互作用分析を取り入れたリスク認識軌道予測

Risk-aware Trajectory Prediction by Incorporating Spatio-temporal Traffic Interaction Analysis ( http://arxiv.org/abs/2407.10639v1 )

ライセンス: Link先を確認
Divya Thuremella, Lewis Ince, Lars Kunze, (参考訳) 人間が複雑で多様な方法で対話するオープンエンド環境では、自律型ロボットは、特に他のエージェントやロボットにとって危険な場合、その振る舞いを予測することを学ばなければならない。 しかし、事故のリスクを減らすには、衝突が起こる可能性のある場所や方法に関する事前の知識が必要である。 そこで,本研究では,データセット内のリスクの高い相互作用に対応する位置や速度を分析し,高いリスク状況下でより優れた予測を生成するために,トレーニングに使用することを提案する。 これらの位置ベースおよび速度ベース再重み付け技術により、FDEおよびKDEで測定される全体的な性能の向上と、高速車やリスクの高い場所における車両の性能向上を実現した。 2023 IEEE International Conference on Robotics and Automation (ICRA)

To operate in open-ended environments where humans interact in complex, diverse ways, autonomous robots must learn to predict their behaviour, especially when that behavior is potentially dangerous to other agents or to the robot. However, reducing the risk of accidents requires prior knowledge of where potential collisions may occur and how. Therefore, we propose to gain this information by analyzing locations and speeds that commonly correspond to high-risk interactions within the dataset, and use it within training to generate better predictions in high risk situations. Through these location-based and speed-based re-weighting techniques, we achieve improved overall performance, as measured by most-likely FDE and KDE, as well as improved performance on high-speed vehicles, and vehicles within high-risk locations. 2023 IEEE International Conference on Robotics and Automation (ICRA)
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# 3次元逆問題におけるOOD適応の高精度化に先立つ深部拡散画像

Deep Diffusion Image Prior for Efficient OOD Adaptation in 3D Inverse Problems ( http://arxiv.org/abs/2407.10641v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jong Chul Ye, (参考訳) 近年の逆問題解法は, 遺伝的拡散に先立って, 異常な品質のため, 顕著な注目を集めている。 しかし、トレーニングとテストの分布に相違がある場合には、事前の適応が必要である。 本研究では,SCDの最近の適応法を一般化したDepdiffed image prior (DDIP)を提案する。 そこで本研究では,D3IPと呼ばれる3次元計測のための効率的な適応手法を提案し,DDIPを桁違いに高速化し,優れた性能を実現する。 D3IPは3次元逆ソルバのシームレスな統合を可能にし、コヒーレントな3次元再構成を実現する。 さらに,メタラーニング手法を応用して,より優れた性能が得られることを示す。 本手法は, 金標準データを用いたトレーニングが不可能な場合でも, 学習セットと大きく異なるファントム画像のみを用いて, 予め訓練した生成画像から多種多様な3次元再構成タスクを解くことができることを示す。 コード:https://github.com/HJ-harry/DDIP3D

Recent inverse problem solvers that leverage generative diffusion priors have garnered significant attention due to their exceptional quality. However, adaptation of the prior is necessary when there exists a discrepancy between the training and testing distributions. In this work, we propose deep diffusion image prior (DDIP), which generalizes the recent adaptation method of SCD by introducing a formal connection to the deep image prior. Under this framework, we propose an efficient adaptation method dubbed D3IP, specified for 3D measurements, which accelerates DDIP by orders of magnitude while achieving superior performance. D3IP enables seamless integration of 3D inverse solvers and thus leads to coherent 3D reconstruction. Moreover, we show that meta-learning techniques can also be applied to yield even better performance. We show that our method is capable of solving diverse 3D reconstructive tasks from the generative prior trained only with phantom images that are vastly different from the training set, opening up new opportunities of applying diffusion inverse solvers even when training with gold standard data is impossible. Code: https://github.com/HJ-harry/DDIP3D
翻訳日:2024-07-16 15:31:11 公開日:2024-07-15
# TripletViNet: プラットフォーム間の誤情報拡散を緩和する

TripletViNet: Mitigating Misinformation Video Spread Across Platforms ( http://arxiv.org/abs/2407.10644v1 )

ライセンス: Link先を確認
Petar Smolovic, Thilini Dahanayaka, Kanchana Thilakarathna, (参考訳) 最近、多くのプラットフォームでフェイクニュースや誤報ビデオの拡散が激化しており、こうしたコンテンツのモデレーションは克服すべき多くの課題に直面している。 最近の研究では、YouTubeやFacebookのように、単一のプラットフォーム内で暗号化されたネットワークトラフィックからビデオタイトルを識別できる可能性が示されている。 しかし、クロスプラットフォームのビデオ認識には既存の方法がない。 単一のプラットフォーム内での暗号化されたビデオトラフィック分類、すなわち、同じプラットフォーム上のビデオのトラフィックトレースをトレーニングすることで、あるプラットフォーム上のビデオのトラフィックトレースのビデオタイトルを分類する。 この制限に対処するために、我々は複数のプラットフォームにまたがるビデオ認識の課題に対して、一つのプラットフォーム上でのみビデオのトラフィックトレースを使用することで、実現可能性の分析を行い、解決しようとする。 我々はTripletViNetというフレームワークを提案する。 一 プラットフォーム単位での事前処理 二 正確性の向上のために三重項学習を練習したエンコーダ 三 トラストのビデオタイトルを分類するためのマルチクラス分類器 TripletViNetのパフォーマンスを評価するために、YouTube、X、Instagram、Facebook、Rumble、Tumblrといった誤情報を広げる可能性を秘めた6つの主要なプラットフォーム上で、100のビデオのトラフィックトレースを備えた包括的なデータセットが収集され、クローズドセットとオープンセットの両方のシナリオでTripletViNetのテストに使用された。 TripletViNetは、ビデオトラフィックとビデオのVBRの相関による精度の大幅な向上を実現している。

There has been rampant propagation of fake news and misinformation videos on many platforms lately, and moderation of such content faces many challenges that must be overcome. Recent research has shown the feasibility of identifying video titles from encrypted network traffic within a single platform, for example, within YouTube or Facebook. However, there are no existing methods for cross-platform video recognition, a crucial gap that this works aims to address. Encrypted video traffic classification within a single platform, that is, classifying the video title of a traffic trace of a video on one platform by training on traffic traces of videos on the same platform, has significant limitations due to the large number of video platforms available to users to upload harmful content to. To attempt to address this limitation, we conduct a feasibility analysis into and attempt to solve the challenge of recognizing videos across multiple platforms by using the traffic traces of videos on one platform only. We propose TripletViNet, a framework that encompasses i) platform-wise pre-processing, ii) an encoder trained utilizing triplet learning for improved accuracy and iii) multiclass classifier for classifying the video title of a traffic trace. To evaluate the performance of TripletViNet, a comprehensive dataset with traffic traces for 100 videos on six major platforms with the potential for spreading misinformation such as YouTube, X, Instagram, Facebook, Rumble, and Tumblr was collected and used to test TripletViNet in both closed-set and open-set scenarios. TripletViNet achieves significant improvements in accuracy due to the correlation between video traffic and the video's VBR, with impressive final accuracies exceeding 90% in certain scenarios.
翻訳日:2024-07-16 15:21:27 公開日:2024-07-15
# Prompt Selection Matters: Enhancing Text Annotation for Social Sciences with Large Language Models

Prompt Selection Matters: Enhancing Text Annotations for Social Sciences with Large Language Models ( http://arxiv.org/abs/2407.10645v1 )

ライセンス: Link先を確認
Louis Abraham, Charles Arnal, Antoine Marie, (参考訳) 大規模言語モデルは最近、社会科学のテキストアノテーションタスクに応用され、コストのごく一部で人間の労働者のパフォーマンスを等しくまたは超えている。 しかし、ラベリング精度に対する迅速な選択の影響については、まだ調査されていない。 本研究では,プロンプト間で性能が大きく異なることを示し,高品質なプロンプトを体系的に構築するために自動プロンプト最適化手法を適用した。 また、コミュニティにはhttps://prompt-ultra.github.io/で、シンプルなブラウザベースのメソッドの実装も提供しています。

Large Language Models have recently been applied to text annotation tasks from social sciences, equalling or surpassing the performance of human workers at a fraction of the cost. However, no inquiry has yet been made on the impact of prompt selection on labelling accuracy. In this study, we show that performance greatly varies between prompts, and we apply the method of automatic prompt optimization to systematically craft high quality prompts. We also provide the community with a simple, browser-based implementation of the method at https://prompt-ultra.github.io/ .
翻訳日:2024-07-16 15:21:27 公開日:2024-07-15
# APC: 弱修正セマンティックセグメンテーションのための適応パッチコントラスト

APC: Adaptive Patch Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2407.10649v1 )

ライセンス: Link先を確認
Wangyu Wu, Tianhong Dai, Zhenhong Chen, Xiaowei Huang, Fei Ma, Jimin Xiao, (参考訳) 画像レベルラベルのみを用いたWSSS(Weakly Supervised Semantic Segmentation)は,費用対効果から注目されている。 典型的なフレームワークでは、画像レベルのラベルをトレーニングデータとして使用して、改良付きのピクセルレベルの擬似ラベルを生成する。 近年、視覚変換器(ViT)に基づく手法は、CNN法と比較して、信頼性の高い擬似ラベルを生成する能力、特に完全な対象領域を認識する能力に優れていることが示されている。 しかし、現在のViTベースのアプローチでは、パッチ埋め込みの使用にいくつかの制限があり、特定の異常なパッチに支配される傾向があり、また、訓練に時間がかかり、時間がかかり、効率が損なわれている。 そこで本稿では, パッチ埋め込み学習を著しく向上し, セグメンテーション効率の向上を図るための, ViT ベースの新しい WSSS 手法である \textit{Adaptive Patch Contrast} (APC) を提案する。 APCはAdaptive-K Pooling (AKP) レイヤを使用して、以前の最大プール選択法の制限に対処する。 さらに,パッチ埋め込みを向上し,最終的な結果を改善するために,パッチコントラスト学習(PCL)を提案する。 さらに、CAMを使わずに既存のマルチステージトレーニングフレームワークを改善し、エンドツーエンドの単一ステージトレーニングアプローチに変換することにより、トレーニング効率を向上する。 実験の結果,本手法は,PASCAL VOC 2012およびMS COCO 2014データセットにおいて,より短いトレーニング期間で,最先端のWSSS手法よりも効果的かつ効果的であることが示唆された。

Weakly Supervised Semantic Segmentation (WSSS) using only image-level labels has gained significant attention due to its cost-effectiveness. The typical framework involves using image-level labels as training data to generate pixel-level pseudo-labels with refinements. Recently, methods based on Vision Transformers (ViT) have demonstrated superior capabilities in generating reliable pseudo-labels, particularly in recognizing complete object regions, compared to CNN methods. However, current ViT-based approaches have some limitations in the use of patch embeddings, being prone to being dominated by certain abnormal patches, as well as many multi-stage methods being time-consuming and lengthy in training, thus lacking efficiency. Therefore, in this paper, we introduce a novel ViT-based WSSS method named \textit{Adaptive Patch Contrast} (APC) that significantly enhances patch embedding learning for improved segmentation effectiveness. APC utilizes an Adaptive-K Pooling (AKP) layer to address the limitations of previous max pooling selection methods. Additionally, we propose a Patch Contrastive Learning (PCL) to enhance patch embeddings, thereby further improving the final results. Furthermore, we improve upon the existing multi-stage training framework without CAM by transforming it into an end-to-end single-stage training approach, thereby enhancing training efficiency. The experimental results show that our approach is effective and efficient, outperforming other state-of-the-art WSSS methods on the PASCAL VOC 2012 and MS COCO 2014 dataset within a shorter training duration.
翻訳日:2024-07-16 15:21:27 公開日:2024-07-15
# クラッタを切断する: 体系的文献レビューにおける効率的な濾過のためのLCMの可能性

Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews ( http://arxiv.org/abs/2407.10652v1 )

ライセンス: Link先を確認
Lucas Joos, Daniel A. Keim, Maximilian T. Fischer, (参考訳) 学術研究において、体系的な文献レビューは基礎的かつ非常に関連性が高いが、大量の出版物や労働集約的なプロセスのために、作成は面倒である。 キーワードベースのフィルタリング手法のような従来手法による関連論文の体系的選択は、意味的曖昧さや矛盾した用語によって悩まされ、亜最適結果をもたらすことがある。 必要となる広範囲な手動フィルタリングを緩和するために,我々はLarge Language Models (LLMs) を用いて文献レビューフィルタリングの効率,速度,精度を高め,必要な手動スクリーニングの量を削減できる可能性を探究し,評価する。 構造化データベースにのみ作用する分類エージェントとしてモデルを用いることで、幻覚などのLLMに固有の共通問題を防止する。 本稿は,近年の文献調査において,まず8.3万件以上の関連記事が検討されている中で,そのようなセットアップの現実的な性能を評価し,これを同一データセット上での人的パフォーマンスと比較する。 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, Llama3といった高度なLLMを単純なプロンプトで利用することで、文学的なフィルタリングに要する時間を、通常数週間のマニュアル調査から数分に短縮できることがわかった。 同時に、偽陰性はコンセンサス・スキームによって実際に制御可能であることを示し、典型的ヒューマンエラー・しきい値の98.8%以上のリコールを達成し、より正確で関連性の高い記事を提供する。 我々の研究は、文献レビューの方法論を大幅に改善するだけでなく、学術的な研究実践における責任あるAIのさらなる統合と広範な将来的な応用のステージも立てている。

In academic research, systematic literature reviews are foundational and highly relevant, yet tedious to create due to the high volume of publications and labor-intensive processes involved. Systematic selection of relevant papers through conventional means like keyword-based filtering techniques can sometimes be inadequate, plagued by semantic ambiguities and inconsistent terminology, which can lead to sub-optimal outcomes. To mitigate the required extensive manual filtering, we explore and evaluate the potential of using Large Language Models (LLMs) to enhance the efficiency, speed, and precision of literature review filtering, reducing the amount of manual screening required. By using models as classification agents acting on a structured database only, we prevent common problems inherent in LLMs, such as hallucinations. We evaluate the real-world performance of such a setup during the construction of a recent literature survey paper with initially more than 8.3k potentially relevant articles under consideration and compare this with human performance on the same dataset. Our findings indicate that employing advanced LLMs like GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, or Llama3 with simple prompting can significantly reduce the time required for literature filtering - from usually weeks of manual research to only a few minutes. Simultaneously, we crucially show that false negatives can indeed be controlled through a consensus scheme, achieving recalls >98.8% at or even beyond the typical human error threshold, thereby also providing for more accurate and relevant articles selected. Our research not only demonstrates a substantial improvement in the methodology of literature reviews but also sets the stage for further integration and extensive future applications of responsible AI in academic research practices.
翻訳日:2024-07-16 15:21:27 公開日:2024-07-15
# OVLW-DETR:Open-Vocabulary Light-Weighted Detection Transformer

OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer ( http://arxiv.org/abs/2407.10655v1 )

ライセンス: Link先を確認
Yu Wang, Xiangbo Su, Qiang Chen, Xinyu Zhang, Teng Xi, Kun Yao, Errui Ding, Gang Zhang, Jingdong Wang, (参考訳) 自然言語で案内される新しいカテゴリーの検出に焦点をあてたオープン語彙オブジェクト検出 本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。 OVLW-DETRをベースとして,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提供する。 我々は, テキストエンコーダから抽出したクラス名埋め込みに, 固定された分類層重みを置き換えることで, VLMのテキストエンコーダと整列する。 追加のファンクションモジュールがなければ、OVLW-DETRは柔軟で、デプロイがしやすいため、実装や修正が容易になる。 インターリーブされた注意計算の効率を向上させること。 実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。 ソースコードと事前トレーニングされたモデルは[https://github.com/Atten4Vis/LW-DETR]で入手できる。

Open-vocabulary object detection focusing on detecting novel categories guided by natural language. In this report, we propose Open-Vocabulary Light-Weighted Detection Transformer (OVLW-DETR), a deployment friendly open-vocabulary detector with strong performance and low latency. Building upon OVLW-DETR, we provide an end-to-end training recipe that transferring knowledge from vision-language model (VLM) to object detector with simple alignment. We align detector with the text encoder from VLM by replacing the fixed classification layer weights in detector with the class-name embeddings extracted from the text encoder. Without additional fusing module, OVLW-DETR is flexible and deployment friendly, making it easier to implement and modulate. improving the efficiency of interleaved attention computation. Experimental results demonstrate that the proposed approach is superior over existing real-time open-vocabulary detectors on standard Zero-Shot LVIS benchmark. Source code and pre-trained models are available at [https://github.com/Atten4Vis/LW-DETR].
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# フォーミュラ生成のための合成データの検証に関する実証的研究

An Empirical Study of Validating Synthetic Data for Formula Generation ( http://arxiv.org/abs/2407.10657v1 )

ライセンス: Link先を確認
Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen, (参考訳) 大きな言語モデル(LLM)は、スプレッドシートで公式を書くのに役立つが、これらの公式のリソースは乏しく、事前訓練されたモデルのベースパフォーマンスに影響を与え、それらを微調整する能力を制限する。 公式のコーパスが与えられた場合、(他の)モデルを用いて、微調整のための合成自然言語発話を生成することができる。 しかし, LLMが生成したNLが, 微調整に有用であるかどうかを検証することは重要である。 本稿では,合成アノテーションの精度を評価するために,これらの合成トレーニング例を代理目的で検証する際の効果を実証的に評価する。 検証により、4つのモデル(開度2と閉度2)にわたる生データよりも性能が向上することを示す。 興味深いことに、検証はより難しい例を産み出す傾向にあるが、検証されたデータに微調整された後にモデルが解決できる問題の複雑さを増大させる。

Large language models (LLMs) can be leveraged to help with writing formulas in spreadsheets, but resources on these formulas are scarce, impacting both the base performance of pre-trained models and limiting the ability to fine-tune them. Given a corpus of formulas, we can use a(nother) model to generate synthetic natural language utterances for fine-tuning. However, it is important to validate whether the NL generated by the LLM is indeed accurate to be beneficial for fine-tuning. In this paper, we provide empirical results on the impact of validating these synthetic training examples with surrogate objectives that evaluate the accuracy of the synthetic annotations. We demonstrate that validation improves performance over raw data across four models (2 open and 2 closed weight). Interestingly, we show that although validation tends to prune more challenging examples, it increases the complexity of problems that models can solve after being fine-tuned on validated data.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# 心理的理論に基づくXAI体験品質評価のためのXEQ尺度

XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory ( http://arxiv.org/abs/2407.10662v1 )

ライセンス: Link先を確認
Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Belen Díaz-Agudo, Derek Bridge, (参考訳) 説明可能な人工知能(XAI)は、説明を通じて自律的な意思決定の透明性を向上させることを目的としている。 近年の文献では、ユーザによる総合的な「マルチショット」の説明の必要性と、XAIシステムとの関わりをパーソナライズする能力を強調している。 我々はこのユーザ中心のインタラクションをXAI Experienceと呼んでいる。 XAIエクスペリエンス作成の進歩にもかかわらず、ユーザ中心の方法で評価することは依然として困難である。 これを解決するために,ユーザ中心のXAIエクスペリエンスの品質を評価するXAI Experience Quality (XEQ) Scale(“Seek” Scale)を紹介した。 さらに、XEQは、学習、ユーティリティ、フルフィルメント、エンゲージメントの4つの評価次元で経験の質を定量化します。 これらのコントリビューションは、XAI評価の最先端を延長し、シングルショットの説明を評価するために頻繁に開発された1次元のメトリクスを越えている。 本稿では,XAIの専門家によるコンテンツ検証や,大規模パイロットスタディによる差別的,構成的検証を含む,XEQスケールの開発と検証プロセスを提案する。 パイロット実験の結果は、ユーザ中心のXAIエクスペリエンスを評価するための包括的なフレームワークとして、XEQスケールを確立する強力な証拠を提供する。

Explainable Artificial Intelligence (XAI) aims to improve the transparency of autonomous decision-making through explanations. Recent literature has emphasised users' need for holistic "multi-shot" explanations and the ability to personalise their engagement with XAI systems. We refer to this user-centred interaction as an XAI Experience. Despite advances in creating XAI experiences, evaluating them in a user-centred manner has remained challenging. To address this, we introduce the XAI Experience Quality (XEQ) Scale (pronounced "Seek" Scale), for evaluating the user-centred quality of XAI experiences. Furthermore, XEQ quantifies the quality of experiences across four evaluation dimensions: learning, utility, fulfilment and engagement. These contributions extend the state-of-the-art of XAI evaluation, moving beyond the one-dimensional metrics frequently developed to assess single-shot explanations. In this paper, we present the XEQ scale development and validation process, including content validation with XAI experts as well as discriminant and construct validation through a large-scale pilot study. Out pilot study results offer strong evidence that establishes the XEQ Scale as a comprehensive framework for evaluating user-centred XAI experiences.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# 心臓の条件生成モデルのための時空間神経距離場

Spatio-temporal neural distance fields for conditional generative modeling of the heart ( http://arxiv.org/abs/2407.10663v1 )

ライセンス: Link先を確認
Kristine Sørensen, Paula Diez, Jan Margeta, Yasmin El Youssef, Michael Pham, Jonas Jalili Pedersen, Tobias Kühl, Ole de Backer, Klaus Kofoed, Oscar Camara, Rasmus Paulsen, (参考訳) 心臓のリズミカルなパンピング運動は、個々のチャンバーの細心の収縮を通じて、人体全体に血液を循環させ、生命の基盤となる。 チャンバーの大きさ,形状,運動の変化は心臓疾患の重要なマーカーであり,臨床検査や疾患との関連でモデリングすることが重要である。 既存のヒト心臓の時空間モデリング法では、時間とともに形状の対応を必要とするか、大きな記憶の要求に悩まされるため、複雑な解剖学での使用は困難である。 そこで我々は,空間的時間的ニューラル距離場として形と動きを暗黙的にモデル化し,臨床デモグラフィーで条件付けする,新しい条件生成モデルを提案する。 このモデルは自動デコーダアーキテクチャに基づいており、臨床デモグラフィに関連するものから個々のバリエーションを分離することを目的としている。 左心房(左心房付属物を含む)でテストされ、解剖学的配列完了の最先端の手法より優れ、実際の左心房の形状と運動を現実的に模倣する合成配列を生成する。 実際には、静的画像から機能的計測を推測し、特定のデモグラフィーや疾患を持つ合成個体群を生成し、非画像臨床データが心臓解剖の形状と運動にどのように影響するかを調べることができる。

The rhythmic pumping motion of the heart stands as a cornerstone in life, as it circulates blood to the entire human body through a series of carefully timed contractions of the individual chambers. Changes in the size, shape and movement of the chambers can be important markers for cardiac disease and modeling this in relation to clinical demography or disease is therefore of interest. Existing methods for spatio-temporal modeling of the human heart require shape correspondence over time or suffer from large memory requirements, making it difficult to use for complex anatomies. We introduce a novel conditional generative model, where the shape and movement is modeled implicitly in the form of a spatio-temporal neural distance field and conditioned on clinical demography. The model is based on an auto-decoder architecture and aims to disentangle the individual variations from that related to the clinical demography. It is tested on the left atrium (including the left atrial appendage), where it outperforms current state-of-the-art methods for anatomical sequence completion and generates synthetic sequences that realistically mimics the shape and motion of the real left atrium. In practice, this means we can infer functional measurements from a static image, generate synthetic populations with specified demography or disease and investigate how non-imaging clinical data effect the shape and motion of cardiac anatomies.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# ボルツマン分布のアンバイアスサンプリング高速化のための流れの摂動

Flow Perturbation to Accelerate Unbiased Sampling of Boltzmann distribution ( http://arxiv.org/abs/2407.10666v1 )

ライセンス: Link先を確認
Xin Peng, Ang Gao, (参考訳) フローベース生成モデルはボルツマン分布のサンプリングに用いられているが、高次元システムへのそれらの適用は、流れのヤコビアンを得るための計算コストによって妨げられている。 この課題を克服するために、最適化された確率的摂動をフローに組み込んだ流れ摂動法を導入する。 摂動流によって生じる軌跡を再重み付けすることにより, ボルツマン分布の非バイアスサンプリングを, ジャコビアン計算とハッチンソン推定器の双方と比較して, 桁違いの速度アップで達成する。 特に、チグノリンタンパク質を全ての原子カルテシアン座標で正確にサンプリングし、我々の知る限り、ボルツマンが生成モデルを用いてこのような詳細にサンプリングした最大の分子である。

Flow-based generative models have been employed for sampling the Boltzmann distribution, but their application to high-dimensional systems is hindered by the significant computational cost of obtaining the Jacobian of the flow. To overcome this challenge, we introduce the flow perturbation method, which incorporates optimized stochastic perturbations into the flow. By reweighting trajectories generated by the perturbed flow, our method achieves unbiased sampling of the Boltzmann distribution with orders of magnitude speedup compared to both brute force Jacobian calculations and the Hutchinson estimator. Notably, it accurately sampled the Chignolin protein with all atomic Cartesian coordinates explicitly represented, which, to our best knowledge, is the largest molecule ever Boltzmann sampled in such detail using generative models.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# 検索と検索管理の強化:RAGシステムの品質と効率を改善するための4つのモジュール・シナジー

Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems ( http://arxiv.org/abs/2407.10670v1 )

ライセンス: Link先を確認
Yunxiao Shi, Xing Zi, Zijing Shi, Haimin Zhang, Qiang Wu, Min Xu, (参考訳) Retrieval-augmented Generation (RAG)技術は、大規模言語モデル(LLM)のコンテキスト内学習機能を利用して、より正確で関連する応答を生成する。 RAGフレームワークは、シンプルな'検索-テーマ-リード'アプローチから始まり、高度に柔軟でモジュール化されたパラダイムへと進化した。 重要なコンポーネントであるQuery Rewriterモジュールは、検索フレンドリーなクエリを生成することで知識検索を強化する。 この方法は、入力された質問を知識ベースとより密に調整する。 本研究は,クエリリライタモジュールをQuery Rewriter+に拡張する機会を特定し,複数のクエリを生成して単一のクエリに関連付けられた情報高原を克服し,質問を書き換え,曖昧さを排除し,基礎となる意図を明確にすることで,クエリリライタモジュールをクエリリライタ+に拡張する機会を明らかにした。 また,現在のRAGシステムは非関連知識に問題があることも確認し,これを克服するために知識フィルタを提案する。 これら2つのモジュールは、どちらも命令調整されたGemma-2Bモデルに基づいており、応答品質が向上している。 最後に確認された問題は冗長検索であり、この問題を解決するためにMemory Knowledge ReservoirとRetriever Triggerを紹介します。 前者はパラメータフリーでRAGシステムの知識ベースを動的に拡張することをサポートし、後者は外部知識へのアクセスコストを最適化し、リソース利用率と応答効率を向上させる。 これら4つのRAGモジュールは、RAGシステムの応答品質と効率を相乗的に改善する。 これらのモジュールの有効性は、6つの共通のQAデータセットに対する実験とアブレーション研究を通じて検証されている。 ソースコードはhttps://github.com/Ancientshi/ERM4でアクセスできる。

Retrieval-augmented generation (RAG) techniques leverage the in-context learning capabilities of large language models (LLMs) to produce more accurate and relevant responses. Originating from the simple 'retrieve-then-read' approach, the RAG framework has evolved into a highly flexible and modular paradigm. A critical component, the Query Rewriter module, enhances knowledge retrieval by generating a search-friendly query. This method aligns input questions more closely with the knowledge base. Our research identifies opportunities to enhance the Query Rewriter module to Query Rewriter+ by generating multiple queries to overcome the Information Plateaus associated with a single query and by rewriting questions to eliminate Ambiguity, thereby clarifying the underlying intent. We also find that current RAG systems exhibit issues with Irrelevant Knowledge; to overcome this, we propose the Knowledge Filter. These two modules are both based on the instruction-tuned Gemma-2B model, which together enhance response quality. The final identified issue is Redundant Retrieval; we introduce the Memory Knowledge Reservoir and the Retriever Trigger to solve this. The former supports the dynamic expansion of the RAG system's knowledge base in a parameter-free manner, while the latter optimizes the cost for accessing external knowledge, thereby improving resource utilization and response efficiency. These four RAG modules synergistically improve the response quality and efficiency of the RAG system. The effectiveness of these modules has been validated through experiments and ablation studies across six common QA datasets. The source code can be accessed at https://github.com/Ancientshi/ERM4.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# Qwen2テクニカルレポート

Qwen2 Technical Report ( http://arxiv.org/abs/2407.10671v1 )

ライセンス: Link先を確認
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan, (参考訳) 本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。 我々は、0.5から72億までのパラメータを包含し、高密度モデルとMixture-of-Expertsモデルを備えた、基礎的および命令調整型言語モデルの包括的スイートをリリースする。 Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超えており、言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して競争力のある性能を示している。 フラッグシップモデルであるQwen2-72Bは、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで84.2、ベース言語モデルで82.4など、優れた性能を発揮した。 命令調整型であるQwen2-72B-InstructはMT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7に達した。 さらにQwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。 コミュニティのイノベーションとアクセシビリティを促進するため、私たちは、Hugging Face1とModelScope2のQwen2モデルウェイトと、GitHub3のサンプルコードを含む追加資料を公開しました。 これらのプラットフォームには、量子化、微調整、デプロイメントのためのリソースが含まれており、幅広いアプリケーションや研究の取り組みを容易にしている。

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face1 and ModelScope2, and the supplementary materials including example code on GitHub3. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# 局所量子発振によるグラフェンのクーロン相互作用のイメージングとディラックコーンの移動

Imaging Coulomb interactions and migrating Dirac cones in twisted graphene by local quantum oscillations ( http://arxiv.org/abs/2407.10675v1 )

ライセンス: Link先を確認
Matan Bocarsly, Indranil Roy, Vishal Bhardwaj, Matan Uzan, Patrick Ledwith, Gal Shavit, Nasrin Banu, Yaozhang Zhou, Yuri Myasoedov, Kenji Watanabe, Takashi Taniguchi, Yuval Oreg, Dan Parker, Yuval Ronen, Eli Zeldov, (参考訳) 平らなバンドモワールグラフェン系は、物質の相関位相を研究するための四面体として出現している。 多くの相互作用駆動基底状態が提案されているが、大規模な実験的試みにもかかわらず、様々な相、特に電荷中立点とを区別する直接的な証拠はほとんどない。 ここでは, ナノスケール走査型超伝導量子干渉装置を用いて, 交流三層グラフェン中の局所熱力学的量子振動を56mT以下の低磁場で撮像し, 状態密度とクーロン相互作用による単一粒子バンド構造の再正規化の極細な詳細を明らかにする。 電子状態の占有による帯電自己エネルギーは,高キャリア密度物理を説明する上で重要である。 伝導平板の半充填では、ストーナー様対称性の破れが観察され、これは相転移の階層における最も堅牢な機構であることが示された。 充電エネルギーが無視され、交換エネルギーが支配的な電荷中立性に近づくと、基底状態はヘテロスレインの存在下でギャップ状態よりも好まれるネマティック半金属であることが分かる。 明らかな半金属相では、平らなバンドのディラック円錐はミニブリョアンゾーン中心に向かって移動し、C_3回転対称性を自発的に破る。 我々の低磁場局所量子発振技術は、多種多様な相互作用を持つファンデルワールス系の基底状態を探究するための順応的な道を示す。

Flat band moir\'e graphene systems have emerged as a quintessential platform to investigate correlated phases of matter. A plethora of interaction-driven ground states have been proposed, and yet despite extensive experimental effort, there has been little direct evidence that distinguishes between the various phases, in particular near charge neutrality point. Here, we use a nanoscale scanning superconducting quantum interference device to image the local thermodynamic quantum oscillations in alternating-twist trilayer graphene at magnetic fields as low as 56 mT, which reveal ultrafine details of the density of states and of the renormalization of the single-particle band structure by Coulomb interactions. We find that the charging self-energy due to occupied electronic states, is critical in explaining the high carrier density physics. At half-filling of the conduction flat band, we observe a Stoner-like symmetry breaking, suggesting that it is the most robust mechanism in the hierarchy of phase transitions. On approaching charge neutrality, where the charging energy is negligible and exchange energy is dominant, we find the ground state to be a nematic semimetal which is favored over gapped states in the presence of heterostrain. In the revealed semimetallic phase, the flat-band Dirac cones migrate towards the mini-Brillouin zone center, spontaneously breaking the C_3 rotational symmetry. Our low-field local quantum oscillations technique presents an alluring avenue to explore the ground states of diverse strongly interacting van der Waals systems.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# GeoMix:Geometry-Aware Data Augmentationを目指して

GeoMix: Towards Geometry-Aware Data Augmentation ( http://arxiv.org/abs/2407.10681v1 )

ライセンス: Link先を確認
Wentao Zhao, Qitian Wu, Chenxiao Yang, Junchi Yan, (参考訳) Mixupは画像分類におけるラベル付き限られたデータによる課題の緩和にかなりの成功を収めている。 特徴とラベルの補間を通じてサンプルを合成することにより、Mixupはデータ不足の問題に効果的に対処する。 しかし、グラフデータの不規則性や接続性のため、グラフ学習タスクでの研究はめったに行われていない。 具体的には、ノード分類タスクにおいて、Mixupは合成データの接続を作成する上での課題である。 本稿では,GeoMix(GeoMix)を提案する。 幾何学情報を効果的に利用し、周辺地域の特徴やラベルを補間し、合成ノードを生成し、それらの接続を確立する。 本研究では,ノードミックスアップにおける幾何情報の利用の背景となる理論的根拠を解明するために理論的解析を行い,局所性向上の重要性を強調した。 大規模な実験により、私たちの軽量なGeometric Mixupは、ラベル付きデータに制限のある、さまざまな標準データセットに対して最先端の結果を達成しています。 さらに,GNNの一般化能力は,様々な難解なアウト・オブ・ディストリビューション一般化タスクで大幅に向上する。 私たちのコードはhttps://github.com/WtaoZhao/geomix.comで利用可能です。

Mixup has shown considerable success in mitigating the challenges posed by limited labeled data in image classification. By synthesizing samples through the interpolation of features and labels, Mixup effectively addresses the issue of data scarcity. However, it has rarely been explored in graph learning tasks due to the irregularity and connectivity of graph data. Specifically, in node classification tasks, Mixup presents a challenge in creating connections for synthetic data. In this paper, we propose Geometric Mixup (GeoMix), a simple and interpretable Mixup approach leveraging in-place graph editing. It effectively utilizes geometry information to interpolate features and labels with those from the nearby neighborhood, generating synthetic nodes and establishing connections for them. We conduct theoretical analysis to elucidate the rationale behind employing geometry information for node Mixup, emphasizing the significance of locality enhancement-a critical aspect of our method's design. Extensive experiments demonstrate that our lightweight Geometric Mixup achieves state-of-the-art results on a wide variety of standard datasets with limited labeled data. Furthermore, it significantly improves the generalization capability of underlying GNNs across various challenging out-of-distribution generalization tasks. Our code is available at https://github.com/WtaoZhao/geomix.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# 実画像検索によるテキスト・画像生成における幻覚の対応

Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval ( http://arxiv.org/abs/2407.10683v1 )

ライセンス: Link先を確認
Youngsun Lim, Hyunjung Shim, (参考訳) テキスト・画像生成は拡散モデルの出現とともに顕著な進歩を見せている。 しかし、これらのモデルはしばしば、実際の矛盾した画像を生成し、入力されたテキストプロンプトによって伝達される事実情報や常識を正確に反映することができない。 我々はこの問題をイメージ幻覚と呼ぶ。 言語モデルにおける幻覚の研究から、この問題を3つのタイプに分類し、外部ソースから取得した実像を用いて現実的な画像を生成する手法を提案する。 幻覚の性質によっては,InstructPix2PixやIP-Adapterといった既製の画像編集ツールを用いて,検索した画像の事実情報を活用する。 このアプローチにより、事実や常識を正確に反映した画像の生成が可能になる。

Text-to-image generation has shown remarkable progress with the emergence of diffusion models. However, these models often generate factually inconsistent images, failing to accurately reflect the factual information and common sense conveyed by the input text prompts. We refer to this issue as Image hallucination. Drawing from studies on hallucinations in language models, we classify this problem into three types and propose a methodology that uses factual images retrieved from external sources to generate realistic images. Depending on the nature of the hallucination, we employ off-the-shelf image editing tools, either InstructPix2Pix or IP-Adapter, to leverage factual information from the retrieved image. This approach enables the generation of images that accurately reflect the facts and common sense.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# MARTSIA: ブロックチェーン駆動プロセスの実行におけるデータの信頼性の保護

MARTSIA: Safeguarding Data Confidentiality in Blockchain-Driven Process Execution ( http://arxiv.org/abs/2407.10684v1 )

ライセンス: Link先を確認
Michele Kryston, Edoardo Marangone, Claudio Di Ciccio, Daniele Friolo, Eugenio Nerio Nemmi, Mattia Samory, Michele Spina, Daniele Venturi, Ingo Weber, (参考訳) ブロックチェーン技術は、特に信頼が限られている分散環境で、複数のパーティのコラボレーションを合理化します。 パブリックブロックチェーンは透明性と信頼性を高める一方で、機密性と競合する。 これを解決するために、MARTSIA(Multi-Authority Approach to Transaction Systems for Interoperating Applications)を紹介する。 MARTSIAは、ユーザ定義ポリシーと認証宣言属性を通じてメッセージ部分レベルでの読み取りアクセス制御を提供するため、認証されたアクタのみが暗号化されたデータを解釈でき、すべてのブロックチェーンノードはその完全性を検証することができる。 この目的のために、MARTSIAはブロックチェーン、Multi-Authority Attribute-Based Encryption、および分散ハッシュテーブルデータストアを活用している。

Blockchain technology streamlines multi-party collaborations in decentralized settings, especially where trust is limited. While public blockchains enhance transparency and reliability, they conflict with confidentiality. To address this, we introduce Multi-Authority Approach to Transaction Systems for Interoperating Applications (MARTSIA). MARTSIA provides read-access control at the message-part level through user-defined policies and certifier-declared attributes, so that only authorized actors can interpret encrypted data while all blockchain nodes can verify its integrity. To this end, MARTSIA resorts to blockchain, Multi-Authority Attribute-Based Encryption and distributed hash-table data-stores.
翻訳日:2024-07-16 15:21:26 公開日:2024-07-15
# FRI-Net:Floorplan Restructation by Room-wise Implicit Representation

FRI-Net: Floorplan Reconstruction via Room-wise Implicit Representation ( http://arxiv.org/abs/2407.10687v1 )

ライセンス: Link先を確認
Honghao Xu, Juzhan Xu, Zeyu Huang, Pengfei Xu, Hui Huang, Ruizhen Hu, (参考訳) 本稿では,FRI-Netと呼ばれる3次元点雲からの2次元フロアプラン再構築手法を提案する。 既存の方法は通常、部屋のグローバルな形状を考慮していないコーナー回帰やボックス回帰に依存している。 これらの問題に対処するために, 床計画における部屋の形状を特徴付けるために, 構造的正規化を伴う空間的暗黙表現を用いた新しい手法を提案する。 フロアプランの幾何学的事前をトレーニング戦略に組み込むことにより、生成された部屋ポリゴンはより幾何学的に規則的である。 我々は、Structured3DとSceneCADという2つの挑戦的なデータセットの実験を行った。 提案手法は,提案手法の有効性を実証し,提案手法の有効性を検証した。

In this paper, we introduce a novel method called FRI-Net for 2D floorplan reconstruction from 3D point cloud. Existing methods typically rely on corner regression or box regression, which lack consideration for the global shapes of rooms. To address these issues, we propose a novel approach using a room-wise implicit representation with structural regularization to characterize the shapes of rooms in floorplans. By incorporating geometric priors of room layouts in floorplans into our training strategy, the generated room polygons are more geometrically regular. We have conducted experiments on two challenging datasets, Structured3D and SceneCAD. Our method demonstrates improved performance compared to state-of-the-art methods, validating the effectiveness of our proposed representation for floorplan reconstruction.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# グラフニューラルネットワークの確率パス:グラフ構造と表現連成学習

Probability Passing for Graph Neural Networks: Graph Structure and Representations Joint Learning ( http://arxiv.org/abs/2407.10688v1 )

ライセンス: Link先を確認
Ziyan Wang, YaXuan He, Bin Liu, (参考訳) グラフニューラルネットワーク(GNN)は、幅広い領域にわたる非ユークリッドデータの解析において顕著な成功を収めている。 しかし、それらの適用性は観測されたグラフ構造への依存によって制約される。 この問題を解決するために、ノード特徴の類似性やエッジ確率を計算し、タスク固有の潜在構造を推論し、GNNを適用して予測を行う遅延グラフ推論(LGI)を提案する。 それでも、既存のアプローチは、生成されたグラフ構造とパフォーマンスに影響を与えるノードの特徴からノイズを無視している。 本研究では,観測されたグラフに基づいて隣接ノードのエッジ確率を集約することにより,生成したグラフ構造を改良するProbability Passingという新しい手法を提案する。 さらに、我々はLGIフレームワークを引き続き活用し、洗練されたグラフ構造とノード特徴をGNNに入力して予測を得る。 提案手法を,確率パスに基づくグラフニューラルネットワーク (PPGNN) と呼ぶ。 さらに、アンカーベース技術は複雑さを減らし、効率を向上させるために用いられる。 実験の結果,提案手法の有効性が示された。

Graph Neural Networks (GNNs) have achieved notable success in the analysis of non-Euclidean data across a wide range of domains. However, their applicability is constrained by the dependence on the observed graph structure. To solve this problem, Latent Graph Inference (LGI) is proposed to infer a task-specific latent structure by computing similarity or edge probability of node features and then apply a GNN to produce predictions. Even so, existing approaches neglect the noise from node features, which affects generated graph structure and performance. In this work, we introduce a novel method called Probability Passing to refine the generated graph structure by aggregating edge probabilities of neighboring nodes based on observed graph. Furthermore, we continue to utilize the LGI framework, inputting the refined graph structure and node features into GNNs to obtain predictions. We name the proposed scheme as Probability Passing-based Graph Neural Network (PPGNN). Moreover, the anchor-based technique is employed to reduce complexity and improve efficiency. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# マルチブランチ深部畳み込みネットワークとLSTM-CNNを用いた心臓音の分類

Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN ( http://arxiv.org/abs/2407.10689v1 )

ライセンス: Link先を確認
Seyed Amir Latifi, Hassan Ghassemian, Maryam Imani, (参考訳) 本稿では,クリニックにおける低コストシステムを用いて,より高精度かつ信頼性の高い心疾患の迅速かつ低コスト診断法を提案する。 心臓疾患の自動診断の第一の限界は、正確で許容できるラベル付き標本の希少性であり、準備に費用がかかる。 この問題に対処するため,本研究では2つの手法を提案する。 最初の方法は、人間の聴覚処理にインスパイアされた独自のマルチブランチディープ畳み込みニューラルネットワーク(MBDCN)アーキテクチャで、様々なサイズの畳み込みフィルタと音声信号パワースペクトルを入力として利用することによって特徴抽出を最適化するように設計されている。 第二の手法はLong Short-term memory-Convolutional Neural (LSCN)モデルと呼ばれ、ネットワークアーキテクチャにはLong Short-Term Memory (LSTM)ネットワークブロックが含まれており、時間領域における特徴抽出を改善する。 LSTMブロックとともに一次元畳み込み層からなる複数の並列分岐を結合するという革新的なアプローチは、音声信号処理タスクにおいて優れた結果を得るのに役立つ。 実験により,提案手法が最先端技術よりも優れていることが示された。 LSCNネットワークによる心臓音の総合的分類精度は96%以上である。 このネットワークの効率は、Mel Frequency Cepstral Coefficients (MFCC) やウェーブレット変換のような一般的な特徴抽出法と比較すると顕著である。 そこで本手法は,心臓音の自動解析において有望な結果を示し,心血管疾患の診断と早期発見に有効である可能性が示唆された。

This paper presents a fast and cost-effective method for diagnosing cardiac abnormalities with high accuracy and reliability using low-cost systems in clinics. The primary limitation of automatic diagnosing of cardiac diseases is the rarity of correct and acceptable labeled samples, which can be expensive to prepare. To address this issue, two methods are proposed in this work. The first method is a unique Multi-Branch Deep Convolutional Neural Network (MBDCN) architecture inspired by human auditory processing, specifically designed to optimize feature extraction by employing various sizes of convolutional filters and audio signal power spectrum as input. In the second method, called as Long short-term memory-Convolutional Neural (LSCN) model, Additionally, the network architecture includes Long Short-Term Memory (LSTM) network blocks to improve feature extraction in the time domain. The innovative approach of combining multiple parallel branches consisting of the one-dimensional convolutional layers along with LSTM blocks helps in achieving superior results in audio signal processing tasks. The experimental results demonstrate superiority of the proposed methods over the state-of-the-art techniques. The overall classification accuracy of heart sounds with the LSCN network is more than 96%. The efficiency of this network is significant compared to common feature extraction methods such as Mel Frequency Cepstral Coefficients (MFCC) and wavelet transform. Therefore, the proposed method shows promising results in the automatic analysis of heart sounds and has potential applications in the diagnosis and early detection of cardiovascular diseases.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# $\texttt{MixGR}$:Complementary Granularityによる科学領域のRetriever Generalizationの強化

$\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity ( http://arxiv.org/abs/2407.10691v1 )

ライセンス: Link先を確認
Fengyu Cai, Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang, Iryna Gurevych, Heinz Koeppl, (参考訳) 近年の研究では、知識ギャップを埋めることにより、科学領域内でのLLM、すなわちRAGの生成において文書検索の重要性が増している。 しかし、密度の高い検索者は、特にクエリセグメントがドキュメントの様々な部分に対応する場合、ドメイン固有の検索と複雑なクエリドキュメントの関係に苦慮することが多い。 そこで本研究では,クエリやドキュメントの様々なレベルの粒度にまたがるクエリ文書マッチングに対する高密度な検索者の認識を改善するために,ゼロショットアプローチを用いて$\texttt{MixGR}$を導入する。 $\texttt{MixGR}$は、これらの粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。 実験の結果,nDCG@5では$\texttt{MixGR}$が従来の文書検索を24.7%,9.8%上回った。 さらに、下流の2つの科学的質問応答タスクの有効性は、科学領域におけるLSMの適用を促進するために$\texttt{MixGR}$の利点を強調している。

Recent studies show the growing significance of document retrieval in the generation of LLMs, i.e., RAG, within the scientific domain by bridging their knowledge gap. However, dense retrievers often struggle with domain-specific retrieval and complex query-document relationships, particularly when query segments correspond to various parts of a document. To alleviate such prevalent challenges, this paper introduces $\texttt{MixGR}$, which improves dense retrievers' awareness of query-document matching across various levels of granularity in queries and documents using a zero-shot approach. $\texttt{MixGR}$ fuses various metrics based on these granularities to a united score that reflects a comprehensive query-document similarity. Our experiments demonstrate that $\texttt{MixGR}$ outperforms previous document retrieval by 24.7% and 9.8% on nDCG@5 with unsupervised and supervised retrievers, respectively, averaged on queries containing multiple subqueries from five scientific retrieval datasets. Moreover, the efficacy of two downstream scientific question-answering tasks highlights the advantage of $\texttt{MixGR}$to boost the application of LLMs in the scientific domain.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# 身近な身近な人物の身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な身近な

Features Reconstruction Disentanglement Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2407.10694v1 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, Qing Yue, (参考訳) 衣服交換者再識別(CC-ReID)は、特定の歩行者を衣服交換シナリオで回収することを目的としている。 その主な課題は、衣服に関する機能と衣服に関する無関係な機能を切り離すことである。 既存のアプローチのほとんどは、服の色を変えることによって、衣服に関係のない特徴を学ぶようモデルに強制している。 しかし、根底的な真実が欠如しているため、これらの手法は必然的にノイズを導入し、識別的特徴を破壊し、制御不能な絡み合いを引き起こす。 本稿では, 衣服関連・衣服関連の特徴を相互に分離する機能再構築型ReID (FRD-ReID) を提案する。 具体的には、まず、再構築プロセスの基礎的真実として、人間のパーシングマスクを紹介します。 同時に,衣服に関係のない特徴や歩行者の輪郭の特徴に対する遠距離注意(FAA)機構と人輪郭注意(PCA)機構を提案する。 テスト段階では,衣服に関連した特徴を推論のために直接捨てる。 我々は,PRCC,LTCC,Vc-Clothesのデータセットに関する広範な実験を行い,本手法が既存の最先端手法よりも優れていることを示した。

Cloth-changing person re-identification (CC-ReID) aims to retrieve specific pedestrians in a cloth-changing scenario. Its main challenge is to disentangle the clothing-related and clothing-unrelated features. Most existing approaches force the model to learn clothing-unrelated features by changing the color of the clothes. However, due to the lack of ground truth, these methods inevitably introduce noise, which destroys the discriminative features and leads to an uncontrollable disentanglement process. In this paper, we propose a new person re-identification network called features reconstruction disentanglement ReID (FRD-ReID), which can controllably decouple the clothing-unrelated and clothing-related features. Specifically, we first introduce the human parsing mask as the ground truth of the reconstruction process. At the same time, we propose the far away attention (FAA) mechanism and the person contour attention (PCA) mechanism for clothing-unrelated features and pedestrian contour features to improve the feature reconstruction efficiency. In the testing phase, we directly discard the clothing-related features for inference,which leads to a controllable disentanglement process. We conducted extensive experiments on the PRCC, LTCC, and Vc-Clothes datasets and demonstrated that our method outperforms existing state-of-the-art methods.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# IE-NeRF: 野生の強化されたニューラルラジアンスフィールドの塗装

IE-NeRF: Inpainting Enhanced Neural Radiance Fields in the Wild ( http://arxiv.org/abs/2407.10695v1 )

ライセンス: Link先を確認
Shuaixian Wang, Haoran Xu, Yaokun Li, Jiwei Chen, Guang Tan, (参考訳) 本稿では,ニューラル・ラジアンス・フィールド(NeRF)と野生の無制御写真を用いて,リアルな新しいビューを合成するための新しいアプローチを提案する。 NeRFはコントロールされた設定で印象的な結果を示したが、動的、時間的に変化するシーンでよく見られる過渡的なオブジェクトと競合する。 我々のフレームワークである‘textit{Inpainting Enhanced NeRF} は、画像インパインティング技術からインスピレーションを得て従来のNeRFを強化する。 具体的には、NeRFのMulti-Layer Perceptrons(MLP)を拡張して、内在特性(静色、密度)と外因性過渡マスクを同時に生成する。 我々は,過渡マスクを有効に除去し,ボリュームレンダリングの質を向上する塗装モジュールを提案する。 さらに、低周波過渡成分の疎結合問題に対処するため、周波数正規化を伴う新たなトレーニング戦略を提案する。 ランドマークのインターネット写真コレクションに対する我々のアプローチを評価し、高品質な新規ビューを生成し、最先端のパフォーマンスを実現する能力を示す。

We present a novel approach for synthesizing realistic novel views using Neural Radiance Fields (NeRF) with uncontrolled photos in the wild. While NeRF has shown impressive results in controlled settings, it struggles with transient objects commonly found in dynamic and time-varying scenes. Our framework called \textit{Inpainting Enhanced NeRF}, or \ours, enhances the conventional NeRF by drawing inspiration from the technique of image inpainting. Specifically, our approach extends the Multi-Layer Perceptrons (MLP) of NeRF, enabling it to simultaneously generate intrinsic properties (static color, density) and extrinsic transient masks. We introduce an inpainting module that leverages the transient masks to effectively exclude occlusions, resulting in improved volume rendering quality. Additionally, we propose a new training strategy with frequency regularization to address the sparsity issue of low-frequency transient components. We evaluate our approach on internet photo collections of landmarks, demonstrating its ability to generate high-quality novel views and achieve state-of-the-art performance.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# Deep ContourFlow: ディープラーニングによるアクティブな輪郭の改善

Deep ContourFlow: Advancing Active Contours with Deep Learning ( http://arxiv.org/abs/2407.10696v1 )

ライセンス: Link先を確認
Antoine Habis, Vannary Meas-Yedid, Elsa Angelini, Jean-Christophe Olivo-Marin, (参考訳) 本稿では、教師なしのアクティブな輪郭モデルとディープラーニングを組み合わせた、ロバストで適応的な画像セグメンテーションを提案する。 実際、伝統的なアクティブな輪郭は輪郭進化のための柔軟なフレームワークを提供し、学習は生データから直接複雑な特徴やパターンを学習する能力を提供します。 提案手法は両パラダイムの長所を生かし,教師なしとワンショットの両アプローチで画像セグメンテーションを行うためのフレームワークを提案する。 広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。 これは特に、アノテーションプロセスの困難で時間を要する性質のために、アノテーションが著しく不足している分野であるヒストロジーにおいて必要である。 ヒストロジーデータセット上で得られた結果を最先端の手法と比較し,顕著な改善点を示す。

This paper introduces a novel approach that combines unsupervised active contour models with deep learning for robust and adaptive image segmentation. Indeed, traditional active contours, provide a flexible framework for contour evolution and learning offers the capacity to learn intricate features and patterns directly from raw data. Our proposed methodology leverages the strengths of both paradigms, presenting a framework for both unsupervised and one-shot approaches for image segmentation. It is capable of capturing complex object boundaries without the need for extensive labeled training data. This is particularly required in histology, a field facing a significant shortage of annotations due to the challenging and time-consuming nature of the annotation process. We illustrate and compare our results to state of the art methods on a histology dataset and show significant improvements.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# DOCBENCH: LLMベースの文書読解システム評価ベンチマーク

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems ( http://arxiv.org/abs/2407.10701v1 )

ライセンス: Link先を確認
Anni Zou, Wenhao Yu, Hongming Zhang, Kaixin Ma, Deng Cai, Zhuosheng Zhang, Hai Zhao, Dong Yu, (参考訳) 近年,LLM ベースの文書読解システムにおける大規模言語モデル (LLM) 開発者の関心が高まっている。 その結果、これらのシステムは、ファイル解析、メタデータ抽出、マルチモーダル情報理解、長文読解といった課題に取り組むために慎重に設計されている。 しかし、これらのシナリオでは、生のファイルと質問が入力として提供され、対応する応答が出力として期待されるため、それらのパフォーマンスを評価するための現在のベンチマークは存在しない。 本稿では,LLMに基づく文書読解システムの評価を目的とした新しいベンチマークであるDocBenchを紹介する。 私たちのベンチマークには、人間のアノテーションの募集や、合成質問の生成など、細心の注意を要するプロセスが含まれています。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。 Web インターフェースや API を通じてアクセス可能な LLM ベースのシステムと,オープンソース LLM を利用したパース処理パイプラインの両方を評価した。 評価の結果,既存のLCMベースの文書読解システムと人的パフォーマンスの差が顕著であり,熟練したシステムを開発する上での課題を浮き彫りにしている。 要約すると、DocBench は LLM ベースの文書読解システムを様々な現実シナリオで評価するための標準化されたベンチマークを確立することを目的としており、この研究領域における今後の進歩を導くことを目的としている。

Recently, there has been a growing interest among large language model (LLM) developers in LLM-based document reading systems, which enable users to upload their own documents and pose questions related to the document contents, going beyond simple reading comprehension tasks. Consequently, these systems have been carefully designed to tackle challenges such as file parsing, metadata extraction, multi-modal information understanding and long-context reading. However, no current benchmark exists to evaluate their performance in such scenarios, where a raw file and questions are provided as input, and a corresponding response is expected as output. In this paper, we introduce DocBench, a new benchmark designed to evaluate LLM-based document reading systems. Our benchmark involves a meticulously crafted process, including the recruitment of human annotators and the generation of synthetic questions. It includes 229 real documents and 1,102 questions, spanning across five different domains and four major types of questions. We evaluate both proprietary LLM-based systems accessible via web interfaces or APIs, and a parse-then-read pipeline employing open-source LLMs. Our evaluations reveal noticeable gaps between existing LLM-based document reading systems and human performance, underscoring the challenges of developing proficient systems. To summarize, DocBench aims to establish a standardized benchmark for evaluating LLM-based document reading systems under diverse real-world scenarios, thereby guiding future advancements in this research area.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# $d=K$の制約のない特徴モデルの幾何学的解析

Geometric Analysis of Unconstrained Feature Models with $d=K$ ( http://arxiv.org/abs/2407.10702v1 )

ライセンス: Link先を確認
Shao Gu, Yi Shen, (参考訳) 近年、分類タスクのためのディープニューラルネットワークのトレーニングの最終段階で、ニューラル崩壊と呼ばれる興味深い経験的現象が観察されている。 我々は、2つの人気の非制約特徴モデルが厳密なサドル関数であり、すべての臨界点は大域的最小点か、負の曲率を使って退避できる厳密なサドル点のいずれかであることを示した。 主要な発見は、前回の記事における制約のない特徴モデルに関する予想を確定的に裏付けるものである。

Recently, interesting empirical phenomena known as Neural Collapse have been observed during the final phase of training deep neural networks for classification tasks. We examine this issue when the feature dimension d is equal to the number of classes K. We demonstrate that two popular unconstrained feature models are strict saddle functions, with every critical point being either a global minimum or a strict saddle point that can be exited using negative curvatures. The primary findings conclusively confirm the conjecture on the unconstrained feature models in previous articles.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# 不対日イベント翻訳による夜間ロバストなイベントベースネットワークの実現に向けて

Towards Robust Event-based Networks for Nighttime via Unpaired Day-to-Night Event Translation ( http://arxiv.org/abs/2407.10703v1 )

ライセンス: Link先を確認
Yuhwan Jeong, Hoonhee Cho, Kuk-Jin Yoon, (参考訳) ダイナミックレンジの高いイベントカメラは、低照度条件でもシーンキャプチャを保証します。 しかし、夜の行事は、昼間に捕獲されたものとは異なるパターンを示す。 この違いは、夜間イベントを日々のイベントのみにトレーニングされたモデルに適用する際のパフォーマンス低下を引き起こす。 この制限は、注釈付きの夜の出来事が欠如しているために継続する。 この制限を克服するために、アノテートされた日データを夜のイベントに翻訳することで、データの不均衡を軽減することを目的としている。 しかし、異なるモダリティからイベントを生成することは、固有の特性を再現することを困難にしている。 そこで本稿では,Diffusion GANを用いて,あるドメインから別のドメインへのマップを効果的に学習する,イベント・ツー・イベント・ツー・オン・ナイトの翻訳モデルを提案する。 提案する翻訳モデルは,ウェーブレット分解層と非絡み合った畳み込み層を用いて時空間の事象を解析する。 また,時間的連続性を規則化する新しいシャッフルとサンプリング戦略を用いた時間的コントラスト学習を提案する。 提案手法の有効性を検証するため,本稿では,不適切な状況下で翻訳されたイベントを,初めてイベントのモダリティと整合させて評価するためのメトリクスを再設計する。 本フレームワークは,イベントの特徴を保ちながら,昼夜のイベント翻訳の成功例を示す。 また,翻訳手法により,アノテートされた日中のイベントを夜のイベントに翻訳することで,夜のイベントについて学習するイベントベースのモードを容易にする。 提案手法は,ダウンストリームタスクに実夜イベントを適用した場合の性能劣化を効果的に軽減する。 コードはhttps://github.com/jeongyh98/UDNETで入手できる。

Event cameras with high dynamic range ensure scene capture even in low-light conditions. However, night events exhibit patterns different from those captured during the day. This difference causes performance degradation when applying night events to a model trained solely on day events. This limitation persists due to a lack of annotated night events. To overcome the limitation, we aim to alleviate data imbalance by translating annotated day data into night events. However, generating events from different modalities challenges reproducing their unique properties. Accordingly, we propose an unpaired event-to-event day-to-night translation model that effectively learns to map from one domain to another using Diffusion GAN. The proposed translation model analyzes events in spatio-temporal dimension with wavelet decomposition and disentangled convolution layers. We also propose a new temporal contrastive learning with a novel shuffling and sampling strategy to regularize temporal continuity. To validate the efficacy of the proposed methodology, we redesign metrics for evaluating events translated in an unpaired setting, aligning them with the event modality for the first time. Our framework shows the successful day-to-night event translation while preserving the characteristics of events. In addition, through our translation method, we facilitate event-based modes to learn about night events by translating annotated day events into night events. Our approach effectively mitigates the performance degradation of applying real night events to downstream tasks. The code is available at https://github.com/jeongyh98/UDNET.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# ビジョンランゲージモデルの効率的な一般化のための量子化プロンプト

Quantized Prompt for Efficient Generalization of Vision-Language Models ( http://arxiv.org/abs/2407.10704v1 )

ライセンス: Link先を確認
Tianxiang Hao, Xiaohan Ding, Juexiao Feng, Yuhong Yang, Hui Chen, Guiguang Ding, (参考訳) 過去数年間、CLIPのような大規模で事前訓練された視覚言語モデルは、様々な分野で大きな成功を収めてきた。 当然、このような巨大なトレーニング済みモデルの豊富な知識を下流のタスクやデータセットに転送する方法は、ホットなトピックになります。 下流への適応において、最も難しい問題は過度な適合と破滅的な忘れ込みであり、それによってモデルが現在のデータに過度に集中し、より重要なドメイン一般知識を失う可能性がある。 既存の作品では、古典的な正規化技術を使って問題を解決している。 ソリューションがますます複雑化するにつれて、ストレージと推論のコストは、緊急に対処する必要がある重要な問題でもある。 本稿では,適切なランダムノイズが過度な適合や破滅的な忘れを抑えるという観察から始める。 次に、量子化誤差をノイズの一種とみなし、非常に効率的かつ効果的である視覚言語モデルを正規化するための量子化を探索する。 さらに, モデルの一般化能力を向上させるために, 最小コストで特殊化能力を維持しながら, プロンプトにおける重量分布の特性を深く分析し, 量子化モジュール設計のいくつかの原理を結論付け, それらの原理に従うことで, 競争力のあるベースラインを創出する。 提案手法は, 軽量な特性のため, 極めて資源に制限のあるデバイスに適応できるため, 極めて効率的である。 提案手法は,MaPLeなどの既存手法と実効的に統合可能であり,ストレージオーバーヘッドを低減しつつ精度を向上し,より強力で汎用性の高い方法である。 11個のデータセットに対する大規模な実験は、我々の手法の優れた優位性を十分に示している。 コードはhttps://github.com/beyondhtx/QPrompt.comで入手できる。

In the past few years, large-scale pre-trained vision-language models like CLIP have achieved tremendous success in various fields. Naturally, how to transfer the rich knowledge in such huge pre-trained models to downstream tasks and datasets becomes a hot topic. During downstream adaptation, the most challenging problems are overfitting and catastrophic forgetting, which can cause the model to overly focus on the current data and lose more crucial domain-general knowledge. Existing works use classic regularization techniques to solve the problems. As solutions become increasingly complex, the ever-growing storage and inference costs are also a significant problem that urgently needs to be addressed. While in this paper, we start from an observation that proper random noise can suppress overfitting and catastrophic forgetting. Then we regard quantization error as a kind of noise, and explore quantization for regularizing vision-language model, which is quite efficiency and effective. Furthermore, to improve the model's generalization capability while maintaining its specialization capacity at minimal cost, we deeply analyze the characteristics of the weight distribution in prompts, conclude several principles for quantization module design and follow such principles to create several competitive baselines. The proposed method is significantly efficient due to its inherent lightweight nature, making it possible to adapt on extremely resource-limited devices. Our method can be fruitfully integrated into many existing approaches like MaPLe, enhancing accuracy while reducing storage overhead, making it more powerful yet versatile. Extensive experiments on 11 datasets shows great superiority of our method sufficiently. Code is available at https://github.com/beyondhtx/QPrompt.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# 可照・アニマタブルガウスアバターのインタラクティブレンダリング

Interactive Rendering of Relightable and Animatable Gaussian Avatars ( http://arxiv.org/abs/2407.10707v1 )

ライセンス: Link先を確認
Youyi Zhan, Tianjia Shao, He Wang, Yin Yang, Kun Zhou, (参考訳) マルチビューやモノクラービデオから、リライザブルでアニマタブルなアバターを作ることは、デジタルな人間の創造とバーチャルリアリティーアプリケーションにとって難しい課題だ。 従来の方法は、神経放射場やレイトレーシングに依存しており、訓練やレンダリングのプロセスが遅くなる。 ガウシアン・スプレイティング(英語版)を利用して、スパルス・ビュー(英語版)やモノクル・アバター・ビデオ(英語版)から体材と照明を分離し、新しい視点、ポーズ、インタラクティブなフレームレート(6.9fps)でアバターを同時にレンダリングできるように、簡便で効率的な方法を提案する。 具体的には、まず、符号付き距離関数を用いて標準体メッシュを取得し、各メッシュ頂点に属性を割り当てる。 正準空間のガウス群は、その属性を得るために近くの体メッシュ頂点から補間する。 その後、フォワードスキンニングを用いてガウスを擬似空間に変形させ、学習可能な環境光とガウスの属性を結合してシェーディング計算を行う。 高速なシャドウモデリングを実現するため,提案したボディーメッシュを濃密な視点からラスタライズし,視認性を得る。 我々のアプローチは、単純なだけでなく、環境光変化下でのアバターアニメーションのインタラクティブレンダリングを可能にするのに十分高速である。 実験により, 従来の研究と比較して, 合成データセットと実データセットの両方において, より高速に高品質な結果が得られることを示した。

Creating relightable and animatable avatars from multi-view or monocular videos is a challenging task for digital human creation and virtual reality applications. Previous methods rely on neural radiance fields or ray tracing, resulting in slow training and rendering processes. By utilizing Gaussian Splatting, we propose a simple and efficient method to decouple body materials and lighting from sparse-view or monocular avatar videos, so that the avatar can be rendered simultaneously under novel viewpoints, poses, and lightings at interactive frame rates (6.9 fps). Specifically, we first obtain the canonical body mesh using a signed distance function and assign attributes to each mesh vertex. The Gaussians in the canonical space then interpolate from nearby body mesh vertices to obtain the attributes. We subsequently deform the Gaussians to the posed space using forward skinning, and combine the learnable environment light with the Gaussian attributes for shading computation. To achieve fast shadow modeling, we rasterize the posed body mesh from dense viewpoints to obtain the visibility. Our approach is not only simple but also fast enough to allow interactive rendering of avatar animation under environmental light changes. Experiments demonstrate that, compared to previous works, our method can render higher quality results at a faster speed on both synthetic and real datasets.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# コンピュータビジョンによる地理地図の欠落検出

Detecting Omissions in Geographic Maps through Computer Vision ( http://arxiv.org/abs/2407.10709v1 )

ライセンス: Link先を確認
Phuc D. A. Nguyen, Anh Do, Minh Hoai, (参考訳) 本稿では,歴史的,文化的,政治的に重要な領域である地図解析へのコンピュータビジョン技術の応用について検討する。 本研究の目的は,地図作成において多種多様なスタイルや手法によって複雑な課題を伴い,特定地域や特徴的ランドマークを指定した地図を自動的に識別する手法の開発と評価である。 地図を非マップと区別し、表示された領域の精度を確認し、高度なテキスト認識技術によって特定のランドマーク名の有無を確認する。 提案手法では,畳み込みニューラルネットワークとトランスファーラーニングを用いて,地図と非マップを区別し,描写された領域の精度を確認し,高度なテキスト認識によりランドマーク名を確認する。 また,ベトナムの注釈付き地図画像を含むVinMapデータセットを導入し,本手法の訓練と試験を行った。 このデータセットの実験では、特定領域のランドマークを除く地図を識別するために、この手法が85.51%のF1スコアを達成することを示した。 この結果は実用性を示し、今後の改善の分野を示す。

This paper explores the application of computer vision technologies to the analysis of maps, an area with substantial historical, cultural, and political significance. Our focus is on developing and evaluating a method for automatically identifying maps that depict specific regions and feature landmarks with designated names, a task that involves complex challenges due to the diverse styles and methods used in map creation. We address three main subtasks: differentiating maps from non-maps, verifying the accuracy of the region depicted, and confirming the presence or absence of particular landmark names through advanced text recognition techniques. Our approach utilizes a Convolutional Neural Network and transfer learning to differentiate maps from non-maps, verify the accuracy of depicted regions, and confirm landmark names through advanced text recognition. We also introduce the VinMap dataset, containing annotated map images of Vietnam, to train and test our method. Experiments on this dataset demonstrate that our technique achieves F1-score of 85.51% for identifying maps excluding specific territorial landmarks. This result suggests practical utility and indicates areas for future improvement.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# SEMINAR:長期連続勧告のためのマルチモーダル関心ネットワークと近似検索

SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation ( http://arxiv.org/abs/2407.10714v1 )

ライセンス: Link先を確認
Kaiming Shen, Xichen Ding, Zixiang Zheng, Yuqi Gong, Qianqian Li, Zhongyi Liu, Guannan Zhang, (参考訳) ユーザの行動のモデリングは、現代のレコメンデーションシステムにおいて不可欠である。 多くの研究はユーザーの生涯のシーケンスをモデル化することに焦点を当てており、それは非常に長く、時には何千ものアイテムを超えることもある。 これらのモデルは、対象のアイテムを使用して、履歴シーケンスから最も関連性の高いアイテムを検索する。 しかし,CTR(Click through rate)予測やパーソナライズされた検索ランキング(PSR)のトレーニングは,ID埋め込みの学習問題が不十分なため,特にトレーニングデータセットのサンプルに長寿命特徴のIDが存在しない場合には,極めて困難である。 さらに、既存のターゲットアテンションメカニズムは、シーケンス内のアイテムのマルチモーダル表現をうまく学習するのに苦労する。 ユーザのインタラクションアイテムのマルチモーダル埋め込み(テキスト,画像,属性)出力の分布は適切に一致せず,モダリティにまたがるばらつきが存在する。 また,ユーザの検索クエリシーケンスとアイテムブラウジングシーケンスが,ユーザの意図やメリットを完全に表現できることも確認した。 これらの課題に対処するために、SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という、一貫した寿命のマルチモーダルシーケンスモデルを提案する。 具体的には、PSU(Pretraining Search Unit)と呼ばれるネットワークは、マルチモーダルアライメント、次のクエリ-イムペア予測、クエリ-イム関連予測など、複数目的の事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イムペアの寿命のシーケンスを学習する。 事前トレーニング後、ダウンストリームモデルは、トレーニング済みの埋め込みを初期化として復元し、ネットワークを微調整する。 マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダル・コードブックに基づく製品量子化手法を提案する。

The modeling of users' behaviors is crucial in modern recommendation systems. A lot of research focuses on modeling users' lifelong sequences, which can be extremely long and sometimes exceed thousands of items. These models use the target item to search for the most relevant items from the historical sequence. However, training lifelong sequences in click through rate (CTR) prediction or personalized search ranking (PSR) is extremely difficult due to the insufficient learning problem of ID embedding, especially when the IDs in the lifelong sequence features do not exist in the samples of training dataset. Additionally, existing target attention mechanisms struggle to learn the multi-modal representations of items in the sequence well. The distribution of multi-modal embedding (text, image and attributes) output of user's interacted items are not properly aligned and there exist divergence across modalities. We also observe that users' search query sequences and item browsing sequences can fully depict users' intents and benefit from each other. To address these challenges, we propose a unified lifelong multi-modal sequence model called SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval. Specifically, a network called Pretraining Search Unit (PSU) learns the lifelong sequences of multi-modal query-item pairs in a pretraining-finetuning manner with multiple objectives: multi-modal alignment, next query-item pair prediction, query-item relevance prediction, etc. After pretraining, the downstream model restores the pretrained embedding as initialization and finetunes the network. To accelerate the online retrieval speed of multi-modal embedding, we propose a multi-modal codebook-based product quantization strategy to approximate the exact attention calculati
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# Sibyl: 複雑な実世界の推論のためのシンプルで効果的なエージェントフレームワーク

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning ( http://arxiv.org/abs/2407.10718v1 )

ライセンス: Link先を確認
Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie, (参考訳) 大きな言語モデル(LLM)に基づく既存のエージェントは、LLM固有の知識、強いコンテキスト内学習とゼロショット機能を統合することで堅牢な問題解決能力を実証し、人間によって複雑な設計のLLM呼び出しワークフローと組み合わせたツールの使用を実証している。 しかし、これらのエージェントは依然として長期的な推論の欠点を示しており、既存のツールの可能性を過小評価しているため、複雑な実世界の推論シナリオでは顕著な欠陥が生じる。 これらの制約に対処するために、我々は、最小限のツールセットを効率的に活用することによって複雑な推論タスクに対処するために設計された、シンプルだが強力なLLMベースのエージェントフレームワークであるSibylを紹介した。 グローバルワークスペース理論(Global Workspace Theory)からインスピレーションを得たSibylは、システム全体の知識と会話履歴の管理と共有を強化するグローバルワークスペースを取り入れている。 さらに、ソサイエティ・オブ・マインド理論(Society of Mind Theory)によって導かれ、シビルは、最終答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実践している。 このアプローチは、解決可能な問題の範囲を数分で解決できるものから数時間、あるいは数日を要するものへと拡大し、システム1からシステム2へのシフトを促進することを目的としている。 Sibylはスケーラビリティとデバッグの容易性に重点を置いて設計されており、関数型プログラミングから再帰性の概念を最初から取り入れており、他のLLMアプリケーションとシームレスで低労力で統合して機能を改善することを目的としている。 GAIAベンチマークの試験結果から, GPT-4を用いたSibylエージェントは, GPT-4に基づく他のエージェントと比較して, 平均スコアが34.55%の最先端性能が得られることがわかった。 Sibylがより信頼性が高く再利用可能なLCMベースのエージェントソリューションに刺激を与え、複雑な実世界の推論タスクに対処できることを願っている。

Existing agents based on large language models (LLMs) demonstrate robust problem-solving capabilities by integrating LLMs' inherent knowledge, strong in-context learning and zero-shot capabilities, and the use of tools combined with intricately designed LLM invocation workflows by humans. However, these agents still exhibit shortcomings in long-term reasoning and under-use the potential of existing tools, leading to noticeable deficiencies in complex real-world reasoning scenarios. To address these limitations, we introduce Sibyl, a simple yet powerful LLM-based agent framework designed to tackle complex reasoning tasks by efficiently leveraging a minimal set of tools. Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global workspace to enhance the management and sharing of knowledge and conversation history throughout the system. Furthermore, guided by Society of Mind Theory, Sibyl implements a multi-agent debate-based jury to self-refine the final answers, ensuring a comprehensive and balanced approach. This approach aims to reduce system complexity while expanding the scope of problems solvable-from matters typically resolved by humans in minutes to those requiring hours or even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl has been designed with a focus on scalability and ease of debugging by incorporating the concept of reentrancy from functional programming from its inception, with the aim of seamless and low effort integration in other LLM applications to improve capabilities. Our experimental results on the GAIA benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves state-of-the-art performance with an average score of 34.55%, compared to other agents based on GPT-4. We hope that Sibyl can inspire more reliable and reusable LLM-based agent solutions to address complex real-world reasoning tasks.
翻訳日:2024-07-16 15:11:40 公開日:2024-07-15
# ソフトウェア脆弱性評価のためのデータ不均衡の軽減: データ拡張は役立つか?

Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? ( http://arxiv.org/abs/2407.10722v1 )

ライセンス: Link先を確認
Triet H. M. Le, M. Ali Babar, (参考訳) 背景: SV(Software Vulnerability)アセスメントは、SVの増大するボリュームと複雑さに対処するために、ますます採用されています。 データ駆動型アプローチは、SVアセスメントタスクの自動化、特にエクスプロイラビリティや影響、深刻度といったCVSS(Common Vulnerability Scoring System)メトリクスの予測に広く使用されている。 SVアセスメントはCVSSクラスの不均衡分布に悩まされているが、そのようなデータ不均衡はほとんど理解されておらず、文献で対処されている。 Aims: データ不均衡の影響を定量化し,データ拡張によるSV評価の問題を軽減するため,大規模な研究を行っている。 方法: CVSSメトリクスのクラス分布のバランスをとるために, 9つのデータ拡張手法を利用する。 次に、SVアセスメントモデルの性能を、拡張データを活用することなく比較する。 結果:180k以上の実世界のSVに対する広範な実験により,データ不均衡を緩和することで,すべてのCVSSタスクにおけるモデルの予測性能が,マシューズ相関係数において最大31.8%向上することを示した。 また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。 結論:本研究は,効果的なSV評価のためのデータ不均衡に取り組むためのモチベーションと最初の有望なステップを提供する。

Background: Software Vulnerability (SV) assessment is increasingly adopted to address the ever-increasing volume and complexity of SVs. Data-driven approaches have been widely used to automate SV assessment tasks, particularly the prediction of the Common Vulnerability Scoring System (CVSS) metrics such as exploitability, impact, and severity. SV assessment suffers from the imbalanced distributions of the CVSS classes, but such data imbalance has been hardly understood and addressed in the literature. Aims: We conduct a large-scale study to quantify the impacts of data imbalance and mitigate the issue for SV assessment through the use of data augmentation. Method: We leverage nine data augmentation techniques to balance the class distributions of the CVSS metrics. We then compare the performance of SV assessment models with and without leveraging the augmented data. Results: Through extensive experiments on 180k+ real-world SVs, we show that mitigating data imbalance can significantly improve the predictive performance of models for all the CVSS tasks, by up to 31.8% in Matthews Correlation Coefficient. We also discover that simple text augmentation like combining random text insertion, deletion, and replacement can outperform the baseline across the board. Conclusions: Our study provides the motivation and the first promising step toward tackling data imbalance for effective SV assessment.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# 予測せずに将来のオブジェクト構成を予想する

Anticipating Future Object Compositions without Forgetting ( http://arxiv.org/abs/2407.10723v1 )

ライセンス: Link先を確認
Youssef Zahran, Gertjan Burghouts, Yke Bauke Eisma, (参考訳) コンピュータビジョンモデルの大幅な進歩にもかかわらず、新しいオブジェクト属性合成に一般化する能力は依然として限られている。 合成ゼロショット学習(CZSL)の既存の手法は主に画像分類に焦点を当てている。 本稿では,従来の知識を忘れることなく,物体検出におけるCZSLの向上を目指す。 我々は、Grounding DINOを使用し、コンポジション型ソフト・プロンプティング(CSP)を組み込んで、コンポジション型予測で拡張する。 我々は、CLEVRデータセット上の見かけと見えない合成の調和平均(HM)に対して、CSPよりも70.5%改善した。 さらに、類似した構成間のモデル混乱に漸進的に対処するために、Contrastive Prompt Tuningを導入する。 本手法の有効性を実証し, プレトレイン, インクリメント, 不可視集合におけるHMの14.5%の増加を実現する。 これらの手法は、限られたデータで様々な構成を学習するためのフレームワークを提供するとともに、追加データが利用可能になったときの過度な構成の性能を向上させる。

Despite the significant advancements in computer vision models, their ability to generalize to novel object-attribute compositions remains limited. Existing methods for Compositional Zero-Shot Learning (CZSL) mainly focus on image classification. This paper aims to enhance CZSL in object detection without forgetting prior learned knowledge. We use Grounding DINO and incorporate Compositional Soft Prompting (CSP) into it and extend it with Compositional Anticipation. We achieve a 70.5% improvement over CSP on the harmonic mean (HM) between seen and unseen compositions on the CLEVR dataset. Furthermore, we introduce Contrastive Prompt Tuning to incrementally address model confusion between similar compositions. We demonstrate the effectiveness of this method and achieve an increase of 14.5% in HM across the pretrain, increment, and unseen sets. Collectively, these methods provide a framework for learning various compositions with limited data, as well as improving the performance of underperforming compositions when additional data becomes available.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# CLAVE: LLM生成応答の値を評価するための適応フレームワーク

CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses ( http://arxiv.org/abs/2407.10725v1 )

ライセンス: Link先を確認
Jing Yao, Xiaoyuan Yi, Xing Xie, (参考訳) LLM(Large Language Models)の急速な進歩は、非倫理的コンテンツの生成などの潜在的なリスクを引き起こす。 LLMの値を評価することは、それらのミスアライメントを明らかにするのに役立つが、参照不要な評価器(例えば、微調整されたLCMやGPT-4のようなクローズソースのもの)に依存して、生成された応答に反映された値を特定する。 しかしながら、これらの評価者はオープンエンドな価値評価において2つの課題に直面している。人間の価値定義を最小限のアノテーションで変更し、自身のバイアス(適応性)に対して調整し、さまざまな価値表現とシナリオを堅牢に(一般化性)検出する。 これらの課題に対処するため、CLAVEは2つの補完的なLLMを統合した新しいフレームワークであり、人間のラベルから高レベルの価値概念を抽出し、その広範な知識と一般化性を活用する。 このデュアルモデルアプローチは,<100人のラベル付きサンプルを値タイプ毎に使用して,任意の値システムでキャリブレーションを可能にする。 次に、ValEvalを紹介します。13k+(text,value,label)タプルからなる、さまざまなドメインにわたる包括的なデータセットで、3つの主要なバリューシステムをカバーする。 我々は、12以上のLLM評価器の性能をベンチマークし、その強度と弱点を分析した。 その結果,微調整された小型モデルとプロンプトベースの大規模モデルを組み合わせることで,評価のバランスが良くなることがわかった。

The rapid progress in Large Language Models (LLMs) poses potential risks such as generating unethical content. Assessing LLMs' values can help expose their misalignment, but relies on reference-free evaluators, e.g., fine-tuned LLMs or close-source ones like GPT-4, to identify values reflected in generated responses. Nevertheless, these evaluators face two challenges in open-ended value evaluation: they should align with changing human value definitions with minimal annotation, against their own bias (adaptability), and detect varying value expressions and scenarios robustly (generalizability). To handle these challenges, we introduce CLAVE, a novel framework which integrates two complementary LLMs, a large one to extract high-level value concepts from a few human labels, leveraging its extensive knowledge and generalizability, and a smaller one fine-tuned on such concepts to better align with human value understanding. This dual-model approach enables calibration with any value systems using <100 human-labeled samples per value type. Then we present ValEval, a comprehensive dataset comprising 13k+ (text,value,label) tuples across diverse domains, covering three major value systems. We benchmark the capabilities of 12+ popular LLM evaluators and analyze their strengths and weaknesses. Our findings reveal that combining fine-tuned small models and prompt-based large ones serves as a superior balance in value evaluation.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# ConvBench: 2次元畳み込み原始評価のための総合ベンチマーク

ConvBench: A Comprehensive Benchmark for 2D Convolution Primitive Evaluation ( http://arxiv.org/abs/2407.10730v1 )

ライセンス: Link先を確認
Lucas Alvarenga, Victor Ferrari, Rafael Souza, Marcio Pereira, Guido Araujo, (参考訳) 畳み込み(英: Convolution)は、畳み込みニューラルネットワーク(CNN)の中心に位置する計算集約的な演算である。 Im2col-GEMM、Winograd、Direct-Convolutionなど多くの高性能アルゴリズムの開発に繋がった。 しかし、異なる畳み込みアルゴリズムの比較は、特定のデータレイアウトとシステムリソースを必要とするため、エラーが発生しやすいタスクである。 これらの要件に対処できないことは、不必要な時間刑につながる可能性がある。 したがって、畳み込みアルゴリズムにおける全ての処理ステップを考慮することは、その性能を包括的に評価し、公平に比較することが不可欠である。 さらに、最もよく知られている畳み込みベンチマークでは、限られたカバレッジと手作り操作を備えたアドホックなテストスイートが採用されている。 本稿では,畳み込みアルゴリズムの評価と比較のためのプリミティブレベルのベンチマークであるConvBenchを提案する。 1097の現実世界のディープラーニングモデルから導かれる9243の畳み込み操作を評価し、その結果、詳細な評価のためにパフォーマンスと実行の分解グラフが生成される。 ConvBenchはSliced Convolution(SConv)アルゴリズムで評価される。 実験の結果、93.6%の畳み込みでIm2col-GEMMよりも速い結果が得られた。 しかし、ConvBenchの使用により、残りの6.4%の貧弱なコンボリューションが実現し、SConvのパッキングステップの平均で79.5%の致命的な減速が明らかになった。 この分析により、SConvの潜在的な最適化の源泉が示され、畳み込み設計者がアルゴリズムを改善するための新しいパスが開かれた。

Convolution is a compute-intensive operation placed at the heart of Convolution Neural Networks (CNNs). It has led to the development of many high-performance algorithms, such as Im2col-GEMM, Winograd, and Direct-Convolution. However, the comparison of different convolution algorithms is an error-prone task as it requires specific data layouts and system resources. Failure to address these requirements might lead to unwanted time penalties. Thus, considering all processing steps within convolution algorithms is essential to comprehensively evaluate and fairly compare their performance. Furthermore, most known convolution benchmarking adopts ad-hoc testing suites with limited coverage and handmade operations. This paper proposes ConvBench, a primitive-level benchmark for the evaluation and comparison of convolution algorithms. It assesses 9243 convolution operations derived from 1097 real-world deep learning models, resulting in performance and execution breakdown graphs for a detailed evaluation. ConvBench capability is evaluated across the Sliced Convolution (SConv) algorithm. The experiments showed results faster than Im2col-GEMM in 93.6% of the convolutions. However, the use of ConvBench allowed the delving into the remaining 6.4% underperforming convolutions, uncovering a critical slowdown of 79.5% on average of SConv's packing step. This analysis underscores a potential source of optimization for SConv, opening up new paths for convolution designers to improve their algorithms.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# ユニタリ四面体量子ゲート

Unitary tetrahedron quantum gates ( http://arxiv.org/abs/2407.10731v1 )

ライセンス: Link先を確認
Vivek Kumar Singh, Akash Sinha, Pramod Padmanabhan, Vladimir Korepin, (参考訳) 2量子ビットYang-Baxterゲートを用いた多体システムの量子シミュレーションは、量子ハードウェアのベンチマークを提供する。 これは、$n$-複素作用素と呼ばれるヤン・バクスターゲートの$n$-量子一般化を持つ高次元ケースにまで拡張することができる。 このようなマルチキュービットゲートは、より浅く、より効率的な量子回路にも繋がる可能性がある。 それらを見つけることは、高次元可積分系の構成要素である$n$-シプレックス方程式のユニタリ解を特定することに等しい。 これらは非常に非線型で過度に決定された方程式の集合であり、局所ヒルベルト空間が qubit で張られているときでさえ解くのが難しいと悪名高い。 我々は、クリフォード代数とヤン・バクスター作用素を持ち上げるという2つの方法を用いて構築された高次単純作用素に対して、これを体系的に克服する。 n=3$またはテトラヘドロンの場合を詳細に解析する。 qubitの場合、我々の手法はユニタリ四面体作用素の13の同値な族を生成する。 これらの族のうち12は、ダイ・ヒエタリンタの4つの定数ヤン・バクスター作用素の5つのユニタリ族を1つのキュービット作用素で付加することによって得られる。 応用として、単一、2、3個のキュービットゲートの普遍集合は、そのようなユニタリ四面体作用素を用いて実現される。 この研究で提示された考えは、自然に高次単純格にまで拡張することができる。

Quantum simulations of many-body systems using 2-qubit Yang-Baxter gates offer a benchmark for quantum hardware. This can be extended to the higher dimensional case with $n$-qubit generalisations of Yang-Baxter gates called $n$-simplex operators. Such multi-qubit gates potentially lead to shallower and more efficient quantum circuits as well. Finding them amounts to identifying unitary solutions of the $n$-simplex equations, the building blocks of higher dimensional integrable systems. These are a set of highly non-linear and over determined system of equations making it notoriously hard to solve even when the local Hilbert spaces are spanned by qubits. We systematically overcome this for higher simplex operators constructed using two methods: from Clifford algebras and by lifting Yang-Baxter operators. The $n=3$ or the tetrahedron case is analyzed in detail. For the qubit case our methods produce 13 inequivalent families of unitary tetrahedron operators. 12 of these families are obtained by appending the 5 unitary families of 4 by 4 constant Yang-Baxter operators of Dye-Hietarinta, with a single qubit operator. As applications, universal sets of single, two and three qubit gates are realized using such unitary tetrahedron operators. The ideas presented in this work can be naturally extended to the higher simplex cases.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# マスク分類アーキテクチャの自己教師付き学習のための統合埋め込み予測アーキテクチャ

Joint-Embedding Predictive Architecture for Self-Supervised Learning of Mask Classification Architecture ( http://arxiv.org/abs/2407.10733v1 )

ライセンス: Link先を確認
Dong-Hee Kim, Sungduk Cho, Hyeonwoo Cho, Chanmin Park, Jinyoung Kim, Won Hwa Kim, (参考訳) 本研究では,マスク分類アーキテクチャ(MCA)に適した自己教師型学習フレームワークであるMask-JEPAを紹介する。 Mask-JEPAは、統合埋め込み予測アーキテクチャとMCAを組み合わせることで、複雑なセマンティクスと正確なオブジェクト境界を正確にキャプチャする。 我々のアプローチは、自己指導型学習における2つの重要な課題に対処する。 1)画素デコーダから普遍的な画像分割のための包括的表現を抽出し、 2) トランスデコーダを効果的に訓練する。 JEPAフレームワーク内の予測子としてTransformer Decoderを使用することで、ユニバーサルイメージセグメンテーションタスクの熟練したトレーニングが可能になる。 ADE20KやCityscapes、COCOといったデータセットに対する厳格な評価を通じて、Mask-JEPAは競争結果だけでなく、さまざまなトレーニングシナリオにおける例外的な適応性と堅牢性も示している。 Mask-JEPAのアーキテクチャに依存しない性質は、その汎用性をさらに強調し、様々なマスク分類群へのシームレスな適応を可能にしている。

In this work, we introduce Mask-JEPA, a self-supervised learning framework tailored for mask classification architectures (MCA), to overcome the traditional constraints associated with training segmentation models. Mask-JEPA combines a Joint Embedding Predictive Architecture with MCA to adeptly capture intricate semantics and precise object boundaries. Our approach addresses two critical challenges in self-supervised learning: 1) extracting comprehensive representations for universal image segmentation from a pixel decoder, and 2) effectively training the transformer decoder. The use of the transformer decoder as a predictor within the JEPA framework allows proficient training in universal image segmentation tasks. Through rigorous evaluations on datasets such as ADE20K, Cityscapes and COCO, Mask-JEPA demonstrates not only competitive results but also exceptional adaptability and robustness across various training scenarios. The architecture-agnostic nature of Mask-JEPA further underscores its versatility, allowing seamless adaptation to various mask classification family.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# Cortex-Mマイクロコントローラを用いた完全量子化深部ニューラルネットワークのオンデバイストレーニング

On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers ( http://arxiv.org/abs/2407.10734v1 )

ライセンス: Link先を確認
Mark Deutel, Frank Hannig, Christopher Mutschler, Jürgen Teich, (参考訳) DNNのオンデバイストレーニングでは、モデルがマイクロコントローラユニット(MCU)にデプロイされている間、新たに収集されたデータやドメインの変更に適応し、微調整することができる。 しかし、DNNトレーニングはリソース集約的なタスクであり、プロセッサ速度の低下、スループットの制限、浮動小数点数のサポートの制限、メモリ制約のため、MCU上でのDNNトレーニングアルゴリズムの実装と実行が困難になる。 本研究では,Cortex-M MCUにおけるDNNのオンデバイストレーニングについて検討する。 本稿では,完全量子化トレーニング(FQT)と動的部分勾配更新を用いて,MCU上でDNNの効率的なトレーニングを可能にする手法を提案する。 マルチビジョンと時系列データセットに対するアプローチの実現可能性を示し、トレーニング精度、メモリオーバーヘッド、エネルギ、実際のハードウェアでのレイテンシのトレードオフに関する洞察を提供する。

On-device training of DNNs allows models to adapt and fine-tune to newly collected data or changing domains while deployed on microcontroller units (MCUs). However, DNN training is a resource-intensive task, making the implementation and execution of DNN training algorithms on MCUs challenging due to low processor speeds, constrained throughput, limited floating-point support, and memory constraints. In this work, we explore on-device training of DNNs for Cortex-M MCUs. We present a method that enables efficient training of DNNs completely in place on the MCU using fully quantized training (FQT) and dynamic partial gradient updates. We demonstrate the feasibility of our approach on multiple vision and time-series datasets and provide insights into the tradeoff between training accuracy, memory overhead, energy, and latency on real hardware.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# トランスフォーミングエージェンシー : 大規模言語モデルの存在形態について

Transforming Agency. On the mode of existence of Large Language Models ( http://arxiv.org/abs/2407.10735v1 )

ライセンス: Link先を確認
Xabier E. Barandiaran, Lola S. Almendros, (参考訳) 本稿では,ChatGPTのような大規模言語モデル(LLM)のオントロジ的特徴について検討する。 インフレ口座とデフレ口座の間には、エージェントとしての地位に特別な注意を払っています。 これにより、LLMの能力を示すアーキテクチャ、処理、および訓練手順を詳細に説明し、LLMをエージェントライクなシステムに変換するために使用する拡張も必要となる。 体系的な分析の後、LLMは、心の具体化理論に照らして自律的に必要かつ十分な条件を満たすことができないと結論づける:個人性条件(それは自身の活動の産物ではなく、それに直接影響を受けない)、ノルマティビティ条件(それは自身の規範や目標を生成しない)、そして部分的に相互作用非対称性条件(それは環境との相互作用の原点であり、持続的な源である)。 エージェントでなければ... LLMとは何か? 本論では,ChatGPTは,言語オートマトンや言語オートマトン,ライブラリ・ザ・トーク,(自律的な)エージェンシーの欠如などとして特徴付けられるが,目的に適さない,目的に縛られたタスクに対して,能動的に行動する能力を有するべきであると論じる。 人間と対話する際、人間と機械の相互作用の「ゴーストリー」な要素は、本物の会話体験をLLMで実行可能にする。 感覚運動と生物学的エンボディメントの欠如にもかかわらず、LLMのテキストエンボディメント(トレーニングコーパス)とリソース・ハングリーな計算エンボディメントは、既存の人間のエージェントの形式を大きく変えた。 補助的かつ拡張されたエージェンシーの他に、LLMとヒトのカップリングは、従来の技術よりも意図的なエージェンシーの生産に近い中型エージェンシーを生成することができる。

This paper investigates the ontological characterization of Large Language Models (LLMs) like ChatGPT. Between inflationary and deflationary accounts, we pay special attention to their status as agents. This requires explaining in detail the architecture, processing, and training procedures that enable LLMs to display their capacities, and the extensions used to turn LLMs into agent-like systems. After a systematic analysis we conclude that a LLM fails to meet necessary and sufficient conditions for autonomous agency in the light of embodied theories of mind: the individuality condition (it is not the product of its own activity, it is not even directly affected by it), the normativity condition (it does not generate its own norms or goals), and, partially the interactional asymmetry condition (it is not the origin and sustained source of its interaction with the environment). If not agents, then ... what are LLMs? We argue that ChatGPT should be characterized as an interlocutor or linguistic automaton, a library-that-talks, devoid of (autonomous) agency, but capable to engage performatively on non-purposeful yet purpose-structured and purpose-bounded tasks. When interacting with humans, a "ghostly" component of the human-machine interaction makes it possible to enact genuine conversational experiences with LLMs. Despite their lack of sensorimotor and biological embodiment, LLMs textual embodiment (the training corpus) and resource-hungry computational embodiment, significantly transform existing forms of human agency. Beyond assisted and extended agency, the LLM-human coupling can produce midtended forms of agency, closer to the production of intentional agency than to the extended instrumentality of any previous technologies.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# 合成が隠れ実内容をトレースする時-安定拡散画像洗浄の解析-

When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering ( http://arxiv.org/abs/2407.10736v1 )

ライセンス: Link先を確認
Sara Mandelli, Paolo Bestagini, Stefano Tubaro, (参考訳) 近年、高度にリアルな合成画像を作成する方法が大幅に進歩し、所望の内容を記述したテキストプロンプトから高品質な画像を作成することができるようになった。 さらに印象的なことに、SD(Stable Diffusion)モデルは、画像から画像への変換方式で合成画像を作成するオプションを提供し、高度なオートエンコーダの潜在空間で画像を修正できるようになった。 SDオートエンコーダを通して画像を渡すことで、画像の合成コピーを高いリアリズムで再現することができ、視覚的なアーティファクトはほとんどない。 このプロセスはSD画像ロンダリング(SD image laundering)と呼ばれ、実際の画像を見た目の合成画像に変換することができ、コンテンツ認証のための法医学的分析を複雑にするリスクがある。 本研究は, 画像洗浄の法医学的意義について検討し, 誤分類された有害物質を含む, 実際の内容の痕跡の発見の可能性を明らかにし, 個人による保護を損なう。 そこで本研究では,テキストプロンプトから生成したプリスタン,ラダード,および完全合成画像(テキストプロンプトから生成した画像)を効果的に区別し,様々な条件で堅牢性を示す2段階検出パイプラインを提案する。 最後に,カメラモデル同定の課題を解くために法医学的検出器が用いたユニークな成果物を隠蔽し,その性能を著しく損なう画像洗浄の別の警告特性を強調した。 実験コードはhttps://github.com/polimi-ispl/synthetic-image-detectionで公開しています。

In recent years, methods for producing highly realistic synthetic images have significantly advanced, allowing the creation of high-quality images from text prompts that describe the desired content. Even more impressively, Stable Diffusion (SD) models now provide users with the option of creating synthetic images in an image-to-image translation fashion, modifying images in the latent space of advanced autoencoders. This striking evolution, however, brings an alarming consequence: it is possible to pass an image through SD autoencoders to reproduce a synthetic copy of the image with high realism and almost no visual artifacts. This process, known as SD image laundering, can transform real images into lookalike synthetic ones and risks complicating forensic analysis for content authenticity verification. Our paper investigates the forensic implications of image laundering, revealing a serious potential to obscure traces of real content, including sensitive and harmful materials that could be mistakenly classified as synthetic, thereby undermining the protection of individuals depicted. To address this issue, we propose a two-stage detection pipeline that effectively differentiates between pristine, laundered, and fully synthetic images (those generated from text prompts), showing robustness across various conditions. Finally, we highlight another alarming property of image laundering, which appears to mask the unique artifacts exploited by forensic detectors to solve the camera model identification task, strongly undermining their performance. Our experimental code is available at https://github.com/polimi-ispl/synthetic-image-detection.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# ファンデーションビジョンモデルを用いた動的視覚シーンのニューロン符号化

Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models ( http://arxiv.org/abs/2407.10737v1 )

ライセンス: Link先を確認
Rining Wu, Feixiang Zhou, Ziwei Yin, Jian K. Liu, (参考訳) 私たちの脳は、非常にダイナミックな方法でニューロンが変化し続ける環境を表しています。 動的自然界における視覚画素の時間的特徴は、網膜の神経反応に介在する。 視覚的ピクセルと神経反応の内在的時間的関係を確立することが重要である。 近年の基盤視モデルでは,画像画素の理解の高度化が図られている。 しかし、脳内のニューロンのコーディングは、ピクセルとの整合性についての深い理解を欠いている。 従来の研究では、よりリアルで複雑な刺激をエミュレートするために、静的画像または静的画像から派生した人工ビデオが使用されている。 これらの単純なシナリオは視覚的コーディングに影響を及ぼす重要な要因を効果的に分けるのに役立つが、複雑な時間的関係は考慮されない。 自然界における視覚符号化の時間的特徴を分解するために,視覚変換器 (ViT) を予め導入した時空間畳み込みニューラルネットワークであるVi-STを提案する。 このモデルは、一般化テストにおいて堅牢な予測性能を示す。 さらに, 詳細なアブレーション実験により, 各時相加群の重要性を実証した。 さらに、時間的考察を統合し、異なる数のニューロン集団が相補的コーディングに与える影響を比較するために、視覚的符号化評価指標を導入する。 提案したVi-STは、脳内のダイナミックな視覚シーンのニューラルコーディングのための新しいモデリングフレームワークを実証し、映像の脳表現と神経活動とを効果的に一致させる。 コードはhttps://github.com/wurining/Vi-STで公開されている。

Our brains represent the ever-changing environment with neurons in a highly dynamic fashion. The temporal features of visual pixels in dynamic natural scenes are entrapped in the neuronal responses of the retina. It is crucial to establish the intrinsic temporal relationship between visual pixels and neuronal responses. Recent foundation vision models have paved an advanced way of understanding image pixels. Yet, neuronal coding in the brain largely lacks a deep understanding of its alignment with pixels. Most previous studies employ static images or artificial videos derived from static images for emulating more real and complicated stimuli. Despite these simple scenarios effectively help to separate key factors influencing visual coding, complex temporal relationships receive no consideration. To decompose the temporal features of visual coding in natural scenes, here we propose Vi-ST, a spatiotemporal convolutional neural network fed with a self-supervised Vision Transformer (ViT) prior, aimed at unraveling the temporal-based encoding patterns of retinal neuronal populations. The model demonstrates robust predictive performance in generalization tests. Furthermore, through detailed ablation experiments, we demonstrate the significance of each temporal module. Furthermore, we introduce a visual coding evaluation metric designed to integrate temporal considerations and compare the impact of different numbers of neuronal populations on complementary coding. In conclusion, our proposed Vi-ST demonstrates a novel modeling framework for neuronal coding of dynamic visual scenes in the brain, effectively aligning our brain representation of video with neuronal activity. The code is available at https://github.com/wurining/Vi-ST.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# AccDiffusion:高分解能画像生成のための高精度手法

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation ( http://arxiv.org/abs/2407.10738v1 )

ライセンス: Link先を確認
Zhihang Lin, Mingbao Lin, Meng Zhao, Rongrong Ji, (参考訳) 本稿では,パッチワイド高解像度画像生成におけるオブジェクト繰り返し問題に対処する。 AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。 本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。 そこで,我々のAccDiffusionは,バニラ画像認識プロンプトをパッチコンテンツ認識プロンプトの集合に分離することを提案し,それぞれがより正確な画像パッチ記述として機能する。 さらに、AccDiffusionはウィンドウインタラクションによる拡張サンプリングを導入し、高解像度画像生成におけるグローバル一貫性を改善した。 既存の手法との比較実験により,AccDiffusionは繰り返しオブジェクト生成の問題に効果的に対処し,高分解能画像生成の性能向上につながることが示された。 私たちのコードは \url{https://github.com/lzhxmu/AccDiffusion} でリリースされています。

This paper attempts to address the object repetition issue in patch-wise higher-resolution image generation. We propose AccDiffusion, an accurate method for patch-wise higher-resolution image generation without training. An in-depth analysis in this paper reveals an identical text prompt for different patches causes repeated object generation, while no prompt compromises the image details. Therefore, our AccDiffusion, for the first time, proposes to decouple the vanilla image-content-aware prompt into a set of patch-content-aware prompts, each of which serves as a more precise description of an image patch. Besides, AccDiffusion also introduces dilated sampling with window interaction for better global consistency in higher-resolution image generation. Experimental comparison with existing methods demonstrates that our AccDiffusion effectively addresses the issue of repeated object generation and leads to better performance in higher-resolution image generation. Our code is released at \url{https://github.com/lzhxmu/AccDiffusion}.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# TME-Box: Intel TME-MKメモリ暗号化によるスケーラブルなIn-Process分離

TME-Box: Scalable In-Process Isolation through Intel TME-MK Memory Encryption ( http://arxiv.org/abs/2407.10740v1 )

ライセンス: Link先を確認
Martin Unterguggenberger, Lukas Lamster, David Schrammel, Martin Schwarzl, Stefan Mangard, (参考訳) 効率的なクラウドコンピューティングは、単一のプロセス内でワークロードを実行することでパフォーマンスを最適化するために、プロセス内分離に依存している。 重厚なプロセス分離がなければ、メモリの安全性のエラーは、敵が他の同じ場所にいるテナントのプライベートデータを抽出したり、破損させたりすることで、重大なセキュリティ上の脅威となる。 例えば、MPKの16の保護ドメインは、プロセス毎に数千のクラウドワーカーを分離するのに不十分である。 その結果、クラウドサービスプロバイダは、コモディティx86マシン上で軽量なプロセス内分離を強く求めている。 本稿では,コモディティx86 CPU上で細粒度でスケーラブルなサンドボックスを実現するための,新しい分離技術であるTME-Boxを提案する。 仮想マシンの暗号化を目的としたIntel TME-MKを再利用することで、TME-Boxは軽量で効率的なプロセス内分離を提供する。 TME-Boxは、サンドボックスがコンパイラのインスツルメンテーションを通じて、指定された暗号化キーをメモリインタラクションに使用するように強制する。 この暗号化アイソレーションは、単一のキャッシュラインからフルページまで、きめ細かいアクセス制御を可能にし、フレキシブルなデータ再配置をサポートする。 さらに、TME-Boxの設計により、最大32Kの同時サンドボックスを効率的に分離できる。 本稿では,x86セグメントベースのアドレッシングを利用したパフォーマンス最適化TME-Boxプロトタイプを提案する。データアイソレーションでは5.2%,コードとデータアイソレーションでは9.7%,SPEC CPU2017ベンチマークスイートで評価した。

Efficient cloud computing relies on in-process isolation to optimize performance by running workloads within a single process. Without heavy-weight process isolation, memory safety errors pose a significant security threat by allowing an adversary to extract or corrupt the private data of other co-located tenants. Existing in-process isolation mechanisms are not suitable for modern cloud requirements, e.g., MPK's 16 protection domains are insufficient to isolate thousands of cloud workers per process. Consequently, cloud service providers have a strong need for lightweight in-process isolation on commodity x86 machines. This paper presents TME-Box, a novel isolation technique that enables fine-grained and scalable sandboxing on commodity x86 CPUs. By repurposing Intel TME-MK, which is intended for the encryption of virtual machines, TME-Box offers lightweight and efficient in-process isolation. TME-Box enforces that sandboxes use their designated encryption keys for memory interactions through compiler instrumentation. This cryptographic isolation enables fine-grained access control, from single cache lines to full pages, and supports flexible data relocation. In addition, the design of TME-Box allows the efficient isolation of up to 32K concurrent sandboxes. We present a performance-optimized TME-Box prototype, utilizing x86 segment-based addressing, that showcases geomean performance overheads of 5.2 % for data isolation and 9.7 % for code and data isolation, evaluated with the SPEC CPU2017 benchmark suite.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# データグラフを用いたLMMによる3次元推論の大規模ロボットミッション環境への応用

Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs ( http://arxiv.org/abs/2407.10743v1 )

ライセンス: Link先を確認
W. J. Meijer, A. C. Kemmeren, E. H. J. Riemens, J. E. Fransman, M. van Bekkum, G. J. Burghouts, J. D. van Mil, (参考訳) 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。 このオープンな問題を解決することは、広い空間をカバーする捜索救助任務など、多くの第一対応シナリオにおけるロボットの展開に特に関係している。 これらの設定でのLMMの使用は、LMMの入力サイズを制限する厳密なコンテキストウィンドウによって妨げられている。 そこで我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。 データグラフをグラフトラバースアルゴリズムと組み合わせることで、クエリに最も関連性の高い場所を優先順位付けし、3Dシーン言語タスクのスケーラビリティを向上させることができる。 データグラフを3次元のシーンで記述するが、これはポイントクラウドやガウススプラットなど、環境を表す高密度なモダリティによって容易に置き換えることができる。 本稿では,このデータグラフを2つの3次元シーン言語タスクユースケースに活用する可能性を,探索・救助ミッションの例で示す。

This paper addresses the challenge of scaling Large Multimodal Models (LMMs) to expansive 3D environments. Solving this open problem is especially relevant for robot deployment in many first-responder scenarios, such as search-and-rescue missions that cover vast spaces. The use of LMMs in these settings is currently hampered by the strict context windows that limit the LMM's input size. We therefore introduce a novel approach that utilizes a datagraph structure, which allows the LMM to iteratively query smaller sections of a large environment. Using the datagraph in conjunction with graph traversal algorithms, we can prioritize the most relevant locations to the query, thereby improving the scalability of 3D scene language tasks. We illustrate the datagraph using 3D scenes, but these can be easily substituted by other dense modalities that represent the environment, such as pointclouds or Gaussian splats. We demonstrate the potential to use the datagraph for two 3D scene language task use cases, in a search-and-rescue mission example.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# マスター方程式の定式化による非マルコフ型ポラロンドレッシングの捕捉

Capturing non-Markovian polaron dressing with the master equation formalism ( http://arxiv.org/abs/2407.10744v1 )

ライセンス: Link先を確認
Jake Iles-Smith, Owen Diba, Ahsan Nazir, (参考訳) 強結合と非マルコフ的状態における開量子系の力学を理解することは、恐ろしい理論上の課題である。 このような状況下で広く確立された近似法の一つが、ポーラロンマスター方程式(PME)である。 本研究では、非平衡開系力学によって誘導される非マルコフ偏光ドレッシングの影響を捉えるために、PMEの有効性を再評価し、拡張する。 数値的に正確な手法と比較して、標準的なPMEは、ポーラロン変換(例えば、パウリz基底の人口)と通勤する系観測器の力学をうまく予測するが、そうでないものを(例えば、コヒーレンス)完全に捉えるのに苦労する。 この制限は、ポラロン変換に固有のシステムと環境自由度の混合に起因し、ポラロンフレーム内の計算された期待値の精度に影響を与える。 中島-Zwanzig射影作用素の定式化を用いて、変換に通勤しない可観測物の正確な記述を提供する補正項を導入する。 正準スピンボソンモデルと散逸時間依存Landau-Zenerプロトコルという2つのケースにおける補正項の重要性を示す。

Understanding the dynamics of open quantum systems in strong coupling and non-Markovian regimes remains a formidable theoretical challenge. One popular and well-established method of approximation in these circumstances is provided by the polaron master equation (PME). In this work we reevaluate and extend the validity of the PME to capture the impact of non-Markovian polaron dressing, induced by non-equilibrium open system dynamics. By comparing with numerically exact techniques, we confirm that while the standard PME successfully predicts the dynamics of system observables that commute with the polaron transformation (e.g. populations in the Pauli z-basis), it can struggle to fully capture those that do not (e.g. coherences). This limitation stems from the mixing of system and environment degrees of freedom inherent to the polaron transformation, which affects the accuracy of calculated expectation values within the polaron frame. Employing the Nakajima-Zwanzig projection operator formalism, we introduce correction terms that provide an accurate description of observables that do not commute with the transformation. We demonstrate the significance of the correction terms in two cases, the canonical spin-boson model and a dissipative time-dependent Landau-Zener protocol, where they are shown to impact the system dynamics on both short and long timescales.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# OPEN:多視点3次元物体検出のためのオブジェクト指向位置埋め込み

OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection ( http://arxiv.org/abs/2407.10753v1 )

ライセンス: Link先を確認
Jinghua Hou, Tong Wang, Xiaoqing Ye, Zhe Liu, Shi Gong, Xiao Tan, Errui Ding, Jingdong Wang, Xiang Bai, (参考訳) 高精度な深度情報は,多視点3次元物体検出の性能向上に不可欠である。 画素単位の深度監視を利用した既存のマルチビュー3D検出器の成功にもかかわらず、彼らは2つの重要な現象を見落としている。 1)LiDAR点から得られた深度監視は、通常、物体の表面に分散されるが、3D物体中心の深さが不足しているため、既存のDECRベースの3D検出器とあまり親和性がない。 2) 遠方の物体では, 物体全体の微細な深さ推定がより困難である。 したがって,物体の3次元深度(あるいは物体の3次元中心)は正確な検出に不可欠である。 本稿では,OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案し,その主目的は,提案したオブジェクトワイド位置埋め込みを通じて,ネットワークにオブジェクトワイド情報を効果的に注入することである。 具体的には、まず、被写体深度を正確に推定するために、被写体深度マップを先行として、被写体深度エンコーダを用いる。 そして,提案手法を用いてオブジェクトの奥行き情報をトランスデコーダにエンコードし,最終検出のための3Dオブジェクト認識機能を生成する。 大規模実験により提案手法の有効性が検証された。 さらに、OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。

Accurate depth information is crucial for enhancing the performance of multi-view 3D object detection. Despite the success of some existing multi-view 3D detectors utilizing pixel-wise depth supervision, they overlook two significant phenomena: 1) the depth supervision obtained from LiDAR points is usually distributed on the surface of the object, which is not so friendly to existing DETR-based 3D detectors due to the lack of the depth of 3D object center; 2) for distant objects, fine-grained depth estimation of the whole object is more challenging. Therefore, we argue that the object-wise depth (or 3D center of the object) is essential for accurate detection. In this paper, we propose a new multi-view 3D object detector named OPEN, whose main idea is to effectively inject object-wise depth information into the network through our proposed object-wise position embedding. Specifically, we first employ an object-wise depth encoder, which takes the pixel-wise depth map as a prior, to accurately estimate the object-wise depth. Then, we utilize the proposed object-wise position embedding to encode the object-wise depth information into the transformer decoder, thereby producing 3D object-aware features for final detection. Extensive experiments verify the effectiveness of our proposed method. Furthermore, OPEN achieves a new state-of-the-art performance with 64.4% NDS and 56.7% mAP on the nuScenes test benchmark.
翻訳日:2024-07-16 15:01:44 公開日:2024-07-15
# 批判的物語と陰謀を区別するものは何か : 反抗的談話の計算分析

What distinguishes conspiracy from critical narratives? A computational analysis of oppositional discourse ( http://arxiv.org/abs/2407.10745v1 )

ライセンス: Link先を確認
Damir Korenčić, Berta Chulvi, Xavier Bonet Casals, Alejandro Toselli, Mariona Taulé, Paolo Rosso, (参考訳) インターネット上での陰謀論の現在の普及は、多くの計算手法によって取り組まれている重要な問題である。 しかし、これらのアプローチは、陰謀論を含むテキストと、単純に批判的であり、主流の物語に反するテキストとを区別する関連性を認識できない。 さらに、反対の物語における集団間紛争の役割にはほとんど注意が払わない。 我々は,共謀と批判的テキストを区別し,グループ間対立のスパンレベルカテゴリを定義する,新たな話題に依存しないアノテーションスキームを提案して貢献する。 XAI-DisInfodemics corpus(英語とスペイン語)は、COVID-19(言語毎の5000メッセージ)に関連するTelegramメッセージの高品質なアノテーションを含んでいる。 また,強力なベースライン解が得られるような実験を行うことにより,NLPに基づく自動化の実現可能性を示す。 最後に、集団間紛争の促進と暴力と怒りの存在が、対立する2つの物語、すなわち陰謀と批判の区別の鍵となる側面であることを示す分析を行う。

The current prevalence of conspiracy theories on the internet is a significant issue, tackled by many computational approaches. However, these approaches fail to recognize the relevance of distinguishing between texts which contain a conspiracy theory and texts which are simply critical and oppose mainstream narratives. Furthermore, little attention is usually paid to the role of inter-group conflict in oppositional narratives. We contribute by proposing a novel topic-agnostic annotation scheme that differentiates between conspiracies and critical texts, and that defines span-level categories of inter-group conflict. We also contribute with the multilingual XAI-DisInfodemics corpus (English and Spanish), which contains a high-quality annotation of Telegram messages related to COVID-19 (5,000 messages per language). We also demonstrate the feasibility of an NLP-based automatization by performing a range of experiments that yield strong baseline solutions. Finally, we perform an analysis which demonstrates that the promotion of intergroup conflict and the presence of violence and anger are key aspects to distinguish between the two types of oppositional narratives, i.e., conspiracy vs. critical.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# Codebook LLMs: LLM使用のための政治科学のコードブックへの適応とLLMの追跡コードブックへの適応

Codebook LLMs: Adapting Political Science Codebooks for LLM Use and Adapting LLMs to Follow Codebooks ( http://arxiv.org/abs/2407.10747v1 )

ライセンス: Link先を確認
Andrew Halterman, Katherine A. Keith, (参考訳) コンストラクトを運用し、アノテーションの手順を概説する文書であるコードブックは、構造化されていない政治文書をコーディングする際に、ほぼ普遍的に社会科学者によって使用されている。 近年,手書きアノテーションのコストを削減すべく,政治学者はテキストデータのラベル付けと解析を行うための生成大型言語モデル (LLM) を検討している。 しかし、分類にLLMを使った以前の研究は、普遍的なラベルの仮定に暗黙的に依存しており、文書の正しい分類は、クラスラベルまたは最小限の定義だけで可能であり、LCMが事前学習中に誘導的に学習する情報である。 対照的に、有効な測定を気にする政治科学者は、代わりにコードブック・コンストラクト・ラベルの仮定を行うべきだと論じる。 本研究では、3つの政治科学データセットとそのオリジナルのコードブックを収集・キュレートし、LLMがコードブックの命令に準拠するかどうか、コードブックの書き換えによって性能が向上するか否か、およびコードブック-文書-ラベルタプル上の命令チューニング LLM がゼロショット分類よりも性能を向上させるかどうかを理解するための一連の実験を行う。 Mistral 7B Instruct を LLM として使用すると、オリジナルのコードブックの再構築によってゼロショットのパフォーマンスがわずかに向上することがわかったが、このモデルはまだ、コードブックの制約を満たすのに苦労している。 最適に、私たちのデータセットの1つで命令チューニングを行うMistralは、ゼロショット推論(0.76対0.53マイクロF1)よりも大幅に向上する。 私たちは、コードブック固有のタスク、仮定、命令チューニングパイプライン、および半構造化されたLLMコードブックフォーマットの概念化によって、政治科学者がLLMの時代に容易に適応できることを願っています。

Codebooks -- documents that operationalize constructs and outline annotation procedures -- are used almost universally by social scientists when coding unstructured political texts. Recently, to reduce manual annotation costs, political scientists have looked to generative large language models (LLMs) to label and analyze text data. However, previous work using LLMs for classification has implicitly relied on the universal label assumption -- correct classification of documents is possible using only a class label or minimal definition and the information that the LLM inductively learns during its pre-training. In contrast, we argue that political scientists who care about valid measurement should instead make a codebook-construct label assumption -- an LLM should follow the definition and exclusion criteria of a construct/label provided in a codebook. In this work, we collect and curate three political science datasets and their original codebooks and conduct a set of experiments to understand whether LLMs comply with codebook instructions, whether rewriting codebooks improves performance, and whether instruction-tuning LLMs on codebook-document-label tuples improves performance over zero-shot classification. Using Mistral 7B Instruct as our LLM, we find re-structuring the original codebooks gives modest gains in zero-shot performance but the model still struggles to comply with the constraints of the codebooks. Optimistically, instruction-tuning Mistral on one of our datasets gives significant gains over zero-shot inference (0.76 versus 0.53 micro F1). We hope our conceptualization of the codebook-specific task, assumptions, and instruction-tuning pipeline as well our semi-structured LLM codebook format will help political scientists readily adapt to the LLM era.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# 位相制御のない準決定論的量子探索アルゴリズム

Near-deterministic quantum search algorithm without phase control ( http://arxiv.org/abs/2407.10748v1 )

ライセンス: Link先を確認
Zhen Wang, Kun Zhang, Vladimir Korepin, (参考訳) グロバーのアルゴリズムは、構造化されていない探索問題を解く。 グローバーのアルゴリズムは、4つのうち1つを検索した場合にのみ、ターゲット項目を確実に見つけることができる。 グローバーのアルゴリズムは、オラクルまたは拡散作用素の位相が微妙に設計されている場合、決定論的である。 位相の精度は問題になるかもしれない。 位相制御のないほぼ決定論的量子探索アルゴリズムを提案する。 我々のアルゴリズムはGroverのアルゴリズムと同じオラクルと拡散演算子を持つ。 さらに1つのコンポーネントは、再スケール拡散演算子である。 部分的にはデータベース上で動作します。 部分拡散演算子によるグローバーのアルゴリズムの成功確率を2つの異なる方法で改善する方法を示す。 可能なコストは、オラクルへの1つまたは2つ以上のクエリである。 また,8,16,32のうち1つを探索する場合に決定論的探索アルゴリズムを設計する。

Grover's algorithm solves the unstructured search problem. Grover's algorithm can find the target item with certainty only if searching one out of four. Grover's algorithm can be deterministic if the phase of the oracle or the diffusion operator is delicately designed. The precision of the phases could be a problem. We propose a near-deterministic quantum search algorithm without the phase control. Our algorithm has the same oracle and diffusion operators as Grover's algorithm. One additional component is the rescaled diffusion operator. It acts partially on the database. We show how to improve the success probability of Grover's algorithm by the partial diffusion operator in two different ways. The possible cost is one or two more queries to the oracle. We also design the deterministic search algorithm when searching one out of eight, sixteen, and thirty-two.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# SEED: ポイントクラウドにおけるシンプルで効果的な3D DETR

SEED: A Simple and Effective 3D DETR in Point Clouds ( http://arxiv.org/abs/2407.10749v1 )

ライセンス: Link先を確認
Zhe Liu, Jinghua Hou, Xiaoqing Ye, Tong Wang, Jingdong Wang, Xiang Bai, (参考訳) 近年, 検出変換器 (DETR) は, エレガントな枠組みにより, 2次元検出において支配的な位置を占めつつある。 しかし, DETRを用いた3次元点雲検出装置は, 良好な性能を得るには依然として困難である。 主な課題は2つある、と私たちは主張する。 1) 点雲の分散度が高く,不均一な分布のため,適切なオブジェクトクエリの取得は困難である。 2) 点雲のリッチな幾何学的構造を利用して, 効率的な問合せ処理を実現する方法については, 完全には検討されていない。 そこで本研究では,DQSモジュールと変形可能なグリッドアテンション(DGA)モジュールを含む点群から3Dオブジェクトを検出するための,簡便で効果的な3D DETR法を提案する。 より具体的には、適切なクエリを得るために、DQSはまず、予測された信頼度スコアによって大量のクエリを保持するために高いリコールを保証し、次に、推定された品質スコアに従って高品質なクエリを抽出する。 DGAは、各参照ボックスを基準点としてグリッドに均一に分割し、予測されたオフセットを使用してフレキシブルな受信フィールドを達成し、ネットワークが関連する領域に集中し、より情報的な特徴を捉えることができる。 DQSとDGAに関する大規模なアブレーション研究は、その効果を実証している。 さらに,大規模なWaymoとnuScenesのデータセット上での最先端検出性能を実現し,提案手法の優位性を実証した。 コードはhttps://github.com/happinesslz/SEEDで公開されている。

Recently, detection transformers (DETRs) have gradually taken a dominant position in 2D detection thanks to their elegant framework. However, DETR-based detectors for 3D point clouds are still difficult to achieve satisfactory performance. We argue that the main challenges are twofold: 1) How to obtain the appropriate object queries is challenging due to the high sparsity and uneven distribution of point clouds; 2) How to implement an effective query interaction by exploiting the rich geometric structure of point clouds is not fully explored. To this end, we propose a simple and effective 3D DETR method (SEED) for detecting 3D objects from point clouds, which involves a dual query selection (DQS) module and a deformable grid attention (DGA) module. More concretely, to obtain appropriate queries, DQS first ensures a high recall to retain a large number of queries by the predicted confidence scores and then further picks out high-quality queries according to the estimated quality scores. DGA uniformly divides each reference box into grids as the reference points and then utilizes the predicted offsets to achieve a flexible receptive field, allowing the network to focus on relevant regions and capture more informative features. Extensive ablation studies on DQS and DGA demonstrate its effectiveness. Furthermore, our SEED achieves state-of-the-art detection performance on both the large-scale Waymo and nuScenes datasets, illustrating the superiority of our proposed method. The code is available at https://github.com/happinesslz/SEED
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# 密度植生中の異常を検知・追跡する自律型ドローン群

An Autonomous Drone Swarm for Detecting and Tracking Anomalies among Dense Vegetation ( http://arxiv.org/abs/2407.10754v1 )

ライセンス: Link先を確認
Rakesh John Amala Arokia Nathan, Sigrid Strand, Daniel Mehrwald, Dmitriy Shutin, Oliver Bimber, (参考訳) ドローンの群れは、センサーの開口を増大させ、自然の群れの振る舞いを模倣させ、その開口を局所的な条件に適応させることでサンプリングを強化する。 このような手法により、密集した目標の検出と追跡が事実上実現可能であることを実証する。 従来の航空画像に適用された物体分類は, 隠蔽のランダム性に乏しく, 光遮蔽条件下であっても非効率であるが, 合成開口積分画像に適用された異常検出は森林などの密集植生に対して堅牢であり, 事前訓練されたクラスとは無関係である。 我々の自律群集は未知または予期せぬ事象の環境を探索し、サンプリングパターンを継続的に適応させ、局所的な視聴条件に最適化する。 6機のドローンによる実生活実験では、平均位置精度0.39m、平均精度93.2%、平均リコール95.9%を達成した。 ここで、適応粒子群最適化は、検出信頼度と予測対象外見を考慮する。 本研究では,高次元パラメータ空間の計算コスト最適化の必要性を排除し,合成開口画像統合プロセスにセンサノイズを効果的に組み込むことができることを示す。 最後に,70~120Mbit/sの広帯域ビデオおよびテレメトリデータの低遅延伝送(約80msのラウンドトリップ時間)と高速処理(約600msのフォーメーションステップ)をサポートし,最大10台のドローンの群れをスワム制御する完全ハード・ソフトウェアフレームワークを提案する。

Swarms of drones offer an increased sensing aperture, and having them mimic behaviors of natural swarms enhances sampling by adapting the aperture to local conditions. We demonstrate that such an approach makes detecting and tracking heavily occluded targets practically feasible. While object classification applied to conventional aerial images generalizes poorly the randomness of occlusion and is therefore inefficient even under lightly occluded conditions, anomaly detection applied to synthetic aperture integral images is robust for dense vegetation, such as forests, and is independent of pre-trained classes. Our autonomous swarm searches the environment for occurrences of the unknown or unexpected, tracking them while continuously adapting its sampling pattern to optimize for local viewing conditions. In our real-life field experiments with a swarm of six drones, we achieved an average positional accuracy of 0.39 m with an average precision of 93.2% and an average recall of 95.9%. Here, adapted particle swarm optimization considers detection confidences and predicted target appearance. We show that sensor noise can effectively be included in the synthetic aperture image integration process, removing the need for a computationally costly optimization of high-dimensional parameter spaces. Finally, we present a complete hard- and software framework that supports low-latency transmission (approx. 80 ms round-trip time) and fast processing (approx. 600 ms per formation step) of extensive (70-120 Mbit/s) video and telemetry data, and swarm control for swarms of up to ten drones.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# 世界映画祭の国際的表現の社会経済要因--大富裕層に傾倒するが、小国が勝てる

Socioeconomic factors of national representation in the global film festival circuit: skewed toward the large and wealthy, but small countries can beat the odds ( http://arxiv.org/abs/2407.10755v1 )

ライセンス: Link先を確認
Andres Karjus, (参考訳) 本研究では,グローバル・フィルム・フェスティバル・サーキットにおいて,各国の経済・人口・地理的要因がどのように表現されるかを分析する。 Cannes Film MarketのCinandoプラットフォームからのフェスティバルプログラミング情報を含む、いくつかのオープンアクセスデータセットの組み合わせに依存しており、世界中で約600のフェスティバルで3万本以上の映画の上映をカバーしている。 フェスティバル画面は、確かに大富裕国の映画に支配されているが、その偏見は世界の人口・経済格差に完全に比例するものではなく、いくつかの小国が予想以上に優れた成績を収めていることが示されている。 さらに、小国の映画がいかに文化の多様性に寄与するか、そして国がいかに文化的「貿易収支」のダイナミクスの違いを計算シミュレーションで分析し、ネット輸出者とフェスティバル映画の輸入者との違いを明らかにした。 本研究は,映画祭におけるバランスの取れた表現の重要性と,文化多様性向上の公共的価値を強調するものである。 定量的な祭典プログラムと文化イベント分析へのデータ駆動の洞察とアプローチは、より包括的で多様な文化的景観を育むことを目的とした映画祭の主催者や政策立案者の両方にとって有用であることが期待されている。

This study analyzes how economic, demographic, and geographic factors predict the representation of different countries in the global film festival circuit. It relies on the combination of several open access datasets, including festival programming information from the Cinando platform of the Cannes Film Market, covering more than 30,000 screenings of over 20,000 films in almost 600 festivals across the world over a decade. It is shown that while the festival screen is indeed dominated by films from large affluent countries, the bias is nevertheless not fully proportional to the large demographic and economic disparities across the world, and that several small countries perform better than expected. It is further analyzed via computational simulations how much including films from smaller countries contributes to cultural diversity, and how countries differ in cultural "trade balance" dynamics, revealing differences between net exporters and importers of festival films. This research underscores the importance of balanced representation in film festivals and the public value of increasing cultural diversity. The data-driven insights and approaches to quantitative festival program and cultural event analytics are hoped to be useful for both the academic community as well as film festival organizers and policymakers aiming to foster more inclusive and diverse cultural landscapes.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# GTPT:効率的な人文推定のためのグループ型トーケンプルーニング変換器

GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation ( http://arxiv.org/abs/2407.10756v1 )

ライセンス: Link先を確認
Haonan Wang, Jie Liu, Jie Tang, Gangshan Wu, Bo Xu, Yanbing Chou, Yong Wang, (参考訳) 近年、人間の2次元ポーズ推定は、公開ベンチマークにおいて大きな進歩を遂げている。 しかし、これらのアプローチの多くは、パラメトリック量と計算オーバーヘッドの多さにより、産業社会における適用可能性の低下という課題に直面している。 効率的な人間のポーズ推定は依然としてハードルであり、特に多くのキーポイントを持つ全身のポーズ推定ではハードルとなる。 人間のポーズを効率よく推定する現在の手法は主にCNNに依存しているのに対し、我々はトランスの利点をフル活用するグループベースのToken Pruning Transformer (GTPT)を提案する。 GTPTは、キーポイントを粗い方法で徐々に導入することにより、計算負担を軽減する。 高い性能を確保しながら、計算オーバーヘッドを最小限に抑える。 さらに、GTPTはキーポイントトークンとプーンをグループ化し、冗長性を低減しつつモデルパフォーマンスを改善する。 計算オーバーヘッドの少ないグローバルインタラクションを実現するために,異なるグループ間でのMHGA(Multi-Head Group Attention)を提案する。 我々はCOCOとCOCO-WholeBodyの実験を行った。 他の手法と比較して、実験結果から、GTPTはより少ない計算で、特に多数のキーポイントを持つ全身で高い性能を達成できることが示された。

In recent years, 2D human pose estimation has made significant progress on public benchmarks. However, many of these approaches face challenges of less applicability in the industrial community due to the large number of parametric quantities and computational overhead. Efficient human pose estimation remains a hurdle, especially for whole-body pose estimation with numerous keypoints. While most current methods for efficient human pose estimation primarily rely on CNNs, we propose the Group-based Token Pruning Transformer (GTPT) that fully harnesses the advantages of the Transformer. GTPT alleviates the computational burden by gradually introducing keypoints in a coarse-to-fine manner. It minimizes the computation overhead while ensuring high performance. Besides, GTPT groups keypoint tokens and prunes visual tokens to improve model performance while reducing redundancy. We propose the Multi-Head Group Attention (MHGA) between different groups to achieve global interaction with little computational overhead. We conducted experiments on COCO and COCO-WholeBody. Compared to other methods, the experimental results show that GTPT can achieve higher performance with less computation, especially in whole-body with numerous keypoints.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# サブネット間の確率的局所競争によるエッジの連続的深層学習

Continual Deep Learning on the Edge via Stochastic Local Competition among Subnetworks ( http://arxiv.org/abs/2407.10758v1 )

ライセンス: Link先を確認
Theodoros Christophides, Kyriakos Tolias, Sotirios Chatzis, (参考訳) エッジデバイス上での継続的な学習は、リソースの制約が厳しいため、ユニークな課題を生んでいる。 本稿では,ネットワークの深部メモリフットプリントと計算負荷を大幅に削減する,確率的競合原理を活用する新しい手法を提案する。 具体的には,各タスクの表現に勝つために局所的に競合するユニットのブロックを構成するディープネットワークを提案する。 このタイプのネットワーク組織は、各ネットワーク層からのタスク固有の疎らな表現をもたらし、その疎度パターンはトレーニング中に取得され、タスク間で異なる。 重要な点として,本手法は重量勾配と重量勾配の両方を分散させ,エッジデバイスでのトレーニングを容易にする。 これはブロック内の各ユニットの勝利確率に基づいて実行される。 推論中、ネットワークは、入賞ユニットと、手前のタスクの非入賞ユニットに関連するすべての重みのみを保持する。 このように、当社のアプローチはエッジデバイスへのデプロイメントに特化しており、リソース制限された環境での継続的な学習のための効率的でスケーラブルなソリューションを提供する。

Continual learning on edge devices poses unique challenges due to stringent resource constraints. This paper introduces a novel method that leverages stochastic competition principles to promote sparsity, significantly reducing deep network memory footprint and computational demand. Specifically, we propose deep networks that comprise blocks of units that compete locally to win the representation of each arising new task; competition takes place in a stochastic manner. This type of network organization results in sparse task-specific representations from each network layer; the sparsity pattern is obtained during training and is different among tasks. Crucially, our method sparsifies both the weights and the weight gradients, thus facilitating training on edge devices. This is performed on the grounds of winning probability for each unit in a block. During inference, the network retains only the winning unit and zeroes-out all weights pertaining to non-winning units for the task at hand. Thus, our approach is specifically tailored for deployment on edge devices, providing an efficient and scalable solution for continual learning in resource-limited environments.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# Qwen2-Audioテクニカルレポート

Qwen2-Audio Technical Report ( http://arxiv.org/abs/2407.10759v1 )

ライセンス: Link先を確認
Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou, (参考訳) 本稿では,Qwen2-Audioと呼ばれる大規模音声言語モデルの最新の進歩を紹介する。 複雑な階層タグとは対照的に、異なるデータやタスクに対して自然言語プロンプトを利用することで事前学習プロセスを簡素化し、さらにデータ量を拡大した。 我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。 音声チャットモードでは、ユーザーはテキスト入力なしでQwen2-Audioと自由に音声対話を行うことができる。 音声分析モードでは、ユーザは対話中に分析するための音声とテキストの指示を提供することができる。 音声チャットと音声分析モードを切り替えるシステムプロンプトは一切使用していません。 Qwen2-Audioは、音声中のコンテンツをインテリジェントに理解し、音声コマンドに従って適切な応答を行うことができる。 例えば、音声、複数話者会話、音声コマンドを同時に含む音声セグメントでは、Qwen2-Audioはコマンドを直接理解し、音声に対する解釈と応答を提供する。 さらに、DPOは、望ましい振る舞いに対する事実性と順守の観点から、モデルの性能を最適化した。 AIR-Benchの評価結果によると、Qwen2-Audioは、オーディオ中心の命令追従機能に焦点を当てたテストにおいて、Gemini-1.5-proのような以前のSOTAよりも優れていた。 Qwen2-Audioはマルチモーダル言語コミュニティの発展を促進する目的でオープンソース化されている。

We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model's performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# スマートアダプティブマニュファクチャリングのための物理インフォームド機械学習

Physics-Informed Machine Learning for Smart Additive Manufacturing ( http://arxiv.org/abs/2407.10761v1 )

ライセンス: Link先を確認
Rahul Sharma, Maziar Raissi, Y. B. Guo, (参考訳) 物理ベースの計算製造と比較して、機械学習(ML)のようなデータ駆動モデルは、スマート製造を実現するための代替手法である。 しかし、データ駆動型MLの"ブラックボックス"の性質は、結果の解釈に挑戦している。 一方、データ効率のよいMLアルゴリズムを開発するために、物理法則を効果的に利用することはできない。 本稿では, ニューラルネットワークと物理法則を統合し, モデル精度, 透明性, およびレーザー金属蒸着法(LMD)のケーススタディによる一般化を改良することにより, MLの利点と高度な製造法則を活用することに焦点を当てた物理インフォームド機械学習(PIML)モデルの開発について述べる。

Compared to physics-based computational manufacturing, data-driven models such as machine learning (ML) are alternative approaches to achieve smart manufacturing. However, the data-driven ML's "black box" nature has presented a challenge to interpreting its outcomes. On the other hand, governing physical laws are not effectively utilized to develop data-efficient ML algorithms. To leverage the advantages of ML and physical laws of advanced manufacturing, this paper focuses on the development of a physics-informed machine learning (PIML) model by integrating neural networks and physical laws to improve model accuracy, transparency, and generalization with case studies in laser metal deposition (LMD).
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# NeRF画像合成による6次元空間推定のための領域一般化

Domain Generalization for 6D Pose Estimation Through NeRF-based Image Synthesis ( http://arxiv.org/abs/2407.10762v1 )

ライセンス: Link先を確認
Antoine Legrand, Renaud Detry, Christophe De Vleeschouwer, (参考訳) 本研究では,6次元ポーズ推定ネットワークの一般化能力を向上させるために,列車セットの多様性を高める新しい拡張手法を提案する。 この目的のために、ニューラルネットワーク場は合成画像から訓練され、拡張集合を生成するために利用される。 我々の手法は画像の合成を可能にすることで初期集合を豊かにする。 (i)見当たらない視点 (二 外観外挿による豊かな照明条件、及び (三)無作為なテクスチャ。 本研究では,宇宙船のポーズ推定の難易度に関する拡張手法を検証するとともに,ポーズ推定の一般化能力を大幅に向上させることを示す。 SPEED+データセットでは、両方の対象領域におけるポーズの誤差を50%削減する。

This work introduces a novel augmentation method that increases the diversity of a train set to improve the generalization abilities of a 6D pose estimation network. For this purpose, a Neural Radiance Field is trained from synthetic images and exploited to generate an augmented set. Our method enriches the initial set by enabling the synthesis of images with (i) unseen viewpoints, (ii) rich illumination conditions through appearance extrapolation, and (iii) randomized textures. We validate our augmentation method on the challenging use-case of spacecraft pose estimation and show that it significantly improves the pose estimation generalization capabilities. On the SPEED+ dataset, our method reduces the error on the pose by 50% on both target domains.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# MSegRNN:長期連続予測のためのMambaを用いたSegRNNモデルの拡張

MSegRNN:Enhanced SegRNN Model with Mamba for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2407.10768v1 )

ライセンス: Link先を確認
GaoXiang Zhao, XiaoQiang Wang, (参考訳) 長期連続予測の分野は、広範囲の見返りウィンドウと長距離予測ステップを扱う要求を処理し、RNNベースの方法論に重大な課題を提起している。 これらのうち、堅牢なRNN駆動モデルであるSegRNNは、最先端のアーキテクチャを維持しながら、最先端の成果を達成するためにLTSF分析にかなりの注目を集めている。 同時に、Mamba構造は、情報選択の能力により、中小のモデルでその利点を実証している。 本研究では,微調整された単一層マンバ構造を用いて情報を前処理するSegRNNの変種を紹介する。 さらに、暗黙のセグメンテーションと残留構造をモデルエンコーディングセクションに組み込んで、RNNアーキテクチャ固有のデータ反復サイクルをさらに減らし、チャネル間相関を暗黙的に統合する。 この変種はMSegRNNと呼ばれ、Mamba構造を用いて有用な情報を選択し、変換シーケンスを生成する。 線形戦略適応微分は、性能を向上しつつ、元のSegRNNの優れたメモリ効率を保っている。 実世界のLTSFデータセットに対する実証的な評価は,本モデルの優れた性能を示し,LTSF手法の進歩に寄与する。

The field of long-term time series forecasting demands handling extensive look-back windows and long-range prediction steps, posing significant challenges for RNN-based methodologies. Among these, SegRNN, a robust RNN-driven model, has gained considerable attention in LTSF analysis for achieving state-of-the-art results while maintaining a remarkably streamlined architecture. Concurrently, the Mamba structure has demonstrated its advantages in small to medium-sized models due to its capability for information selection. This study introduces a variant of SegRNN that preprocesses information using a fine-tuned single-layer Mamba structure. Additionally, it incorporates implicit segmentation and residual structures into the model's encoding section to further reduce the inherent data iterative cycles of RNN architectures and implicitly integrate inter-channel correlations. This variant, named MSegRNN, utilizes the Mamba structure to select useful information, resulting in a transformed sequence. The linear-strategy-adapted derivative retains the superior memory efficiency of the original SegRNN while demonstrating enhanced performance. Empirical evaluations on real-world LTSF datasets demonstrate the superior performance of our model, thereby contributing to the advancement of LTSF methodologies.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# ノイズ下における量子データセンター

Quantum Data Centers in the Presence of Noise ( http://arxiv.org/abs/2407.10769v1 )

ライセンス: Link先を確認
K. Campbell, A. Lawey, M. Razavi, (参考訳) 量子データセンター(QDC)は、現代の量子コンピュータのスケーラビリティの課題を克服することができる。 シングルプロセッサのモノリシック量子コンピュータは、クロストークの増加と、キュービット数が増加するとゲートの実装が困難になる。 QDCでは、複数の量子処理ユニット(QPU)が短距離で連結され、任意のプロセッサ上のキュービット数を増やすことなく計算キュービットの総数を増やすことができる。 これにより、各QPUの操作で発生するエラーを小さく抑えることができるが、QPU間の絡み合い分布中に発生する遅延コストとエラーのために、システムに追加のノイズを加えることができる。 本研究では,2つのQPUを用いた古典シミュレーションQDCを用いて,これらのノイズの相対的影響について検討し,リモートゲート,キャットコム,TPコムの2つの主要な実装方法のロバスト性を比較した。 ゲート数やQPU間絡み合わされたリンク数を考慮すると、量子回路からの出力の忠実度を予測できないことが多く、分散量子回路におけるエラー伝播の理解の向上がコンパイルの大幅な最適化の機会であることを推測する。

Quantum Data Centers (QDCs) could overcome the scalability challenges of modern quantum computers. Single-processor monolithic quantum computers are affected by increased cross talk and difficulty of implementing gates when the number of qubits is increased. In a QDC, multiple quantum processing units (QPUs) are linked together over short distances, allowing the total number of computational qubits to be increased without increasing the number of qubits on any one processor. In doing so, the error incurred by operations at each QPU can be kept small, however additional noise will be added to the system due to the latency cost and errors incurred during inter-QPU entanglement distribution. We investigate the relative impact of these different types of noise using a classically simulated QDC with two QPUs and compare the robustness to noise of the two main ways of implementing remote gates, cat-comm and TP-comm. We find that considering the quantity of gates or inter-QPU entangled links is often inadequate to predict the output fidelity from a quantum circuit and infer that an improved understanding of error propagation during distributed quantum circuits may represent a significant optimisation opportunity for compilation.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# 制約付き強化学習のための政策勾配のラストイテレートグローバル収束

Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning ( http://arxiv.org/abs/2407.10775v1 )

ライセンス: Link先を確認
Alessandro Montenegro, Marco Mussi, Matteo Papini, Alberto Maria Metelli, (参考訳) 制約付き強化学習(CRL)は、しばしば予測コストとして定式化されるドメイン固有の制約を満たしながら、期待したリターンを最大化することで、エージェントが目標を達成するためのシーケンシャルな意思決定問題に取り組む。 この設定では、ポリシーベースの手法は、継続的制御問題に対処する際のいくつかの利点があるため、広く使われている。 これらの手法は、確率的政策のパラメータを直接学習するか、あるいは確率的超政治のパラメータを直接学習するかによって、アクションベースまたはパラメータベースの探索戦略を用いて政策空間を探索する。 本稿では,2変数正則化による漸近/退化の代替手法を頼りに,勾配に基づく主元双対アルゴリズムによるCRL問題に対処する一般的なフレームワークを提案する。 我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、(弱)勾配支配の仮定の下でグローバルな最終点収束保証を示し、既存の結果を改善し、一般化する。 そこで我々は, C-PGAE と C-PGPE を, アクションベースとパラメータベースの C-PGPE をそれぞれ設計した。 最後に,制約付き制御問題に対するアルゴリズムの数値的検証を行い,それらを最先端のベースラインと比較し,その効果を実証する。

Constrained Reinforcement Learning (CRL) tackles sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints, which are often formulated as expected costs. In this setting, policy-based methods are widely used since they come with several advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or parameter-based exploration strategy, depending on whether they learn directly the parameters of a stochastic policy or those of a stochastic hyperpolicy. In this paper, we propose a general framework for addressing CRL problems via gradient-based primal-dual algorithms, relying on an alternate ascent/descent scheme with dual-variable regularization. We introduce an exploration-agnostic algorithm, called C-PG, which exhibits global last-iterate convergence guarantees under (weak) gradient domination assumptions, improving and generalizing existing results. Then, we design C-PGAE and C-PGPE, the action-based and the parameter-based versions of C-PG, respectively, and we illustrate how they naturally extend to constraints defined in terms of risk measures over the costs, as it is often requested in safety-critical scenarios. Finally, we numerically validate our algorithms on constrained control problems, and compare them with state-of-the-art baselines, demonstrating their effectiveness.
翻訳日:2024-07-16 14:51:56 公開日:2024-07-15
# 学生の「AIガイダンス」の要因を探る - 宿題にAIを使うことの罪悪感はあるか?

Exploring the Factors of "AI Guilt" Among Students -- Are You Guilty of Using AI in Your Homework? ( http://arxiv.org/abs/2407.10777v1 )

ライセンス: Link先を確認
Cecilia Ka Yuk Chan, (参考訳) 本研究では,中学生における「AI罪」の現象について考察する。これは,人間によって伝統的に行われている学術的課題におけるAIツールの使用による道徳的不快感の一形態である。 この研究は質的な方法論を通じて、AIの罪に寄与する要因、その社会的・心理的影響、そして教育実践に影響を及ぼす要因を調査している。 その結果、AIの罪悪感に対する3つの主要な側面が明らかになった。 この結果は、学術的完全性を再定義し、教育において私たちが何に価値があるかを再考する考え方を変える必要があることを示唆している。 この研究はまた、倫理的ガイドラインと教育支援の重要性を強調し、学生が教育におけるAIの複雑さをナビゲートし、学習成果を高めながら罪悪感を減少させるのに役立つ。

This study explores the phenomenon of "AI guilt" among secondary school students, a form of moral discomfort arising from the use of AI tools in academic tasks traditionally performed by humans. Through qualitative methodologies, the research examines the factors contributing to AI guilt, its social and psychological impacts, and its implications for educational practices. The findings revealed three main dimensions for AI guilt - perceived laziness and authenticity, fear of judgment, and identity and self-efficacy concerns. The findings suggest a need to redefine academic integrity and shift our mindset to reconsider what we should value in education. The study also emphasizes the importance of ethical guidelines and educational support and provides implications to help students navigate the complexities of AI in education, reducing feelings of guilt while enhancing learning outcomes.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 失敗リンク:因果機械学習におけるアロケーション性能

The Missing Link: Allocation Performance in Causal Machine Learning ( http://arxiv.org/abs/2407.10779v1 )

ライセンス: Link先を確認
Unai Fischer-Abaigar, Christoph Kern, Frauke Kreuter, (参考訳) 自動意思決定システム(ADM)は、社会福祉や医療といった様々な問題領域に展開されている。 最近の研究は、ADMシステムにおける因果MLモデルの重要性を強調している。 これらの課題が特定の下流意思決定タスクのパフォーマンスに与える影響についての研究は限られている。 このギャップに対処するため、私たちは、ひとつのCATEモデルのパフォーマンスが、さまざまな意思決定シナリオで大きく異なる可能性があることを示すために、求職者の包括的な実世界のデータセットを活用し、予測やアロケーションに対する分散シフトのような課題の差分の影響を強調します。

Automated decision-making (ADM) systems are being deployed across a diverse range of critical problem areas such as social welfare and healthcare. Recent work highlights the importance of causal ML models in ADM systems, but implementing them in complex social environments poses significant challenges. Research on how these challenges impact the performance in specific downstream decision-making tasks is limited. Addressing this gap, we make use of a comprehensive real-world dataset of jobseekers to illustrate how the performance of a single CATE model can vary significantly across different decision-making scenarios and highlight the differential influence of challenges such as distribution shifts on predictions and allocations.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# グラディエントな輝きの相関が消える

Correlations Are Ruining Your Gradient Descent ( http://arxiv.org/abs/2407.10780v1 )

ライセンス: Link先を確認
Nasir Ahmad, (参考訳) ここでは、(自然な)勾配降下、データのデコレーション、およびバックプロパゲーションの近似方法のトピックを対話に持ち込む。 自然勾配降下は、最も急勾配の方向を示す勾配ベクトルが、損失景観の局所曲率を考慮することにより、どのように改善されるかを照らしている。 この観点を拡張し、ニューラルネットワークの自然な勾配に照らされた問題を完全解くためには、ニューラルネットワークのすべての層におけるノード応答を含む任意の線形変換におけるデータの相関が、モデルのパラメータ間の非正規的関係を引き起こすことを認識する必要がある。 これを解決するには、ニューラルネットワークの各個々の層での入力をデコレーションするソリューションが必要である。 本稿では,ノード出力のデコレーションと白化のために提案されている手法について述べるとともに,分散コンピューティングや計算神経科学に特に有用な新しい手法を提案する。 多層ニューラルネットワーク内でのデコリレーションを実装することで、バックプロパゲーションによるトレーニングが著しく増加しているだけでなく、過去に破滅的に失敗したバックプロパゲーションの既存の近似が再び実行されたことを示すことができる。 これは、これまで捨てられていた近似勾配降下法、アナログおよびニューロモルフィックハードウェアのトレーニングアプローチ、および脳におけるデコリレーションプロセスの有効性と有用性に関する潜在的洞察の経路を提供する可能性がある。

Herein the topics of (natural) gradient descent, data decorrelation, and approximate methods for backpropagation are brought into a dialogue. Natural gradient descent illuminates how gradient vectors, pointing at directions of steepest descent, can be improved by considering the local curvature of loss landscapes. We extend this perspective and show that to fully solve the problem illuminated by natural gradients in neural networks, one must recognise that correlations in the data at any linear transformation, including node responses at every layer of a neural network, cause a non-orthonormal relationship between the model's parameters. To solve this requires a solution to decorrelate inputs at each individual layer of a neural network. We describe a range of methods which have been proposed for decorrelation and whitening of node output, while providing a novel method specifically useful for distributed computing and computational neuroscience. Implementing decorrelation within multi-layer neural networks, we can show that not only is training via backpropagation sped up significantly but also existing approximations of backpropagation, which have failed catastrophically in the past, are made performant once more. This has the potential to provide a route forward for approximate gradient descent methods which have previously been discarded, training approaches for analogue and neuromorphic hardware, and potentially insights as to the efficacy and utility of decorrelation processes in the brain.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# AdapTable:Shift-Aware Uncertainty Calibrator と Label Distribution Handler によるタブラルデータのテスト時間適応

AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler ( http://arxiv.org/abs/2407.10784v1 )

ライセンス: Link先を確認
Changhun Kim, Taewon Kim, Seungyeon Woo, June Yong Yang, Eunho Yang, (参考訳) 現実世界のアプリケーションでは、表データはその広範で豊富な性質のために分散シフトに悩まされることが多く、事前学習された機械学習モデルの誤った予測につながります。 しかし、表領域におけるそのような分布シフトに対処するには、属性やデータセットのサイズなど固有の課題や、表データのディープラーニングモデルの表現学習能力に制限があるため、比較的過小評価されている。 特に、最近のテスト時間適応(TTA)の有望なパラダイムでは、ソースドメインにアクセスすることなく、未ラベルのターゲットドメインにオフ・ザ・シェルフモデルを適用することで、他のドメインから一般的に使用されるTTAメソッドを直接適用することで、しばしばモデル崩壊が生じる。 我々は,スキュートエントロピー,複雑な遅延空間決定境界,過信と過信の両方による信頼性校正問題,およびクラス不均衡を伴うソースラベル分布に対するモデルバイアスなど,表型データテストタイム適応の課題を体系的に検討する。 これらの知見に基づいて、ターゲットラベル分布を推定し、校正された不確実性に基づいて初期確率を調整することによって出力確率を直接調整する新しい表型テスト時間適応手法AdapTableを導入する。 自然分布シフトと合成汚損の双方に関する大規模な実験により,提案手法の適応効果が示された。

In real-world applications, tabular data often suffer from distribution shifts due to their widespread and abundant nature, leading to erroneous predictions of pre-trained machine learning models. However, addressing such distribution shifts in the tabular domain has been relatively underexplored due to unique challenges such as varying attributes and dataset sizes, as well as the limited representation learning capabilities of deep learning models for tabular data. Particularly, with the recent promising paradigm of test-time adaptation (TTA), where we adapt the off-the-shelf model to the unlabeled target domain during the inference phase without accessing the source domain, we observe that directly adopting commonly used TTA methods from other domains often leads to model collapse. We systematically explore challenges in tabular data test-time adaptation, including skewed entropy, complex latent space decision boundaries, confidence calibration issues with both overconfident and under-confident, and model bias towards source label distributions along with class imbalances. Based on these insights, we introduce AdapTable, a novel tabular test-time adaptation method that directly modifies output probabilities by estimating target label distributions and adjusting initial probabilities based on calibrated uncertainty. Extensive experiments on both natural distribution shifts and synthetic corruptions demonstrate the adaptation efficacy of the proposed method.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 病理基盤モデルにおける解釈可能性解析による生体内への生体内埋め込みの解明

Interpretability analysis on a pathology foundation model reveals biologically relevant embeddings across modalities ( http://arxiv.org/abs/2407.10785v1 )

ライセンス: Link先を確認
Nhat Le, Ciyue Shen, Chintan Shah, Blake Martin, Daniel Shenker, Harshith Padigela, Jennifer Hipp, Sean Grullon, John Abel, Harsha Vardhan Pokkalla, Dinkar Juyal, (参考訳) 機械論的解釈性は、大規模言語モデル(LLM)について詳細に研究されている。 医用画像における類似の解釈可能性に関する予備調査を初めて行った。 具体的には,病理基盤モデルから得られたVT-Smallエンコーダの特徴を,1つの病理画像データセットと1つの病理画像データセットの2つのデータセットに応用して解析する。 我々は、モデル埋め込み空間内での遺伝子発現とともに、細胞および組織形態の解釈可能な表現を発見する。 我々の研究は、解釈可能な特徴次元とその医療・臨床応用への有用性に関するさらなる探求の道を開くものである。

Mechanistic interpretability has been explored in detail for large language models (LLMs). For the first time, we provide a preliminary investigation with similar interpretability methods for medical imaging. Specifically, we analyze the features from a ViT-Small encoder obtained from a pathology Foundation Model via application to two datasets: one dataset of pathology images, and one dataset of pathology images paired with spatial transcriptomics. We discover an interpretable representation of cell and tissue morphology, along with gene expression within the model embedding space. Our work paves the way for further exploration around interpretable feature dimensions and their utility for medical and clinical applications.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# GraphEval: 知識グラフに基づくLLM幻覚評価フレームワーク

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework ( http://arxiv.org/abs/2407.10793v1 )

ライセンス: Link先を確認
Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada, (参考訳) LLMアプリケーションでは,Large Language Model (LLM) の応答を評価する手法がますます重要になりつつある。 現在のメトリクスは、説明可能な決定を提供し、応答中のすべての情報を体系的にチェックする能力に欠けており、実際に使用するには計算コストがかかりすぎることが多い。 本稿では,知識グラフ(KG)構造における情報表現に基づく幻覚評価フレームワークGraphEvalを提案する。 そこで本手法では, 幻覚に起因するKGの特異な三重項を同定し, 幻覚の発生箇所について, これまでの方法よりも深い知見を提供する。 さらに,本手法を最先端自然言語推論(NLI)モデルと併用することにより,生のNLIモデルと比較して,種々の幻覚ベンチマーク上でのバランス精度の向上につながる。 最後に,我々がGraphCorrectと呼ぶ手法であるKGの構造を利用した幻覚補正におけるGraphEvalの使用について検討し,幻覚の大部分が実際に修正可能であることを示す。

Methods to evaluate Large Language Model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisions, systematically check all pieces of information in the response, and are often too computationally expensive to be used in practice. We present GraphEval: a hallucination evaluation framework based on representing information in Knowledge Graph (KG) structures. Our method identifies the specific triples in the KG that are prone to hallucinations and hence provides more insight into where in the response a hallucination has occurred, if at all, than previous methods. Furthermore, using our approach in conjunction with state-of-the-art natural language inference (NLI) models leads to an improvement in balanced accuracy on various hallucination benchmarks, compared to using the raw NLI models. Lastly, we explore the use of GraphEval for hallucination correction by leveraging the structure of the KG, a method we name GraphCorrect, and demonstrate that the majority of hallucinations can indeed be rectified.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# Graphusion:NLP教育における科学知識グラフ融合と構築のための大規模言語モデルの活用

Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education ( http://arxiv.org/abs/2407.10794v1 )

ライセンス: Link先を確認
Rui Yang, Boming Yang, Sixun Ouyang, Tianwei She, Aosong Feng, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li, (参考訳) 知識グラフ(KG)は人工知能の分野で重要であり、質問応答システム(QA)の強化などの下流タスクに広く応用されている。 KGの構築は通常、ドメインの専門家による多大な努力を必要とする。 近年,Large Language Models (LLMs) は知識グラフ構築 (KGC) に用いられているが,既存のアプローチは局所的な視点に重点を置いて,個々の文や文書から知識三重項を抽出している。 本稿では,自由テキストからのゼロショットKGCフレームワークであるGraphusionを紹介する。 核融合モジュールは、エンティティのマージ、競合解決、新しい三重項発見を取り入れた三重項のグローバルなビューを提供する。 我々は、Graphusionが自然言語処理(NLP)ドメインにどのように適用できるかを示し、それを教育シナリオで検証する。 具体的には、6つのタスクと1200のQAペアからなるグラフ推論とQAのための新しい専門家検証ベンチマークであるTutorQAを紹介する。 本評価は,リンク予測における教師付きベースラインの精度を最大10%超えることを示す。 また、概念的実体抽出と関係認識の人間評価において、平均スコアが3点中2.92点、平均スコアが2.37点である。

Knowledge graphs (KGs) are crucial in the field of artificial intelligence and are widely applied in downstream tasks, such as enhancing Question Answering (QA) systems. The construction of KGs typically requires significant effort from domain experts. Recently, Large Language Models (LLMs) have been used for knowledge graph construction (KGC), however, most existing approaches focus on a local perspective, extracting knowledge triplets from individual sentences or documents. In this work, we introduce Graphusion, a zero-shot KGC framework from free text. The core fusion module provides a global view of triplets, incorporating entity merging, conflict resolution, and novel triplet discovery. We showcase how Graphusion could be applied to the natural language processing (NLP) domain and validate it in the educational scenario. Specifically, we introduce TutorQA, a new expert-verified benchmark for graph reasoning and QA, comprising six tasks and a total of 1,200 QA pairs. Our evaluation demonstrates that Graphusion surpasses supervised baselines by up to 10% in accuracy on link prediction. Additionally, it achieves average scores of 2.92 and 2.37 out of 3 in human evaluations for concept entity extraction and relation recognition, respectively.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 言語非依存層スキッピングによる多言語コントラストデコーディング

Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping ( http://arxiv.org/abs/2407.10795v1 )

ライセンス: Link先を確認
Wenhao Zhu, Sizhe Liu, Shujian Huang, Shuaijie She, Chris Wendler, Jiajun Chen, (参考訳) コントラスト層(DoLa)によるデコーディングは、早期出口出力(アマチュアロジット)と最終出力(エキスパートロジット)との予測確率を対比することにより、大規模言語モデル(LLM)の生成品質を改善するように設計されている。 しかし、このアプローチは英語以外のタスクではうまく機能しない。 モデルの前方通過における言語遷移に関するこれまでの解釈可能性の研究から着想を得た結果,この問題が早期終了出力と最終出力との言語ミスマッチから生じることが判明した。 本研究では,英語以外の多様な言語に有効な改良されたコントラスト復号アルゴリズムを提案する。 より有用なアマチュアロジットを得るため,予備分析に基づいてボトムな言語に依存しない階層のセットをスキップする2つの戦略を考案した。 多言語推論ベンチマーク実験の結果、提案手法は従来のコントラスト復号法よりも優れており、11言語にわたるLLMの連鎖推論精度を大幅に向上することが示された。 プロジェクトは、https://github.com/NJUNLP/SkipLayerCDで入手できる。

Decoding by contrasting layers (DoLa), is designed to improve the generation quality of large language models (LLMs) by contrasting the prediction probabilities between an early exit output (amateur logits) and the final output (expert logits). However, we find that this approach does not work well on non-English tasks. Inspired by previous interpretability work on language transition during the model's forward pass, we discover that this issue arises from a language mismatch between early exit output and final output. In this work, we propose an improved contrastive decoding algorithm that is effective for diverse languages beyond English. To obtain more helpful amateur logits, we devise two strategies to skip a set of bottom, language-agnostic layers based on our preliminary analysis. Experimental results on multilingual reasoning benchmarks demonstrate that our proposed method outperforms previous contrastive decoding baselines and substantially improves LLM's chain-of-thought reasoning accuracy across 11 languages. The project will be available at: https://github.com/NJUNLP/SkipLayerCD.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 深層学習によるマンモグラフィ乳房位置推定

Mammographic Breast Positioning Assessment via Deep Learning ( http://arxiv.org/abs/2407.10796v1 )

ライセンス: Link先を確認
Toygar Tanyel, Nurper Denizoglu, Mustafa Ege Seker, Deniz Alis, Esma Cerekci, Ercan Karaarslan, Erkin Aribal, Ilkay Oksuz, (参考訳) 乳がんは、世界中の女性のがん関連死亡の主な原因であり、乳房検診は早期発見の最も効果的な方法である。 マンモグラフィーにおける適切な位置決めの確保は、低い位置決めが診断ミス、患者のストレスの増加、リコールによるコストの上昇につながるため、重要である。 乳がん診断における深層学習(DL)の進歩にもかかわらず,マンモグラフィーの位置評価に限定的な焦点が当てられている。 本稿では,マンモグラムの位置決め品質を定量的に評価する新しいDL手法を提案する。 本手法では, 乳頭筋, 乳頭筋などの重要な解剖学的特徴を同定し, 自動的に後乳頭線(PNL)を描出する。 提案手法の性能を様々な回帰モデルと分類モデルと比較する。 CoordAtt UNetモデルは88.63%$\pm$2.84、特異性90.25%$\pm$4.04、感度86.04%$\pm$3.41を達成している。 ランドマーク検出では、同じモデルが鍵解剖学的点における最小平均誤差と最小の角誤差を2.42度記録した。 以上の結果から,注意機構とCoordConvモジュールを組み込んだモデルでは乳房位置決めの精度が向上し,解剖学的ランドマークの検出が可能であることが示唆された。 さらに,このラベルとソースコードをコミュニティに提供し,マンモグラフィのオープンな研究領域を https://github.com/tanyelai/deep-breast-positioning で公開する。

Breast cancer remains a leading cause of cancer-related deaths among women worldwide, with mammography screening as the most effective method for the early detection. Ensuring proper positioning in mammography is critical, as poor positioning can lead to diagnostic errors, increased patient stress, and higher costs due to recalls. Despite advancements in deep learning (DL) for breast cancer diagnostics, limited focus has been given to evaluating mammography positioning. This paper introduces a novel DL methodology to quantitatively assess mammogram positioning quality, specifically in mediolateral oblique (MLO) views using attention and coordinate convolution modules. Our method identifies key anatomical landmarks, such as the nipple and pectoralis muscle, and automatically draws a posterior nipple line (PNL), offering robust and inherently explainable alternative to well-known classification and regression-based approaches. We compare the performance of proposed methodology with various regression and classification-based models. The CoordAtt UNet model achieved the highest accuracy of 88.63% $\pm$ 2.84 and specificity of 90.25% $\pm$ 4.04, along with a noteworthy sensitivity of 86.04% $\pm$ 3.41. In landmark detection, the same model also recorded the lowest mean errors in key anatomical points and the smallest angular error of 2.42 degrees. Our results indicate that models incorporating attention mechanisms and CoordConv module increase the accuracy in classifying breast positioning quality and detecting anatomical landmarks. Furthermore, we make the labels and source codes available to the community to initiate an open research area for mammography, accessible at https://github.com/tanyelai/deep-breast-positioning.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 高精度連続時間運動推定のためのモーション・プライア・コントラストの最大化

Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation ( http://arxiv.org/abs/2407.10802v1 )

ライセンス: Link先を確認
Friedhelm Hamann, Ziyun Wang, Ioannis Asmanis, Kenneth Chaney, Guillermo Gallego, Kostas Daniilidis, (参考訳) 現在の光学フローと点追跡法は、合成データセットに大きく依存している。 イベントカメラは、難易度の高い視覚条件の利点を持つ新しい視覚センサであるが、現在のイベントシミュレータの制限により、最先端のフレームベースの手法は、イベントデータに容易に適応できない。 コントラスト最大化フレームワークと画素レベルのトラジェクトリの形式に先行する非線形運動を組み合わせた新たな自己監督的損失を導入し,非線形トラジェクトリとイベント間の高次元代入問題を解くための効率的な解法を提案する。 実世界のデータセットEVIMO2上での合成学習モデルのゼロショット性能を29%向上させる。 光フロー推定において,本手法は,DSEC光フローベンチマークにおける自己教師付き手法の最先端性能を達成するために,単純なUNetを増大させる。 私たちのコードはhttps://github.com/tub-rip/MotionPriorCMaxで利用可能です。

Current optical flow and point-tracking methods rely heavily on synthetic datasets. Event cameras are novel vision sensors with advantages in challenging visual conditions, but state-of-the-art frame-based methods cannot be easily adapted to event data due to the limitations of current event simulators. We introduce a novel self-supervised loss combining the Contrast Maximization framework with a non-linear motion prior in the form of pixel-level trajectories and propose an efficient solution to solve the high-dimensional assignment problem between non-linear trajectories and events. Their effectiveness is demonstrated in two scenarios: In dense continuous-time motion estimation, our method improves the zero-shot performance of a synthetically trained model on the real-world dataset EVIMO2 by 29%. In optical flow estimation, our method elevates a simple UNet to achieve state-of-the-art performance among self-supervised methods on the DSEC optical flow benchmark. Our code is available at https://github.com/tub-rip/MotionPriorCMax.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# ビジョンに基づくエンドツーエンド自動運転のためのDINO事前学習

DINO Pre-training for Vision-based End-to-end Autonomous Driving ( http://arxiv.org/abs/2407.10803v1 )

ライセンス: Link先を確認
Shubham Juneja, Povilas Daniušis, Virginijus Marcinkevičius, (参考訳) 本稿では、模倣学習の文脈における視覚自律運転エージェントの事前学習に焦点を当てる。 現在の手法は、しばしば分類に基づく事前学習に依存しており、暗黙的な画像理解の能力の拡張を控えていると仮定する。 本稿では,自己教師型学習パラダイムに依存するラベルなしの自己蒸留法(DINO)を用いて,運転エージェントの視覚エンコーダを事前学習することを提案する。 %であり,無関係な課題で訓練を受けた。 CARLA環境におけるCARLA環境における実験から,提案した事前学習は分類に基づく事前学習よりも効率的であり,最近提案した視覚的位置認識(VPRPre)と同等であることがわかった。

In this article, we focus on the pre-training of visual autonomous driving agents in the context of imitation learning. Current methods often rely on a classification-based pre-training, which we hypothesise to be holding back from extending capabilities of implicit image understanding. We propose pre-training the visual encoder of a driving agent using the self-distillation with no labels (DINO) method, which relies on a self-supervised learning paradigm.% and is trained on an unrelated task. Our experiments in CARLA environment in accordance with the Leaderboard benchmark reveal that the proposed pre-training is more efficient than classification-based pre-training, and is on par with the recently proposed pre-training based on visual place recognition (VPRPre).
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# Mix-CPT:知識学習とフォーマットアライメントの分離によるドメイン適応フレームワーク

Mix-CPT: A Domain Adaptation Framework via Decoupling Knowledge Learning and Format Alignment ( http://arxiv.org/abs/2407.10804v1 )

ライセンス: Link先を確認
Jinhao Jiang, Junyi Li, Wayne Xin Zhao, Yang Song, Tao Zhang, Ji-Rong Wen, (参考訳) 汎用大規模言語モデル(LLM)を特殊なドメインに適応させることは、様々なデータ分散のために大きな課題となる。 この適応は通常、知識記憶を促進するために、巨大なドメイン固有のコーパスで連続的な事前学習を必要とし、続いて、人間の指示や好みに従ってこの知識を適用する訓練を行う。 しかし,この手法は知識利用意識の欠如による知識記憶の効率の低下を招き,知識利用の同時学習と限られたトレーニングサンプルとのフォーマットアライメントをLCMにかなり要求する。 LLMのドメイン適応を容易にするため、このプロセスを改訂し、ドメイン知識学習とMix-CPTと呼ばれる汎用フォーマットアライメントを含む新しいドメイン適応フレームワークを提案する。 具体的には、まず、知識の記憶と利用を同時に重視し、相互強化を可能にする知識混合事前学習を行う。 継続事前学習過程における破滅的忘れを避けるため,ロジットスワップ自己蒸留制約を更に取り入れた。 その後、継続事前学習中に得られた知識と能力を活用して、いくつかの一般的なトレーニングサンプルとの指導調整とアライメントを効率的に行い、フォーマットアライメントを実現する。 提案したMix-CPTフレームワークは,従来の適応手法と比較して,目標領域と一般領域におけるLLMのタスク解決能力を同時に向上できることを示す。

Adapting general large language models (LLMs) to specialized domains presents great challenges due to varied data distributions. This adaptation typically requires continual pre-training on massive domain-specific corpora to facilitate knowledge memorization, followed by training to apply this knowledge following human instructions and preferences. However, this method may result in inefficient knowledge memorization due to a lack of awareness of knowledge utilization and imposes substantial demands on LLMs to simultaneously learn knowledge utilization and format alignment with limited training samples. To facilitate the domain adaptation of LLM, we revise this process and propose a new domain adaptation framework including domain knowledge learning and general format alignment, called Mix-CPT. Specifically, we first conduct a knowledge mixture continual pre-training that concurrently focuses on knowledge memorization and utilization, allowing for mutual reinforcement. To avoid catastrophic forgetting during the continual pre-training process, we further incorporate a logit swap self-distillation constraint. Subsequently, leveraging the knowledge and capabilities acquired during continual pre-training, we efficiently perform instruction tuning and alignment with a few general training samples to achieve format alignment. Extensive experiments demonstrate that our proposed Mix-CPT framework can simultaneously improve the task-solving capabilities of LLMs on the target and general domains compared to the traditional adaptation methods.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# Think-on-Graph 2.0:知識グラフ誘導検索による深層および解釈可能な大規模言語モデル推論

Think-on-Graph 2.0: Deep and Interpretable Large Language Model Reasoning with Knowledge Graph-guided Retrieval ( http://arxiv.org/abs/2407.10805v1 )

ライセンス: Link先を確認
Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Jian Guo, (参考訳) Retrieval-augmented Generation (RAG) は、動的情報検索により、生成コンテンツにおける知識ギャップと幻覚を軽減することにより、かなり高度な大規模言語モデル(LLM)を持つ。 しかし、これらのシステムは様々なクエリにまたがる複雑な推論と一貫性に悩まされることが多い。 本稿では,知識グラフと質問を一致させてナビゲーションツールとして使用する拡張RAGフレームワークであるThink-on-Graph 2.0について紹介する。 KG誘導ナビゲーションは、論理的一貫性を保ち、精度と相互運用性の検索範囲を最適化するために、深い、長距離の関連を奨励する。 協調して、事実整合性は、厳密な指示によって導かれる意味的類似性によってより確実にすることができる。 ToG${2.0}$は、LLMの応答の精度と信頼性を向上させるだけでなく、LLM推論を大幅に進歩させるハイブリッド構造化知識システムの可能性を示し、人間に近い性能に近づける。 提案手法の利点をベースラインと比較し,4つの公開データセットについて広範な実験を行った。

Retrieval-augmented generation (RAG) has significantly advanced large language models (LLMs) by enabling dynamic information retrieval to mitigate knowledge gaps and hallucinations in generated content. However, these systems often falter with complex reasoning and consistency across diverse queries. In this work, we present Think-on-Graph 2.0, an enhanced RAG framework that aligns questions with the knowledge graph and uses it as a navigational tool, which deepens and refines the RAG paradigm for information collection and integration. The KG-guided navigation fosters deep and long-range associations to uphold logical consistency and optimize the scope of retrieval for precision and interoperability. In conjunction, factual consistency can be better ensured through semantic similarity guided by precise directives. ToG${2.0}$ not only improves the accuracy and reliability of LLMs' responses but also demonstrates the potential of hybrid structured knowledge systems to significantly advance LLM reasoning, aligning it closer to human-like performance. We conducted extensive experiments on four public datasets to demonstrate the advantages of our method compared to the baseline.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# 空間ソルティングとセットミキシング・アグリゲーション・モジュールによる点雲モデルにおけるロバスト性向上とノイズ破壊

Enhancing Robustness to Noise Corruption for Point Cloud Model via Spatial Sorting and Set-Mixing Aggregation Module ( http://arxiv.org/abs/2407.10806v1 )

ライセンス: Link先を確認
Dingxin Zhang, Jianhui Yu, Tengfei Xue, Chaoyi Zhang, Dongnan Liu, Weidong Cai, (参考訳) ポイントクラウド認識の現在のモデルは、合成データセット上で有望なパフォーマンスを示す。 しかし、実世界のクラウドデータは必然的にノイズを含み、モデルの堅牢性に影響を与える。 近年の取り組みは、様々な戦略による堅牢性向上に重点を置いているが、ネットワークアーキテクチャ設計の観点からの総合的な分析のギャップは依然として残っている。 一般的な手法に依存した従来の手法とは異なり、我々の手法はネットワークアーキテクチャ設計を通じて、ロバスト性からノイズの除去までモデルを最適化する。 2次元画像に適用したトークンミキシング技術に着想を得たSet-Mixerは,各点間の通信を容易にし,幾何学的形状情報を抽出し,個々の雑音点の影響を緩和する,ノイズロスアグリゲーションモジュールである。 ソート戦略は、我々のモジュールを点置換に不変にするために設計されており、これは点雲の非順序構造にも取り組み、一貫した相対空間情報を導入している。 ModelNet40-Cで行った実験によると、Set-Mixerはノイズの多い点雲のモデル性能を大幅に向上し、3D認識および知覚タスクにおける実世界の適用性を高める可能性を示している。

Current models for point cloud recognition demonstrate promising performance on synthetic datasets. However, real-world point cloud data inevitably contains noise, impacting model robustness. While recent efforts focus on enhancing robustness through various strategies, there still remains a gap in comprehensive analyzes from the standpoint of network architecture design. Unlike traditional methods that rely on generic techniques, our approach optimizes model robustness to noise corruption through network architecture design. Inspired by the token-mixing technique applied in 2D images, we propose Set-Mixer, a noise-robust aggregation module which facilitates communication among all points to extract geometric shape information and mitigating the influence of individual noise points. A sorting strategy is designed to enable our module to be invariant to point permutation, which also tackles the unordered structure of point cloud and introduces consistent relative spatial information. Experiments conducted on ModelNet40-C indicate that Set-Mixer significantly enhances the model performance on noisy point clouds, underscoring its potential to advance real-world applicability in 3D recognition and perception tasks.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# フェイクニュース領域のデータストリーム分類における文空間埋め込みの利用

Employing Sentence Space Embedding for Classification of Data Stream from Fake News Domain ( http://arxiv.org/abs/2407.10807v1 )

ライセンス: Link先を確認
Paweł Zyblewski, Jakub Klikowski, Weronika Borek-Marciniec, Paweł Ksieniewicz, (参考訳) タブラル・データ(Tabular data)は、ディープラーニングにおける最後の未解決の城と考えられているが、データストリーム分類の課題は、等しく重要で要求の多い研究領域であると言われている。 時間的制約のため、この分野での深層学習法は最適解ではないと仮定される。 しかし、近年開発が進んできた進歩を考えると、(そして広く普及している)メソッドグループ全体を除くと、かなり過激に思える。 そこで本論文では,文空間法を用いて自然言語データストリーム分類のアプローチを初めて提示し,テキストを離散ディジタル信号の形式に符号化する手法を提案する。 これにより、画像分類専用の畳み込みディープネットワークを使用して、テキストデータに基づいて偽ニュースを認識するタスクを解決することができる。 The real-life Fakeddit data based on the real-life Fakeddit approach was compared to state-of-the-art algorithm for data stream classification based on generalization ability and time complexity。

Tabular data is considered the last unconquered castle of deep learning, yet the task of data stream classification is stated to be an equally important and demanding research area. Due to the temporal constraints, it is assumed that deep learning methods are not the optimal solution for application in this field. However, excluding the entire -- and prevalent -- group of methods seems rather rash given the progress that has been made in recent years in its development. For this reason, the following paper is the first to present an approach to natural language data stream classification using the sentence space method, which allows for encoding text into the form of a discrete digital signal. This allows the use of convolutional deep networks dedicated to image classification to solve the task of recognizing fake news based on text data. Based on the real-life Fakeddit dataset, the proposed approach was compared with state-of-the-art algorithms for data stream classification based on generalization ability and time complexity.
翻訳日:2024-07-16 14:39:57 公開日:2024-07-15
# FabGPT:複雑ウェーハ欠陥知識クエリのための効率的な大規模マルチモーダルモデル

FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries ( http://arxiv.org/abs/2407.10810v1 )

ライセンス: Link先を確認
Yuqi Jiang, Xudong Lu, Qian Jin, Qi Sun, Hanming Wu, Cheng Zhuo, (参考訳) インテリジェンスは集積回路(IC)製造の進展の鍵である。 近年のLMM(Large Multimodal Models)のブレークスルーは、画像やテキストの理解における非並列的な能力を解き放ち、インテリジェントなファブリケーションを育んでいる。 LMMのパワーを生かしたFabGPTは、ウェハ欠陥知識クエリのためのカスタマイズIC作成大型マルチモーダルモデルである。 FabGPTは、走査型電子顕微鏡(SEM)画像における欠陥検出の専門知識を示し、根本原因分析を行い、製造プロセスについて専門的な質問回答(Q&A)を提供する。 FabGPTは強化されたマルチモーダル機能と一致し、複雑なウエハ背景下での微小欠陥を自動的に検出し、手動閾値設定の主観性を低下させる。 さらに,提案した変調モジュールと対話型コーパストレーニング戦略は,ウェハ欠陥知識を事前学習モデルに組み込み,欠陥知識と元の知識に関するQ&Aクエリを効果的にバランスさせ,モダリティバイアス問題を緩和する。 室内ファブデータ(SEM-WaD)を用いた実験により,FabGPTはウエハ欠陥検出および知識クエリにおいて大幅な性能向上を実現していることがわかった。

Intelligence is key to advancing integrated circuit (IC) fabrication. Recent breakthroughs in Large Multimodal Models (LMMs) have unlocked unparalleled abilities in understanding images and text, fostering intelligent fabrication. Leveraging the power of LMMs, we introduce FabGPT, a customized IC fabrication large multimodal model for wafer defect knowledge query. FabGPT manifests expertise in conducting defect detection in Scanning Electron Microscope (SEM) images, performing root cause analysis, and providing expert question-answering (Q&A) on fabrication processes. FabGPT matches enhanced multimodal features to automatically detect minute defects under complex wafer backgrounds and reduce the subjectivity of manual threshold settings. Besides, the proposed modulation module and interactive corpus training strategy embed wafer defect knowledge into the pre-trained model, effectively balancing Q&A queries related to defect knowledge and original knowledge and mitigating the modality bias issues. Experiments on in-house fab data (SEM-WaD) show that our FabGPT achieves significant performance improvement in wafer defect detection and knowledge querying.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# GuideLight:より実践的な交通信号制御エージェントのための"産業ソリューション"ガイダンス

GuideLight: "Industrial Solution" Guidance for More Practical Traffic Signal Control Agents ( http://arxiv.org/abs/2407.10811v1 )

ライセンス: Link先を確認
Haoyuan Jiang, Xuantang Xiong, Ziyue Li, Hangyu Mao, Guanghu Sui, Jingqing Ruan, Yuheng Cheng, Hua Wei, Wolfgang Ketter, Rui Zhao, (参考訳) 現在、強化学習(RL)に基づく交通信号制御(TSC)法は従来の手法よりも優れていることが証明されている。 しかし、ほとんどのRL法は、入力、出力、サイクル-フロー関係という3つの要因により、実世界で適用した場合に困難に直面している。 産業の観測可能な入力はシミュレーションベースのRL法よりもはるかに限られている。 現実世界のソリューションでは、フローのみが確実に収集できるが、一般的なRL法はもっと必要である。 出力動作については、ほとんどのRL法は実世界の信号制御装置がサポートしていない非循環制御に重点を置いている。 最も重要なことは、業界標準が一貫したサイクルフロー関係を必要とすることである。 RL法と業界標準とのギャップを狭めるため,RLエージェントを誘導する産業ソリューションを革新的に提案する。 具体的には、行動クローニングとカリキュラム学習を設計し、エージェントが業界要求を模倣し、満たすように誘導すると同時に、RLにおける探索と搾取の力を活用してパフォーマンスを向上させる。 理論的には、このようなガイダンスは、最適ポリシーを求める際に、標本の複雑さを地平線上の多項式に大きく減少させることができる。 剛性実験により,本手法はサイクル-フロー関係が良好であり,性能が良好であることが示された。

Currently, traffic signal control (TSC) methods based on reinforcement learning (RL) have proven superior to traditional methods. However, most RL methods face difficulties when applied in the real world due to three factors: input, output, and the cycle-flow relation. The industry's observable input is much more limited than simulation-based RL methods. For real-world solutions, only flow can be reliably collected, whereas common RL methods need more. For the output action, most RL methods focus on acyclic control, which real-world signal controllers do not support. Most importantly, industry standards require a consistent cycle-flow relationship: non-decreasing and different response strategies for low, medium, and high-level flows, which is ignored by the RL methods. To narrow the gap between RL methods and industry standards, we innovatively propose to use industry solutions to guide the RL agent. Specifically, we design behavior cloning and curriculum learning to guide the agent to mimic and meet industry requirements and, at the same time, leverage the power of exploration and exploitation in RL for better performance. We theoretically prove that such guidance can largely decrease the sample complexity to polynomials in the horizon when searching for an optimal policy. Our rigid experiments show that our method has good cycle-flow relation and superior performance.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# GHunter: JavaScriptランタイムにおけるユニバーサルプロトタイプ汚染ガジェット

GHunter: Universal Prototype Pollution Gadgets in JavaScript Runtimes ( http://arxiv.org/abs/2407.10812v1 )

ライセンス: Link先を確認
Eric Cornelissen, Mikhail Shcherbakov, Musard Balliu, (参考訳) プロトタイプ汚染は、JavaScriptコードに影響を与える最近の脆弱性であり、任意のコード実行のような高い影響を持つ。 この脆弱性はJavaScriptのプロトタイプベースの継承に根ざしているため、攻撃者は実行時にオブジェクトのプロトタイプに任意のプロパティを注入することができる。 プロトタイプの汚染の影響は、セキュリティに敏感な操作を実行するために、アタッカーが制御するプロパティから不注意に読み取る、良質なコード(gadget)の存在に依存する。 それまでの研究は主にサードパーティのライブラリやクライアントサイドのアプリケーションのガジェットを研究してきたが、JavaScriptランタイム環境のガジェットは、これらのランタイム上で実行されるアプリケーションに影響を与えるため、明らかに影響が大きい。 本稿では、Node.jsとDenoに重点を置いて、V8ベースのJavaScriptランタイムでガジェットを体系的に検出するパイプライン、GHunterを設計、実装、評価する。 GHunterは軽量な動的テイント解析をサポートし、ガジェット候補を自動的に識別し、手動で検証して概念実証を導出する。 手動検証を容易にする機能とともに、V8エンジンとターゲットランタイムを変更することでGHunterを実装しています。 Node.jsとDenoのテストスイートによって駆動される私たちは、これらのランタイムにおけるガジェットの研究にGHunterを使用しています。 任意のコード実行(19)、特権エスカレーション(31)、パストラバース(13)などの脆弱性に関連する、Node.jsの56個の新しいガジェットとDenoの67個のガジェットを特定した。 さらに,我々は,開発ガイドラインの観点から,プロトタイプ汚染とガジェットに対する既存の軽減策を初めて体系化する。 脆弱性のあるアプリケーションのリストを収集し、ガイドラインのレンズを通して修正を再検討します。 このエクササイズを通じて、リモートコード実行につながる重度CVEを1つ特定しました。

Prototype pollution is a recent vulnerability that affects JavaScript code, leading to high impact attacks such as arbitrary code execution. The vulnerability is rooted in JavaScript's prototype-based inheritance, enabling attackers to inject arbitrary properties into an object's prototype at runtime. The impact of prototype pollution depends on the existence of otherwise benign pieces of code (gadgets), which inadvertently read from attacker-controlled properties to execute security-sensitive operations. While prior works primarily study gadgets in third-party libraries and client-side applications, gadgets in JavaScript runtime environments are arguably more impactful as they affect any application that executes on these runtimes. In this paper we design, implement, and evaluate a pipeline, GHunter, to systematically detect gadgets in V8-based JavaScript runtimes with prime focus on Node.js and Deno. GHunter supports a lightweight dynamic taint analysis to automatically identify gadget candidates which we validate manually to derive proof-of-concept exploits. We implement GHunter by modifying the V8 engine and the targeted runtimes along with features for facilitating manual validation. Driven by the test suites of Node.js and Deno, we use GHunter in a study of gadgets in these runtimes. We identified a total of 56 new gadgets in Node.js and 67 gadgets in Deno, pertaining to vulnerabilities such as arbitrary code execution (19), privilege escalation (31), path traversal (13), and more. Moreover, we systematize, for the first time, existing mitigations for prototype pollution and gadgets in terms of development guidelines. We collect a list of vulnerable applications and revisit the fixes through the lens of our guidelines. Through this exercise, we identified one high-severity CVE leading to remote code execution, which was due to incorrectly fixing a gadget.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# ファウショット全スライド画像分類のための病理知識強化マルチインスタンス・プロンプト学習

Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification ( http://arxiv.org/abs/2407.10814v1 )

ライセンス: Link先を確認
Linhao Qu, Dingkang Yang, Dan Huang, Qinhao Guo, Rongkui Luo, Shaoting Zhang, Xiaosong Wang, (参考訳) 病理画像解析のための現在のマルチインスタンス学習アルゴリズムは、効果的なトレーニングのためにかなりの数の全スライド画像を必要とすることが多いが、限られた学習データを持つシナリオでは、最適以下の性能を示す。 臨床環境では、患者のプライバシ上の懸念や、稀な疾患や新興疾患の流行により、病的スライドへのアクセスが制限されることは避けられない。 Few-shot Weakly Supervised WSI Classificationの出現は、限られたスライドデータと少ないスライドレベルラベルによる診断の重大な課題に対応する。 事前訓練されたモデル(\eg, CLIP)に基づくプロンプト学習は、この設定には有望なスキームであるように見えるが、この領域における現在の研究は限られており、既存のアルゴリズムはパッチレベルのプロンプトのみに焦点を当てたり、言語プロンプトに限定することが多い。 本稿では,画像とテキストの事前知識をパッチレベルとスライドレベルの両方のプロンプトに統合し,病理知識を付加したマルチインスタンス・プロンプト学習フレームワークを提案する。 トレーニングプロセスは静的なプロンプトと学習可能なプロンプトを組み合わせており、トレーニング済みモデルの活性化を効果的に導くとともに、重要な病理パターンの診断を容易にする。 軽量メッセンジャー(セルフアテンション)と概要(アテンションプール)レイヤを導入して、同じ患者データ内のパッチとスライドの関係をモデル化する。 さらに、アライメントに関して対照的な損失は、パッチとスライドの両方の視覚的およびテキスト的学習可能なプロンプト間の機能レベルのアライメントを保証する。 本手法は,3つの困難な臨床課題において優れた成績を示し,比較数ショット法よりも優れていた。

Current multi-instance learning algorithms for pathology image analysis often require a substantial number of Whole Slide Images for effective training but exhibit suboptimal performance in scenarios with limited learning data. In clinical settings, restricted access to pathology slides is inevitable due to patient privacy concerns and the prevalence of rare or emerging diseases. The emergence of the Few-shot Weakly Supervised WSI Classification accommodates the significant challenge of the limited slide data and sparse slide-level labels for diagnosis. Prompt learning based on the pre-trained models (\eg, CLIP) appears to be a promising scheme for this setting; however, current research in this area is limited, and existing algorithms often focus solely on patch-level prompts or confine themselves to language prompts. This paper proposes a multi-instance prompt learning framework enhanced with pathology knowledge, \ie, integrating visual and textual prior knowledge into prompts at both patch and slide levels. The training process employs a combination of static and learnable prompts, effectively guiding the activation of pre-trained models and further facilitating the diagnosis of key pathology patterns. Lightweight Messenger (self-attention) and Summary (attention-pooling) layers are introduced to model relationships between patches and slides within the same patient data. Additionally, alignment-wise contrastive losses ensure the feature-level alignment between visual and textual learnable prompts for both patches and slides. Our method demonstrates superior performance in three challenging clinical tasks, significantly outperforming comparative few-shot methods.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# Foundational Autoraters: 大規模な言語モデルを使用して自動評価を改善する

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation ( http://arxiv.org/abs/2407.10817v1 )

ライセンス: Link先を確認
Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung, (参考訳) 大規模言語モデル(LLM)が進歩するにつれて,人的評価のコストが高いため,その出力を確実に評価することがより困難になる。 LLMオートレーダの改善に向けて,基礎的大規模オートレータモデルのファミリーであるFLAMeを紹介する。 FLAMeは、5M以上の人的判断を含む100以上の品質評価タスクの大規模かつ多種多様なコレクションをトレーニングし、以前の研究から公開された人的評価を用いてキュレートされ、標準化されている。 FLAMeは、GPT-4やClaude-3といったプロプライエタリなデータで訓練されたLLMを多くのタスクで上回り、様々なホールトアウトタスクへの一般化を著しく改善した。 また,FLAMeをケーススタディ(FLAMe-RM)として評価することにより,FLAMeはより下流の微調整を行うための強力な出発点となることを示す。 特に、RewardBenchでは、FLAMe-RM-24Bモデル(精度87.8%)は、寛容なライセンス付きデータにのみ訓練された最高性能の生成モデルであり、GPT-4-0125 (85.9%) と GPT-4o (84.7%) の両方を上回っている。 さらに,FLAMeのマルチタスク混合を最適化して報酬モデル評価(FLAMe-Opt-RM)を最適化し,約25倍のトレーニングデータポイントを必要としながら,競争力のあるRewardBench性能を提供する。 全体として、FLAMeの派生モデルは、12のオートラッター評価ベンチマークのうち8つで、RewardBenchやLLM-AggreFactを含む53の品質評価タスクを含む、一般的なLLM-as-a-Judgeモデルよりも優れています。 最後に,FLAMeは,コード生成における高品質な応答を効果的に同定しながら,これらのLCM-as-a-Judgeモデルよりもはるかにバイアスが少ないことを明らかにした。

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# 計算木論理によるシーケンシャルプランニングにおけるMCTS説明可能性の実現

Enabling MCTS Explainability for Sequential Planning Through Computation Tree Logic ( http://arxiv.org/abs/2407.10820v1 )

ライセンス: Link先を確認
Ziyan An, Hendrik Baier, Abhishek Dubey, Ayan Mukhopadhyay, Meiyi Ma, (参考訳) モンテカルロ木探索(MCTS)は、シーケンシャルな計画タスクのための最も有能なオンライン検索アルゴリズムの1つであり、資源配分やトランジット計画といった分野において重要な応用がある。 実世界のデプロイメントのパフォーマンスは高いが、MCTSの本質的な複雑さは、技術的なバックグラウンドのないユーザにとって理解を困難にしている。 本稿では,MCTSを交通ルーティングサービスに利用し,最適化された経路計画を構築するためにアルゴリズムを統合することを検討する。 これらの計画は、様々な制約と要件を同時に満たし、現実の文脈でアルゴリズムの操作を説明するタスクをさらに複雑にする必要がある。 この重要な研究ギャップに対処するために、MCTSのための新しい計算木論理ベースの説明器を導入する。 私たちのフレームワークは、ユーザ定義の要件を言語テンプレートを使って厳密なロジック仕様に翻訳することから始まります。 そこで,本論文では,MCTSアルゴリズムでトラバースされた状態と動作を検証する論理検証と定量的評価モジュールを組み込んだ。 この分析の結果は、第2の言語テンプレートを使用して、人間可読な記述テキストに変換される。 アプローチのユーザ満足度を82名を対象に調査した。 その結果,説明的アプローチはユーザの嗜好において,他のベースラインよりも有意に優れていた。

Monte Carlo tree search (MCTS) is one of the most capable online search algorithms for sequential planning tasks, with significant applications in areas such as resource allocation and transit planning. Despite its strong performance in real-world deployment, the inherent complexity of MCTS makes it challenging to understand for users without technical background. This paper considers the use of MCTS in transportation routing services, where the algorithm is integrated to develop optimized route plans. These plans are required to meet a range of constraints and requirements simultaneously, further complicating the task of explaining the algorithm's operation in real-world contexts. To address this critical research gap, we introduce a novel computation tree logic-based explainer for MCTS. Our framework begins by taking user-defined requirements and translating them into rigorous logic specifications through the use of language templates. Then, our explainer incorporates a logic verification and quantitative evaluation module that validates the states and actions traversed by the MCTS algorithm. The outcomes of this analysis are then rendered into human-readable descriptive text using a second set of language templates. The user satisfaction of our approach was assessed through a survey with 82 participants. The results indicated that our explanatory approach significantly outperforms other baselines in user preference.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# 中性子散乱形スピントロニクスデバイスにおける量子発展

Quantum Advancements in Neutron Scattering Reshape Spintronic Devices ( http://arxiv.org/abs/2407.10822v1 )

ライセンス: Link先を確認
M. E. Henderson, D. G. Cory, D. Sarenac, D. A. Pushin, (参考訳) トポロジカル磁気は量子技術の先例のない時代を巻き起こした。 ねじれたスピン構造とエキゾチックな力学モードによってマークされたトポロジカルマグネットは、従来の半導体ベースのエレクトロニクスの限界を超越する新しい世代のスピントロニクスデバイスを動機付けている。 既存の物質プローブは2次元の薄い試料の研究とデバイス概念化に偏っているが、中性子ビームを用いた3次元探査技術の進歩は、トポロジカルおよび創発的な物理学の理解をスピントロニクスデバイスを再現するために転換している。 本稿では、量子物質の3次元トポロジカルな研究を可能にするために、量子自由度を利用した最近の中性子散乱破砕法について概説する。 本稿では, 構造中性子散乱法とトモグラフィ中性子散乱法のトポロジカルマグネットへの応用について論じる。 SANSに基づく3次元トポロジカルキュービットの動的可視化とコヒーレント操作は、深さ依存ヘリシティの電場制御と中性子ビームのスピン軌道チューニングを用いて提案される。 これらの研究は、新しい構造、力学、制御のセットを通じてスピントロニクス装置を強化する3次元トポロジカル物理学の新たな世界を明らかにする。

Topological magnetism has sparked an unprecedented age in quantum technologies. Marked by twisted spin structures with exotic dynamical modes, topological magnets have motivated a new generation of spintronic devices which transcend the limits of conventional semiconductor-based electronics. While existing material probes have biased studies and device conceptualizations for thin samples in two dimensions, advancements in three-dimensional probing techniques using beams of neutrons, are transforming our understanding of topological and emergent physics to reimagine spintronic devices. Here, we review recent neutron scattering breakthroughs which harness quantum degrees of freedom to enable three-dimensional topological investigations of quantum materials. We discuss applications of structured and tomographic neutron scattering techniques to topological magnets, with particular emphasis on magnetic skyrmion systems and their inspired three-dimensional logic device infrastructures through novel multi-bit encoding and control schemes. SANS-based dynamic visualizations and coherent manipulations of three-dimensional topological qubits are proposed using electric field controls of depth-dependant helicities and spin-orbit tuning of the neutron beam. Together, these investigations uncover a new world of three-dimensional topological physics which enhances spintronic devices through a novel set of structures, dynamics, and controls, unique to three-dimensional systems.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# Wicked Oddities: 効果的なクリーンラベルバックドアアタックに対する選択的ポジショニング

Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks ( http://arxiv.org/abs/2407.10825v1 )

ライセンス: Link先を確認
Quang H. Nguyen, Nguyen Ngoc-Hieu, The-Anh Ta, Thanh Nguyen-Tang, Hoang Thanh-Tung, Khoa D. Doan, (参考訳) 深層ニューラルネットワークは、そのようなデータに基づいてトレーニングされたモデルの振る舞いを操作するためにトレーニングデータを害する、一種の敵攻撃であるバックドア攻撃に対して脆弱である。 クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。 初期のクリーンラベル攻撃の研究は、トレーニングセットのランダムなサブセットにトリガーを追加し、サンプルが攻撃の成功に不平等に寄与しているという事実を無視した。 その結果、高い毒殺率と低い攻撃成功率が得られる。 この問題を軽減するために,教師付き学習に基づくサンプル選択戦略が提案されている。 しかし、これらの手法はラベル付きトレーニングセット全体へのアクセスを前提として、高価で実用的ではないトレーニングを必要とする。 この研究は、攻撃者がターゲットクラス(例えば顔認識システム)に対してのみデータを提供し、被害者モデルや他のトレーニングセットのクラスについて知識を持たない、新しい(しかしより難しい)脅威モデルを研究する。 本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討する。 我々の脅威モデルは、限られた情報で効果的に攻撃を行うことができるため、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。 ベンチマークデータセットの実験では、クリーンラベルのバックドア攻撃を改善するための戦略の有効性が示されている。

Deep neural networks are vulnerable to backdoor attacks, a type of adversarial attack that poisons the training data to manipulate the behavior of models trained on such data. Clean-label attacks are a more stealthy form of backdoor attacks that can perform the attack without changing the labels of poisoned data. Early works on clean-label attacks added triggers to a random subset of the training set, ignoring the fact that samples contribute unequally to the attack's success. This results in high poisoning rates and low attack success rates. To alleviate the problem, several supervised learning-based sample selection strategies have been proposed. However, these methods assume access to the entire labeled training set and require training, which is expensive and may not always be practical. This work studies a new and more practical (but also more challenging) threat model where the attacker only provides data for the target class (e.g., in face recognition systems) and has no knowledge of the victim model or any other classes in the training set. We study different strategies for selectively poisoning a small set of training samples in the target class to boost the attack success rate in this setting. Our threat model poses a serious threat in training machine learning models with third-party datasets, since the attack can be performed effectively with limited information. Experiments on benchmark datasets illustrate the effectiveness of our strategies in improving clean-label backdoor attacks.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# LLM回路解析はトレーニングとスケールに一貫性がある

LLM Circuit Analyses Are Consistent Across Training and Scale ( http://arxiv.org/abs/2407.10827v1 )

ライセンス: Link先を確認
Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman, (参考訳) 現在、ほとんどの大規模言語モデル(LLM)が継続的トレーニングや追加の微調整を受けている。 対照的に、LLMの内部メカニズムに関するほとんどの研究は、1つのスナップショットにおけるモデル(事前トレーニングの終了)に焦点を当てており、その結果が現実世界の設定に一般化されるかどうかという疑問が提起されている。 従来のメカニズムの研究では、エンコーダのみまたはおもちゃのモデルに焦点が当てられており、これはほとんどのデプロイされたモデルと大きく異なる。 本研究では、7000万から280億のパラメータのモデルにおいて、デコーダのみのLLMにおける300億のトレーニングトークンに対して、回路として機能するモデルメカニズムがどのように出現し、進化するかを追跡する。 タスク能力とそれらをサポートする機能コンポーネントは、スケールにわたって同じトークン数で一貫して現れます。 さらに、こうしたコンポーネントは時間とともに異なる注意力によって実装される可能性があるが、それらが実装する包括的なアルゴリズムは残されている。 驚くべきことに、これらのアルゴリズムとそれに関連するコンポーネントのタイプは、モデルスケールで複製できる。 これらの結果から, 事前学習終了時の小モデルに対する回路解析は, 追加の事前学習とモデルスケールの増大にともなっても適用可能な知見を与えることが可能であることが示唆された。

Most currently deployed large language models (LLMs) undergo continuous training or additional finetuning. By contrast, most research into LLMs' internal mechanisms focuses on models at one snapshot in time (the end of pre-training), raising the question of whether their results generalize to real-world settings. Existing studies of mechanisms over time focus on encoder-only or toy models, which differ significantly from most deployed models. In this study, we track how model mechanisms, operationalized as circuits, emerge and evolve across 300 billion tokens of training in decoder-only LLMs, in models ranging from 70 million to 2.8 billion parameters. We find that task abilities and the functional components that support them emerge consistently at similar token counts across scale. Moreover, although such components may be implemented by different attention heads over time, the overarching algorithm that they implement remains. Surprisingly, both these algorithms and the types of components involved therein can replicate across model scale. These results suggest that circuit analyses conducted on small models at the end of pre-training can provide insights that still apply after additional pre-training and over model scale.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# マルチブレスにおける異常肺音の高次分類に向けて:軽量多ラベル・マルチヘッドアテンション分類法

Towards Enhanced Classification of Abnormal Lung sound in Multi-breath: A Light Weight Multi-label and Multi-head Attention Classification Method ( http://arxiv.org/abs/2407.10828v1 )

ライセンス: Link先を確認
Yi-Wei Chua, Yun-Chien Cheng, (参考訳) 本研究は, 異常呼吸音の分類のための補助診断システムを開発し, 革新的多ラベル学習手法とマルチヘッドアテンション機構により, 自動異常呼吸音分類の精度を高めることを目的とする。 既存の呼吸音データセットにおけるクラス不均衡と多様性の欠如の問題に対処するため,本研究では,複数の呼吸音特性を表すための2次元ラベルセットを用いて,軽量で高精度なモデルを用いて検討を行った。 ICBHI2017データセットの4カテゴリタスクにおいて59.2%のICBHIスコアを達成し、軽量かつ高精度な処理でその利点を実証した。 本研究は, 肺呼吸音異常の自動診断の精度の向上だけでなく, 臨床応用の可能性も明らかにした。

This study aims to develop an auxiliary diagnostic system for classifying abnormal lung respiratory sounds, enhancing the accuracy of automatic abnormal breath sound classification through an innovative multi-label learning approach and multi-head attention mechanism. Addressing the issue of class imbalance and lack of diversity in existing respiratory sound datasets, our study employs a lightweight and highly accurate model, using a two-dimensional label set to represent multiple respiratory sound characteristics. Our method achieved a 59.2% ICBHI score in the four-category task on the ICBHI2017 dataset, demonstrating its advantages in terms of lightweight and high accuracy. This study not only improves the accuracy of automatic diagnosis of lung respiratory sound abnormalities but also opens new possibilities for clinical applications.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# BiasScanner: 民主主義の強化を目的としたニュースバイアスの自動検出と分類

BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy ( http://arxiv.org/abs/2407.10829v1 )

ライセンス: Link先を確認
Tim Menzner, Jochen L. Leidner, (参考訳) 21世紀のオンラインニュースの消費の増加は、偽情報、偏見のある報告、ヘイトスピーチ、その他の望ましくないウェブコンテンツの発表の増加と一致した。 BiasScannerは、ニュース消費者がオンラインで読んでいるニュース記事を精査することで、民主主義を強化することを目的としたアプリケーションである。 BiasScannerには、ニュース記事のバイアスのある文とフロントエンドのWebブラウザプラグインを特定するために、サーバーサイドで事前訓練された大きな言語モデルが含まれている。 執筆時点では、BiasScannerは2ダース以上のメディアバイアスを文レベルで識別し、分類することができる。 軽量でプライバシーを尊重する方法で実装され、偏見のある文の強調に加えて、各分類決定に関する説明や、各ニュース記事の要約分析も提供する。 以前の調査ではニュースバイアス検出に対処していたが、ブラウザプラグインのデプロイに繋がった作業は認識していない(Webデモでは biasscanner.org も参照)。

The increasing consumption of news online in the 21st century coincided with increased publication of disinformation, biased reporting, hate speech and other unwanted Web content. We describe BiasScanner, an application that aims to strengthen democracy by supporting news consumers with scrutinizing news articles they are reading online. BiasScanner contains a server-side pre-trained large language model to identify biased sentences of news articles and a front-end Web browser plug-in. At the time of writing, BiasScanner can identify and classify more than two dozen types of media bias at the sentence level, making it the most fine-grained model and only deployed application (automatic system in use) of its kind. It was implemented in a light-weight and privacy-respecting manner, and in addition to highlighting likely biased sentence it also provides explanations for each classification decision as well as a summary analysis for each news article. While prior research has addressed news bias detection, we are not aware of any work that resulted in a deployed browser plug-in (c.f. also biasscanner.org for a Web demo).
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# ステレオフローを用いた同時学習による時空間イベントステレオ

Temporal Event Stereo via Joint Learning with Stereoscopic Flow ( http://arxiv.org/abs/2407.10831v1 )

ライセンス: Link先を確認
Hoonhee Cho, Jae-Young Kang, Kuk-Jin Yoon, (参考訳) イベントカメラは生体網膜にインスパイアされた動的視覚センサであり、その高ダイナミックレンジ、高時間分解能、低消費電力が特徴である。 これらの特徴により、極端な状況でも3D環境を知覚することができる。 イベントデータは時間次元にわたって連続しており、各ピクセルの動きを詳細に記述することができる。 イベントカメラの時間的に密度が高く連続的な性質をフル活用するために,従来からの情報を継続的に利用する新しい時間的イベントステレオを提案する。 これは、ステレオカメラからすべてのピクセルの動きをキャプチャする新しいコンセプトである、ステレオフローを伴うイベントステレオマッチングネットワークの同時トレーニングによって実現される。 トレーニング中の光学的流れの基底的真理を求めることは困難であるため,立体的流れの訓練に不均一マップのみを用いる手法を提案する。 イベントベースのステレオマッチングの性能は、フローを用いて情報を時間的に集約することで向上する。 我々はMVSECとDSECデータセットで最先端のパフォーマンスを達成した。 従来の情報をカスケード的に積み重ねるので、計算効率がよい。 コードはhttps://github.com/mickeykang16/TemporalEventStereoで公開されている。

Event cameras are dynamic vision sensors inspired by the biological retina, characterized by their high dynamic range, high temporal resolution, and low power consumption. These features make them capable of perceiving 3D environments even in extreme conditions. Event data is continuous across the time dimension, which allows a detailed description of each pixel's movements. To fully utilize the temporally dense and continuous nature of event cameras, we propose a novel temporal event stereo, a framework that continuously uses information from previous time steps. This is accomplished through the simultaneous training of an event stereo matching network alongside stereoscopic flow, a new concept that captures all pixel movements from stereo cameras. Since obtaining ground truth for optical flow during training is challenging, we propose a method that uses only disparity maps to train the stereoscopic flow. The performance of event-based stereo matching is enhanced by temporally aggregating information using the flows. We have achieved state-of-the-art performance on the MVSEC and the DSEC datasets. The method is computationally efficient, as it stacks previous information in a cascading manner. The code is available at https://github.com/mickeykang16/TemporalEventStereo.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# MoE-DiffIR:Universal Compressed Image Restorationのためのタスクカスタマイズ拡散プリミティブ

MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration ( http://arxiv.org/abs/2407.10833v1 )

ライセンス: Link先を確認
Yulin Ren, Xin Li, Bingchen Li, Xingrui Wang, Mengxi Guo, Shijie Zhao, Li Zhang, Zhibo Chen, (参考訳) 本稿では,タスクカストマイズド拡散前処理を用いた革新的ユニバーサル圧縮画像復元法であるMoE-DiffIRを提案する。 これは、既存のCIRメソッドにおける2つの重要な課題を扱うことを目的としている。 i) 異なる画像コーデック,例えばJPEG,WebPに対する適応性と普遍性に欠ける。 (二)テクスチャ生成能力の低さ、特に低ビットレート。 特に,我々のMoE-DiffIRは,各圧縮タスクの安定拡散(SD)からタスクカストマイズした拡散先行を探索するために,いくつかの基本的プロンプトを協調して探索する,強力なミックス・オブ・エキスパート(MoE)プロンプトモジュールを開発した。 さらに、基本的なプロンプトの柔軟な割り当てを可能にするために、分解対応ルーティング機構を提案する。 SDに先立つモダリティ生成を活性化・再利用するために,視覚領域からテキスト領域への低品質画像の埋め込みをSDのテキストガイダンスとして適用することを目的としたMoE-DiffIRのビジュアル・トゥ・テキスト・アダプタを設計し,より一貫性と合理的なテクスチャ生成を実現する。 また、一般的なCIRのための包括的なベンチマークデータセットを構築し、7つの一般的な伝統および学習されたコーデックから21種類の分解をカバーした。 広汎なCIR実験により,提案したMoE-DiffIRの優れたロバスト性およびテクスチャ復元能力を示した。 このプロジェクトはhttps://renyulin-f.github.io/MoE-DiffIR.github.io/で見ることができる。

We present MoE-DiffIR, an innovative universal compressed image restoration (CIR) method with task-customized diffusion priors. This intends to handle two pivotal challenges in the existing CIR methods: (i) lacking adaptability and universality for different image codecs, e.g., JPEG and WebP; (ii) poor texture generation capability, particularly at low bitrates. Specifically, our MoE-DiffIR develops the powerful mixture-of-experts (MoE) prompt module, where some basic prompts cooperate to excavate the task-customized diffusion priors from Stable Diffusion (SD) for each compression task. Moreover, the degradation-aware routing mechanism is proposed to enable the flexible assignment of basic prompts. To activate and reuse the cross-modality generation prior of SD, we design the visual-to-text adapter for MoE-DiffIR, which aims to adapt the embedding of low-quality images from the visual domain to the textual domain as the textual guidance for SD, enabling more consistent and reasonable texture generation. We also construct one comprehensive benchmark dataset for universal CIR, covering 21 types of degradations from 7 popular traditional and learned codecs. Extensive experiments on universal CIR have demonstrated the excellent robustness and texture restoration capability of our proposed MoE-DiffIR. The project can be found at https://renyulin-f.github.io/MoE-DiffIR.github.io/.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# MetaLLM: LLMの高性能で費用対効果の高い動的フレームワーク

MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs ( http://arxiv.org/abs/2407.10834v1 )

ライセンス: Link先を確認
Quang H. Nguyen, Duy C. Hoang, Juliette Decugis, Saurav Manchanda, Nitesh V. Chawla, Khoa D. Doan, (参考訳) 機械学習(ML)の急速な進歩は、様々なタスクや領域に優れた多くの大きな言語モデル(LLM)を生み出した。 これらのLCMには、計算能力や価格の面で異なる能力とコストが備わっている。 クエリの要求は、例えば、クエリされたドメインまたはその複雑さのため、アプリケーション内の1つのLCMへのデフォルトは、最も大きく、最も実用的で、最も平均的なテストパフォーマンスを持つものであっても、通常はベストチョイスではない。 したがって、アプリケーションに対して正確かつコスト効率のよい適切なLLMを選択することは、依然として課題です。 本稿では,各問合せを最適LLMに動的かつインテリジェントにルーティングし,精度とコスト効率を大幅に向上させるMetaLLMを提案する。 多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 我々の実験は、OpenAIのGPTモデル、AmazonのTitan、AnthropicのClaude、MetaのLLaMaといった人気のあるLLMプラットフォーム上で実施され、現実世界のシナリオにおけるMetaLLMの有効性を示し、分類タスクを超えて将来の拡張の土台を築きました。

The rapid progress in machine learning (ML) has brought forth many large language models (LLMs) that excel in various tasks and areas. These LLMs come with different abilities and costs in terms of computation or pricing. Since the demand for each query can vary, e.g., because of the queried domain or its complexity, defaulting to one LLM in an application is not usually the best choice, whether it is the biggest, priciest, or even the one with the best average test performance. Consequently, picking the right LLM that is both accurate and cost-effective for an application remains a challenge. In this paper, we introduce MetaLLM, a framework that dynamically and intelligently routes each query to the optimal LLM (among several available LLMs) for classification tasks, achieving significantly improved accuracy and cost-effectiveness. By framing the selection problem as a multi-armed bandit, MetaLLM balances prediction accuracy and cost efficiency under uncertainty. Our experiments, conducted on popular LLM platforms such as OpenAI's GPT models, Amazon's Titan, Anthropic's Claude, and Meta's LLaMa, showcase MetaLLM's efficacy in real-world scenarios, laying the groundwork for future extensions beyond classification tasks.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# 強化学習を活用した知識伝達の探索

Exploration in Knowledge Transfer Utilizing Reinforcement Learning ( http://arxiv.org/abs/2407.10835v1 )

ライセンス: Link先を確認
Adam Jedlička, Tatiana Valentine Guy, (参考訳) この貢献は、知識伝達のタスクにおける探索の問題に焦点を当てている。 知識伝達は、目標タスクのソースタスクを学習しながら得られる知識の有用な応用を指す。 知識伝達の意図した利点は、目標タスクの学習プロセスを高速化することである。 この記事では、ディープトランスファー学習アルゴリズムで使用されるいくつかの探索手法、特にディープターゲットトランスファーの$Q$-learningを比較することを目的としている。 用いられる方法は、$\epsilon$-greedy、Boltzmann、そして高信頼境界探索である。 上記の転送学習アルゴリズムと探索手法は、仮想ドローン問題に対して試験された。 以上の結果から, 上位信頼度境界アルゴリズムはこれらの選択肢の中で最良であることがわかった。 他のアプリケーションに対する持続可能性を確認すること。

The contribution focuses on the problem of exploration within the task of knowledge transfer. Knowledge transfer refers to the useful application of the knowledge gained while learning the source task in the target task. The intended benefit of knowledge transfer is to speed up the learning process of the target task. The article aims to compare several exploration methods used within a deep transfer learning algorithm, particularly Deep Target Transfer $Q$-learning. The methods used are $\epsilon$-greedy, Boltzmann, and upper confidence bound exploration. The aforementioned transfer learning algorithms and exploration methods were tested on the virtual drone problem. The results have shown that the upper confidence bound algorithm performs the best out of these options. Its sustainability to other applications is to be checked.
翻訳日:2024-07-16 14:30:11 公開日:2024-07-15
# データ誘導型物理インフォームドニューラルネットワークによる部分微分方程式の逆問題解法

Data-Guided Physics-Informed Neural Networks for Solving Inverse Problems in Partial Differential Equations ( http://arxiv.org/abs/2407.10836v1 )

ライセンス: Link先を確認
Wei Zhou, Y. F. Xu, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、損失関数を通じて基本的な物理法則をアーキテクチャに組み込むことによって、科学的機械学習の大幅な進歩を示している。 PINNは偏微分方程式(PDE)の様々な前方および逆問題の解法に成功している。 しかし、逆問題を解決する際には、初期のトレーニング段階で顕著な課題が発生する可能性がある。 具体的には、PDE残留損失が急速に最小化され、損失項の不均衡が悪化し、PINNの全体的な効率が損なわれる。 そこで本研究では,データ誘導物理インフォームドニューラルネットワーク(DG-PINN)と呼ばれる新しいフレームワークを提案する。 DG-PINNsフレームワークは、事前学習フェーズと微調整フェーズの2つの異なるフェーズで構成されている。 事前学習フェーズでは、ニューラルネットワークにおいて、データ損失のみを有する損失関数が最小化される。 微調整フェーズでは、同じニューラルネットワークにおいて、データ損失、PDE残留損失、および利用可能であれば初期および境界条件損失からなる複合損失関数が最小化される。 特に、事前学習フェーズは、微調整フェーズが始まる前に、データ損失が既に低い値にあることを保証します。 このアプローチにより、ファインチューニングフェーズは、既存のPINNに比べて少ないイテレーションで最小の複合損失関数に収束できる。 熱方程式,波動方程式,オイラー-ベルヌーリビーム方程式,ナビエ-ストークス方程式など,いくつかの古典的PDEに関する逆問題に対して,DG-PINNの有効性,ノイズ・ロバスト性,効率の検証を行った。 数値計算により,DG-PINNはこれらの逆問題を正確に解き,トレーニングデータにおける雑音に対する頑健性を示す。

Physics-informed neural networks (PINNs) represent a significant advancement in scientific machine learning by integrating fundamental physical laws into their architecture through loss functions. PINNs have been successfully applied to solve various forward and inverse problems in partial differential equations (PDEs). However, a notable challenge can emerge during the early training stages when solving inverse problems. Specifically, data losses remain high while PDE residual losses are minimized rapidly, thereby exacerbating the imbalance between loss terms and impeding the overall efficiency of PINNs. To address this challenge, this study proposes a novel framework termed data-guided physics-informed neural networks (DG-PINNs). The DG-PINNs framework is structured into two distinct phases: a pre-training phase and a fine-tuning phase. In the pre-training phase, a loss function with only the data loss is minimized in a neural network. In the fine-tuning phase, a composite loss function, which consists of the data loss, PDE residual loss, and, if available, initial and boundary condition losses, is minimized in the same neural network. Notably, the pre-training phase ensures that the data loss is already at a low value before the fine-tuning phase commences. This approach enables the fine-tuning phase to converge to a minimal composite loss function with fewer iterations compared to existing PINNs. To validate the effectiveness, noise-robustness, and efficiency of DG-PINNs, extensive numerical investigations are conducted on inverse problems related to several classical PDEs, including the heat equation, wave equation, Euler--Bernoulli beam equation, and Navier--Stokes equation. The numerical results demonstrate that DG-PINNs can accurately solve these inverse problems and exhibit robustness against noise in training data.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# インプット・リワードを用いたオフライン強化学習

Offline Reinforcement Learning with Imputed Rewards ( http://arxiv.org/abs/2407.10839v1 )

ライセンス: Link先を確認
Carlo Romeo, Andrew D. Bagdanov, (参考訳) オフライン強化学習(ORL)は、コスト、安全性、あるいは正確なシミュレーション環境の欠如により、環境とのインタラクションが厳密に制限されなければならないアプリケーションにおいて、エージェントを訓練するための堅牢なソリューションを提供する。 実世界における人工エージェントの展開を促進する可能性にもかかわらず、オフライン強化学習は典型的には、地道的な報酬を付加した非常に多くのデモを必要とする。 したがって、最先端のORLアルゴリズムは、データスカースシナリオに適用することは困難または不可能である。 本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できる,単純だが効果的なリワードモデルを提案する。 報酬信号がモデル化されると、報酬のない遷移の大規模なサンプルに対して報酬をインプットするためにReward Modelを使用し、ORL技術の適用を可能にする。 いくつかのD4RL連続移動課題に対するアプローチの可能性を示す。 この結果から,従来のデータセットからの報酬ラベル付き遷移のわずか1\%を用いて,学習した報酬モデルにより,残りの99%の遷移に対する報酬をインプットすることが可能であり,そこからパフォーマンスエージェントがオフライン強化学習を用いて学習できることが示唆された。

Offline Reinforcement Learning (ORL) offers a robust solution to training agents in applications where interactions with the environment must be strictly limited due to cost, safety, or lack of accurate simulation environments. Despite its potential to facilitate deployment of artificial agents in the real world, Offline Reinforcement Learning typically requires very many demonstrations annotated with ground-truth rewards. Consequently, state-of-the-art ORL algorithms can be difficult or impossible to apply in data-scarce scenarios. In this paper we propose a simple but effective Reward Model that can estimate the reward signal from a very limited sample of environment transitions annotated with rewards. Once the reward signal is modeled, we use the Reward Model to impute rewards for a large sample of reward-free transitions, thus enabling the application of ORL techniques. We demonstrate the potential of our approach on several D4RL continuous locomotion tasks. Our results show that, using only 1\% of reward-labeled transitions from the original datasets, our learned reward model is able to impute rewards for the remaining 99\% of the transitions, from which performant agents can be learned using Offline Reinforcement Learning.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 超電導デバイスにおける放射線事象補償における表面符号の有効性について

On the Efficacy of Surface Codes in Compensating for Radiation Events in Superconducting Devices ( http://arxiv.org/abs/2407.10841v1 )

ライセンス: Link先を確認
Marzio Vallero, Gioele Casagranda, Flavio Vella, Paolo Rech, (参考訳) 信頼性は大規模量子コンピュータの開発に不可欠である。 量子ビットの安定性に対する技術進歩の利点は飽和しているため、量子誤り訂正(QEC)符号のようなアルゴリズムによる解は、そのギャップを信頼性の高い計算に埋める必要がある。 残念なことに、最初の量子コンピュータの展開は、自然放射線によって引き起こされる欠陥を、量子ビットの信頼性に対する新たな脅威として特定した。 放射線に対するクビットの高感度は量子コンピュータの大規模採用を妨げるが、これは断層の持続性と効果領域が、最も先進的なQECの有効性を損なう可能性があるためである。 本稿では,放射線誘起断層に対する最先端QEC符号の各種実装のレジリエンスについて検討する。 我々は,4億件以上の故障インジェクションから得られたデータと,コード出力の復号後の論理的誤りとを相関させ,物理-論理的誤り率を推定する。 コード距離、物理量子ビットのQECにおける数と役割、基礎となる量子コンピュータトポロジ、チップ内に広がる粒子エネルギーを比較した。 その結果, オーバヘッドを発生させることなく, 表面コードの選択と調整を簡便に行うことで, 放射線誘発断層の修正確率を最大10倍に向上させることを示した。 最後に,今後のQEC符号の設計の指針とガイドラインを提供し,放射線による事象に対する効果をさらに高めている。

Reliability is fundamental for developing large-scale quantum computers. Since the benefit of technological advancements to the qubit's stability is saturating, algorithmic solutions, such as quantum error correction (QEC) codes, are needed to bridge the gap to reliable computation. Unfortunately, the deployment of the first quantum computers has identified faults induced by natural radiation as an additional threat to qubits reliability. The high sensitivity of qubits to radiation hinders the large-scale adoption of quantum computers, since the persistence and area-of-effect of the fault can potentially undermine the efficacy of the most advanced QEC. In this paper, we investigate the resilience of various implementations of state-of-the-art QEC codes to radiation-induced faults. We report data from over 400 million fault injections and correlate hardware faults with the logical error observed after decoding the code output, extrapolating physical-to-logical error rates. We compare the code's radiation-induced logical error rate over the code distance, the number and role in the QEC of physical qubits, the underlying quantum computer topology, and particle energy spread in the chip. We show that, by simply selecting and tuning properly the surface code, thus without introducing any overhead, the probability of correcting a radiation-induced fault is increased by up to 10\%. Finally, we provide indications and guidelines for the design of future QEC codes to further increase their effectiveness against radiation-induced events.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# グラフニューラルネット電位による緩和エネルギー予測の不確かさ推定のための回転不変潜時距離

Rotationally Invariant Latent Distances for Uncertainty Estimation of Relaxed Energy Predictions by Graph Neural Network Potentials ( http://arxiv.org/abs/2407.10844v1 )

ライセンス: Link先を確認
Joseph Musielewicz, Janice Lan, Matt Uyttendaele, John R. Kitchin, (参考訳) グラフニューラルネットワーク(GNN)は、特に新しい物質発見のための緩和エネルギーの高価な密度汎関数理論計算のためのサロゲートとして、分子特性予測のための驚くほど有能なモデルであることが示されている。 しかし、この文脈におけるGNNの制限の1つは、物質発見パイプラインにとって重要であるため、有用な不確実性予測手法が欠如していることである。 本研究では、構造最適化が誤差分布に与える影響から、緩和エネルギー計算の不確実性定量化は他の分子特性予測の不確実性定量化よりも複雑であることを示す。 本研究では,GNNの校正,校正,再校正,不確実性予測手法の開発において,分散フリー手法がより有用なツールであることが示唆された。 また,分散のない再校正とOpen Catalyst Projectデータセットを用いた同変GNNの不確実性評価のための緩和エネルギータスクも開発した。 我々は,この課題に対する一般的な不確実性予測手法のセットをベンチマークし,新しい改良とともに,遅延距離法が緩和エネルギー計算における最もよく校正された経済的な手法であることを示す。 最後に、我々の潜在空間距離法は、クラスタリングの例、および特定の状態方程式、およびトレーニングデータセットの外部からのカバレッジ例に基づいて、我々の期待に沿う結果を生成することを実証する。

Graph neural networks (GNNs) have been shown to be astonishingly capable models for molecular property prediction, particularly as surrogates for expensive density functional theory calculations of relaxed energy for novel material discovery. However, one limitation of GNNs in this context is the lack of useful uncertainty prediction methods, as this is critical to the material discovery pipeline. In this work, we show that uncertainty quantification for relaxed energy calculations is more complex than uncertainty quantification for other kinds of molecular property prediction, due to the effect that structure optimizations have on the error distribution. We propose that distribution-free techniques are more useful tools for assessing calibration, recalibrating, and developing uncertainty prediction methods for GNNs performing relaxed energy calculations. We also develop a relaxed energy task for evaluating uncertainty methods for equivariant GNNs, based on distribution-free recalibration and using the Open Catalyst Project dataset. We benchmark a set of popular uncertainty prediction methods on this task, and show that latent distance methods, with our novel improvements, are the most well-calibrated and economical approach for relaxed energy calculations. Finally, we demonstrate that our latent space distance method produces results which align with our expectations on a clustering example, and on specific equation of state and adsorbate coverage examples from outside the training dataset.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 大規模言語モデルのユースケースにおけるバイアスと公平性を評価するための実行可能なフレームワーク

An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases ( http://arxiv.org/abs/2407.10853v1 )

ライセンス: Link先を確認
Dylan Bouchard, (参考訳) 大規模言語モデル(LLM)は、様々な方法でバイアスを示すことができる。 このような偏見は、性、人種、性的指向、年齢など、保護された属性内の特定のグループに対して不公平な結果を生み出したり、悪化させる可能性がある。 本稿は, LLM のユースケースにおけるバイアスと公平性のリスクを評価するための実践者のための技術ガイドを提供することを目的とする。 この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。 そこで本研究では,LSMのバイアスと公正リスクを分類し,それらのリスクをLSMのユースケースの分類にマッピングし,さまざまな指標を公式に定義し,リスクの種類を評価する。 この研究の一環として、イノベーティブな反ファクトメトリクスやステレオタイプ分類器に基づくメトリクスなど、いくつかの新しいバイアスと公正度指標が導入されている。 モデル自体にのみ焦点をあてるのではなく、モデルとプロンプトの集団を特徴とするLCMユースケースのレベルでの評価を定義することにより、プロンプトリスクとモデルリスクの両方の感度を考慮する。 さらに, 評価指標のすべては LLM 出力のみを用いて計算されるため, 提案手法は実用的であり, 実践者にとって容易である。

Large language models (LLMs) can exhibit bias in a variety of ways. Such biases can create or exacerbate unfair outcomes for certain groups within a protected attribute, including, but not limited to sex, race, sexual orientation, or age. This paper aims to provide a technical guide for practitioners to assess bias and fairness risks in LLM use cases. The main contribution of this work is a decision framework that allows practitioners to determine which metrics to use for a specific LLM use case. To achieve this, this study categorizes LLM bias and fairness risks, maps those risks to a taxonomy of LLM use cases, and then formally defines various metrics to assess each type of risk. As part of this work, several new bias and fairness metrics are introduced, including innovative counterfactual metrics as well as metrics based on stereotype classifiers. Instead of focusing solely on the model itself, the sensitivity of both prompt-risk and model-risk are taken into account by defining evaluations at the level of an LLM use case, characterized by a model and a population of prompts. Furthermore, because all of the evaluation metrics are calculated solely using the LLM output, the proposed framework is highly practical and easily actionable for practitioners.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 不完全・限定・雑音データからのPDEの主成分フローマップ学習

Principal Component Flow Map Learning of PDEs from Incomplete, Limited, and Noisy Data ( http://arxiv.org/abs/2407.10854v1 )

ライセンス: Link先を確認
Victor Churchill, (参考訳) 本研究では、高次元非一様格子上の部分観測偏微分方程式(PDE)をモデル化する難題に着目し、力学系の進化を小さくモデル化する計算手法を提案する。 我々は、実世界のアプリケーションにおけるデータ収集シナリオに向けて、ノイズと限られたデータに焦点を当てた、データ駆動フローマップ学習に関するこれまでの研究の限界に対処する。 モーダル空間とノルダル空間におけるPDEのモデリングに関する最近の研究を活用し、状態変数や計算領域のサブセットでのみ利用可能なノイズや制限のあるデータを用いたPDEモデリングに適したニューラルネットワーク構造を示す。 特に、学習された線形変換を用いて空間格子点の測定を減らし、その後、この還元された基底で力学を学習し、その後、結節空間に逆戻りする。 このアプローチは、ニューラルネットのパラメータ化を大幅に削減し、ニューラルネットのニューラルネット学習のための従来のフローマップモデルと比較する。 これにより、トレーニングデータセットが小さくなりますが、トレーニング時間の短縮も可能です。

We present a computational technique for modeling the evolution of dynamical systems in a reduced basis, with a focus on the challenging problem of modeling partially-observed partial differential equations (PDEs) on high-dimensional non-uniform grids. We address limitations of previous work on data-driven flow map learning in the sense that we focus on noisy and limited data to move toward data collection scenarios in real-world applications. Leveraging recent work on modeling PDEs in modal and nodal spaces, we present a neural network structure that is suitable for PDE modeling with noisy and limited data available only on a subset of the state variables or computational domain. In particular, spatial grid-point measurements are reduced using a learned linear transformation, after which the dynamics are learned in this reduced basis before being transformed back out to the nodal space. This approach yields a drastically reduced parameterization of the neural network compared with previous flow map models for nodal space learning. This primarily allows for smaller training data sets, but also enables reduced training times.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 変圧器における重み付きグループクエリアテンション

Weighted Grouped Query Attention in Transformers ( http://arxiv.org/abs/2407.10855v1 )

ライセンス: Link先を確認
Sai Sena Chinnakonduru, Astarag Mohapatra, (参考訳) 注意機構はトランスフォーマー言語モデルの基礎ブロックを形成する。 近年のアプローチでは、モデルをスケールすることで人間レベルのパフォーマンスが達成されている。 しかし、ハードウェアメモリのスケーリングや制約の増大に伴い、これらのモデルの推論コストは高いままである。 推測時間を短縮するために、(Shazeer, 2019) と (Ainslieet al , 2023) で、Multi-Query Attention (MQA) とGrouped-Query Attention (GQA) がそれぞれ提案された。 本稿では,Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。 我々は、T5デコーダのアテンションブロックにおいて、各キーと値のヘッドに対して新しい学習可能なパラメータを導入し、微調整中に重み付き平均値を取ることができるようにした。 提案モデルでは,GQAよりも0.53%向上し,従来のマルチヘッドアテンション(MHA)に収束する。 これらのパラメータの導入を評価し、その後の微調整により、トレーニング中のグルーピング機構についてモデルに通知し、性能を向上する。 さらに,T5-smallアーキテクチャとT5-baseアーキテクチャのスケーリング法則を比較した。

The attention mechanism forms the foundational blocks for transformer language models. Recent approaches show that scaling the model achieves human-level performance. However, with increasing demands for scaling and constraints on hardware memory, the inference costs of these models remain high. To reduce the inference time, Multi-Query Attention (MQA) and Grouped-Query Attention (GQA) were proposed in (Shazeer, 2019) and (Ainslieet al., 2023) respectively. In this paper, we propose a variation of Grouped-Query Attention, termed Weighted Grouped-Query Attention (WGQA). We introduced new learnable parameters for each key and value head in the T5 decoder attention blocks, enabling the model to take a weighted average during finetuning. Our model achieves an average of 0.53% improvement over GQA, and the performance converges to traditional Multi-head attention (MHA) with no additional overhead during inference. We evaluated the introduction of these parameters and subsequent finetuning informs the model about the grouping mechanism during training, thereby enhancing performance. Additionally, we demonstrate the scaling laws in our analysis by comparing the results between T5-small and T5-base architecture.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 物理にインスパイアされた医用画像生成モデル : 概観

Physics-Inspired Generative Models in Medical Imaging: A Review ( http://arxiv.org/abs/2407.10856v1 )

ライセンス: Link先を確認
Dennis Hein, Afshin Bozorgpour, Dorit Merhof, Ge Wang, (参考訳) 物理にインスパイアされた生成モデル、特に拡散とポアソンフローモデルはベイジアン法を強化し、医用画像の優れたユーティリティを約束する。 本稿では,このような生成手法の転換的役割について概説する。 まず、拡散確率モデル(DDPM)、スコアベース拡散モデル(Score-based Diffusion Models)、ポアソンフロー生成モデル(PFGMとPFGM++)など、物理学に触発された様々な生成モデルを再考し、精度、堅牢性、加速性を強調した。 次に, 画像再構成, 画像生成, 画像解析など, 物理にインスパイアされた生成モデルの主な応用について述べる。 最後に、将来の研究の方向性は、物理にインスパイアされた生成モデルの統合、視覚言語モデル(VLM)の統合、および生成モデルの新しい応用を含むブレインストーミングである。 生成法の開発は急速に進んでいるので、このレビューは、新しい物理駆動型生成モデルのタイムリーなスナップショットを提供し、医療画像の潜在能力を最大限に活用することを期待している。

Physics-inspired generative models, in particular diffusion and Poisson flow models, enhance Bayesian methods and promise great utilities in medical imaging. This review examines the transformative role of such generative methods. First, a variety of physics-inspired generative models, including Denoising Diffusion Probabilistic Models (DDPM), Score-based Diffusion Models, and Poisson Flow Generative Models (PFGM and PFGM++), are revisited, with an emphasis on their accuracy, robustness as well as acceleration. Then, major applications of physics-inspired generative models in medical imaging are presented, comprising image reconstruction, image generation, and image analysis. Finally, future research directions are brainstormed, including unification of physics-inspired generative models, integration with vision-language models (VLMs),and potential novel applications of generative models. Since the development of generative methods has been rapid, this review will hopefully give peers and learners a timely snapshot of this new family of physics-driven generative models and help capitalize their enormous potential for medical imaging.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# ドメイン適応行動認識のための人間中心変換器

Human-Centric Transformer for Domain Adaptive Action Recognition ( http://arxiv.org/abs/2407.10860v1 )

ライセンス: Link先を確認
Kun-Yu Lin, Jiaming Zhou, Wei-Shi Zheng, (参考訳) 本研究では,行動認識のためのドメイン適応タスク,すなわちドメイン適応行動認識について検討する。 アクションは人間によって実行されるため、ドメイン間のアクションを認識する際には、ビデオ中の人間の手がかりを利用することが不可欠である。 しかしながら、既存の手法では、人間の手がかりを失う傾向があるが、非人間的文脈と認識に関連する行動との相関を利用して行動に依存しない状況は、対象領域における認識性能を低下させる。 この問題を解決するために、我々は、ドメイン適応アクション認識のための人間中心アクションキューを明らかにすることに注力し、人間中心アクションキューの2つの側面、すなわち、人間中心アクションキューと人間コンテキストインタラクションキューを考察する。 そこで提案するHCTransformer(Human-Centric Transformer, HCTransformer)は, ドメイン型ビデオ特徴学習において, 人中心のアクションキューを明示的に重視するために, 疎結合な人間中心学習パラダイムを開発する。 我々のHCTransformerは、まず、人間のエンコーダによる時間的モデリングを行い、ドメイン不変のビデオ特徴学習における人間の手がかりの喪失を回避することを目的としている。 次に、トランスフォーマーのようなアーキテクチャにより、HCTransformerはコンテキストエンコーダによってドメイン不変およびアクション関連コンテキストを利用し、さらに人間とアクション関連コンテキスト間のドメイン不変相互作用をモデル化する。 我々は,UCF-HMDB,Kineetics-NecDrone,EPIC-Kitchens-UDAの3つのベンチマークに対して広範な実験を行い,提案したHCTransformerの有効性を示す。

We study the domain adaptation task for action recognition, namely domain adaptive action recognition, which aims to effectively transfer action recognition power from a label-sufficient source domain to a label-free target domain. Since actions are performed by humans, it is crucial to exploit human cues in videos when recognizing actions across domains. However, existing methods are prone to losing human cues but prefer to exploit the correlation between non-human contexts and associated actions for recognition, and the contexts of interest agnostic to actions would reduce recognition performance in the target domain. To overcome this problem, we focus on uncovering human-centric action cues for domain adaptive action recognition, and our conception is to investigate two aspects of human-centric action cues, namely human cues and human-context interaction cues. Accordingly, our proposed Human-Centric Transformer (HCTransformer) develops a decoupled human-centric learning paradigm to explicitly concentrate on human-centric action cues in domain-variant video feature learning. Our HCTransformer first conducts human-aware temporal modeling by a human encoder, aiming to avoid a loss of human cues during domain-invariant video feature learning. Then, by a Transformer-like architecture, HCTransformer exploits domain-invariant and action-correlated contexts by a context encoder, and further models domain-invariant interaction between humans and action-correlated contexts. We conduct extensive experiments on three benchmarks, namely UCF-HMDB, Kinetics-NecDrone and EPIC-Kitchens-UDA, and the state-of-the-art performance demonstrates the effectiveness of our proposed HCTransformer.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# R3D-AD:3次元異常検出のための拡散による再構成

R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection ( http://arxiv.org/abs/2407.10862v1 )

ライセンス: Link先を確認
Zheyuan Zhou, Le Wang, Naiyu Fang, Zili Wang, Lemiao Qiu, Shuyou Zhang, (参考訳) 3次元異常検出は、精密製造における局所固有の欠陥のモニタリングにおいて重要な役割を担っている。 埋め込みベースおよび再構築ベースのアプローチは、最も人気があり、成功した方法の一つである。 しかし、現在のアプローチの実践には2つの大きな課題がある。 1) 組込みモデルは,メモリバンク構造による計算及び記憶の禁止に苦しむ。 2)MAE機構に基づく再建モデルは,未成熟領域の異常検出に失敗する。 本稿では,高精度な3次元異常検出のための拡散モデルにより異常点雲を再構成するR3D-ADを提案する。 提案手法は, 拡散過程のデータ分布変換を利用して, 入力の異常な形状を完全に曖昧にする。 厳密な点レベルの変位挙動を段階的に学習し、その異常点を体系的に補正する。 モデルの一般化を促進するために,Patch-Gen という新しい3次元異常シミュレーション手法を提案する。 我々のR3D-ADは均一な空間変換を保証し、距離比較により容易に異常な結果を生成することができる。 大規模な実験により、我々のR3D-ADは従来の最先端の手法よりも優れており、Real3D-ADデータセットでは73.4%のイメージレベルAUROC、Anomaly-ShapeNetデータセットでは74.9%のイメージレベルAUROCを達成した。

3D anomaly detection plays a crucial role in monitoring parts for localized inherent defects in precision manufacturing. Embedding-based and reconstruction-based approaches are among the most popular and successful methods. However, there are two major challenges to the practical application of the current approaches: 1) the embedded models suffer the prohibitive computational and storage due to the memory bank structure; 2) the reconstructive models based on the MAE mechanism fail to detect anomalies in the unmasked regions. In this paper, we propose R3D-AD, reconstructing anomalous point clouds by diffusion model for precise 3D anomaly detection. Our approach capitalizes on the data distribution conversion of the diffusion process to entirely obscure the input's anomalous geometry. It step-wisely learns a strict point-level displacement behavior, which methodically corrects the aberrant points. To increase the generalization of the model, we further present a novel 3D anomaly simulation strategy named Patch-Gen to generate realistic and diverse defect shapes, which narrows the domain gap between training and testing. Our R3D-AD ensures a uniform spatial transformation, which allows straightforwardly generating anomaly results by distance comparison. Extensive experiments show that our R3D-AD outperforms previous state-of-the-art methods, achieving 73.4% Image-level AUROC on the Real3D-AD dataset and 74.9% Image-level AUROC on the Anomaly-ShapeNet dataset with an exceptional efficiency.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 予測分析によるサイバーセキュリティの強化 - リアルタイムの脅威検出と応答

Enhancing Cyber Security through Predictive Analytics: Real-Time Threat Detection and Response ( http://arxiv.org/abs/2407.10864v1 )

ライセンス: Link先を確認
Muhammad Danish, (参考訳) 本研究は,サイバー攻撃に対するリアルタイムの識別と応答を改善するために,予測分析の適用性を検討することを目的とする。 今日では、サイバー空間における脅威は、通常、従来の防御方法が不十分なレベルへと進化している。 本稿では、予測分析の重要性を強調し、サイバーセキュリティフレームワークの強化の可能性を示す。 この研究は、サイバーセキュリティにおける予測分析にビッグデータ分析を使用することに関する文献を統合する。 このレビューは、予測モデルとサイバーセキュリティフレームワークにそれらを実装する可能性に関する将来の研究のためのフレームワークとして使用できる。 この研究は、ネットワークトラフィックとセキュリティイベントの2000インスタンスを含むKaggleのデータセットを使用して、定量的研究を使用する。 SPSSを用いて統計実験を行い,ロジスティック回帰とクラスタ分析を用いてデータを解析した。 その結果,予測分析は脅威の警戒と応答時間を高めることが示唆された。 本稿では,予防的サイバーセキュリティ戦略の開発,脅威識別の改善,意思決定プロセス支援に不可欠な要素として,予測分析を提唱する。 また,本研究の実践的意義と実世界の応用の可能性についても論じる。

This research paper aims to examine the applicability of predictive analytics to improve the real-time identification and response to cyber-attacks. Today, threats in cyberspace have evolved to a level where conventional methods of defense are usually inadequate. This paper highlights the significance of predictive analytics and demonstrates its potential in enhancing cyber security frameworks. This research integrates literature on using big data analytics for predictive analytics in cyber security, noting that such systems could outperform conventional methods in identifying advanced cyber threats. This review can be used as a framework for future research on predictive models and the possibilities of implementing them into the cyber security frameworks. The study uses quantitative research, using a dataset from Kaggle with 2000 instances of network traffic and security events. Logistic regression and cluster analysis were used to analyze the data, with statistical tests conducted using SPSS. The findings show that predictive analytics enhance the vigilance of threats and response time. This paper advocates for predictive analytics as an essential component for developing preventative cyber security strategies, improving threat identification, and aiding decision-making processes. The practical implications and potential real-world applications of the findings are also discussed.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# データポジショニングとバックドアアタックに対する(グラフ)ニューラルネットワークのロバスト性

Provable Robustness of (Graph) Neural Networks Against Data Poisoning and Backdoor Attacks ( http://arxiv.org/abs/2407.10867v1 )

ライセンス: Link先を確認
Lukas Gosch, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Stephan Günnemann, (参考訳) マシンラーニングモデルの一般化は、トレーニングデータに敵対的な変更を適用するデータ中毒や、テストデータを操作するバックドアアタックによって、深刻な妥協を受けることができる。 これらの脆弱性は、そのような変化がテスト予測に影響を与えないことの証明(すなわち、証明)に関心を向けている。 我々は、グラフニューラルネットワーク(GNN)を、特定のグラフのノード特徴をターゲットとした中毒やバックドア攻撃に対して初めて認定する。 私たちの証明書はホワイトボックスで$をベースとしています (i)十分に広いネットワークのトレーニングダイナミクスを特徴付けるニューラルタンジェントカーネル$ (II)混合整数線形プログラムとして有毒を記述した二段階最適化問題の新たな再検討。 その結果,コンボリューションベースのGNNとPageRankベースのGNNの最悪のロバスト性行動におけるグラフ構造の役割とその接続性に関する基本的な知見を提供するために,我々のフレームワークを活用している。 我々のフレームワークはより一般的であり、グラフ関連のタスク以外にも独立した関心を持つことができるNNのホワイトボックス中毒証明書を導出する最初のアプローチとなっていることに留意する。

Generalization of machine learning models can be severely compromised by data poisoning, where adversarial changes are applied to the training data, as well as backdoor attacks that additionally manipulate the test data. These vulnerabilities have led to interest in certifying (i.e., proving) that such changes up to a certain magnitude do not affect test predictions. We, for the first time, certify Graph Neural Networks (GNNs) against poisoning and backdoor attacks targeting the node features of a given graph. Our certificates are white-box and based upon $(i)$ the neural tangent kernel, which characterizes the training dynamics of sufficiently wide networks; and $(ii)$ a novel reformulation of the bilevel optimization problem describing poisoning as a mixed-integer linear program. Consequently, we leverage our framework to provide fundamental insights into the role of graph structure and its connectivity on the worst-case robustness behavior of convolution-based and PageRank-based GNNs. We note that our framework is more general and constitutes the first approach to derive white-box poisoning certificates for NNs, which can be of independent interest beyond graph-related tasks.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# GPTソノグラフ:VLMによる前腕超音波画像からの手のジェスチャーデコード

GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM ( http://arxiv.org/abs/2407.10870v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Ye Wang, Jing Liu, Toshiaki Koike-Akino, (参考訳) Generative Pre-trained Transformer 4-omni (GPT-4o)のような大規模視覚言語モデル(LVLM)は、医療、工業、学術分野を含む無数のアプリケーションのための強力な人工知能(AI)支援ツールとして大きな可能性を秘めている。 このような基礎モデルは、幅広い一般的なタスクでうまく機能するが、微調整なしでは、しばしば特殊タスクでしか機能しない。 しかし、巨大な基盤モデルの完全な微調整は、膨大な計算/メモリ/データセットの要求のために困難である。 GPT-4oは、微調整がなくても、前腕超音波データから手の動きを復号できることを示す。

Large vision-language models (LVLMs), such as the Generative Pre-trained Transformer 4-omni (GPT-4o), are emerging multi-modal foundation models which have great potential as powerful artificial-intelligence (AI) assistance tools for a myriad of applications, including healthcare, industrial, and academic sectors. Although such foundation models perform well in a wide range of general tasks, their capability without fine-tuning is often limited in specialized tasks. However, full fine-tuning of large foundation models is challenging due to enormous computation/memory/dataset requirements. We show that GPT-4o can decode hand gestures from forearm ultrasound data even with no fine-tuning, and improves with few-shot, in-context learning.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# 大規模言語モデルを用いた自動ヒューリスティック設計における進化的探索の重要性の理解

Understanding the Importance of Evolutionary Search in Automated Heuristic Design with Large Language Models ( http://arxiv.org/abs/2407.10873v1 )

ライセンス: Link先を確認
Rui Zhang, Fei Liu, Xi Lin, Zhenkun Wang, Zhichao Lu, Qingfu Zhang, (参考訳) AHD(Automated Heuristic Design)は、効果的なヒューリスティックスの開発を自動化する可能性について、かなりの注目を集めている。 近年の大規模言語モデル(LLM)の出現は、進化的プログラム探索(EPS)問題としてAHDをフレーミングすることに焦点を当て、AHDの新しい道を開いた。 しかし、不整合ベンチマーク設定、不整合ベースライン、詳細なコンポーネント分析の欠如は、LLMを検索戦略に統合することの必要性と、既存のLLMベースのESS法で達成された真の進歩を不十分に正当化する必要性を残している。 本研究は,LLMをベースとした4つのESS法と,9つのLLMと5つの独立した実行環境にまたがる4つのAHD問題からなる大規模ベンチマークを行うことにより,これらの調査クエリを満たすことを目的とする。 我々の広範な実験は有意義な洞察を与え、LLMベースのAHDアプローチにおける進化探索の重要性を実証的に裏付けると同時に、将来のEPSアルゴリズム開発の発展にも貢献する。 アクセシビリティと再現性を向上するため、ベンチマークとそれに対応する結果を完全にオープンソースにしました。

Automated heuristic design (AHD) has gained considerable attention for its potential to automate the development of effective heuristics. The recent advent of large language models (LLMs) has paved a new avenue for AHD, with initial efforts focusing on framing AHD as an evolutionary program search (EPS) problem. However, inconsistent benchmark settings, inadequate baselines, and a lack of detailed component analysis have left the necessity of integrating LLMs with search strategies and the true progress achieved by existing LLM-based EPS methods to be inadequately justified. This work seeks to fulfill these research queries by conducting a large-scale benchmark comprising four LLM-based EPS methods and four AHD problems across nine LLMs and five independent runs. Our extensive experiments yield meaningful insights, providing empirical grounding for the importance of evolutionary search in LLM-based AHD approaches, while also contributing to the advancement of future EPS algorithmic development. To foster accessibility and reproducibility, we have fully open-sourced our benchmark and corresponding results.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# マルチモーダル生体信号を用いたロバストハンドジェスチャ分類のためのランダムチャネルアブレーション

Random Channel Ablation for Robust Hand Gesture Classification with Multimodal Biosignals ( http://arxiv.org/abs/2407.10874v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Jing Liu, Ye Wang, Toshiaki Koike-Akino, (参考訳) 生体信号に基づく手動作分類は,人間と機械の効果的な相互作用の重要な構成要素である。 マルチモーダル生体信号センシングでは, 動作分類性能に悪影響を及ぼす可能性のあるデータ中のチャネル不足により, モダリティはデータ損失に直面することが多い。 そこで本研究では,学習過程におけるランダムチャネルアブレーション(Random Channel Ablation, RChA)について提案する。 前腕から超音波・筋電図(FMG)データを取得し,手指動作12例について検討した。 結果として得られたマルチモーダルデータは合計16チャンネルで、各モーダルに対して8チャンネルであった。 提案手法は畳み込みニューラルネットワークアーキテクチャに適用され,ベースライン,インプット,オラクル法と比較された。 5倍のクロスバリデーションを平均12.2%,24.5%改善した。 特に,提案手法は,他の手法と比較してチャネルの欠落数の増加に対して頑健である。 これらの結果から,マルチモーダルおよびマルチチャンネルバイオシグナーを用いた手動作分類において,ランダムチャネルアブレーションを用いて分類器の堅牢性を向上させる効果が示された。

Biosignal-based hand gesture classification is an important component of effective human-machine interaction. For multimodal biosignal sensing, the modalities often face data loss due to missing channels in the data which can adversely affect the gesture classification performance. To make the classifiers robust to missing channels in the data, this paper proposes using Random Channel Ablation (RChA) during the training process. Ultrasound and force myography (FMG) data were acquired from the forearm for 12 hand gestures over 2 subjects. The resulting multimodal data had 16 total channels, 8 for each modality. The proposed method was applied to convolutional neural network architecture, and compared with baseline, imputation, and oracle methods. Using 5-fold cross-validation for the two subjects, on average, 12.2% and 24.5% improvement was observed for gesture classification with up to 4 and 8 missing channels respectively compared to the baseline. Notably, the proposed method is also robust to an increase in the number of missing channels compared to other methods. These results show the efficacy of using random channel ablation to improve classifier robustness for multimodal and multi-channel biosignal-based hand gesture classification.
翻訳日:2024-07-16 14:20:24 公開日:2024-07-15
# RepVF:マルチタスク3次元知覚のための統一ベクトル場表現

RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception ( http://arxiv.org/abs/2407.10876v1 )

ライセンス: Link先を確認
Chunliang Li, Wencheng Han, Junbo Yin, Sanyuan Zhao, Jianbing Shen, (参考訳) 同じ時空間における複数の自律走行3次元認識タスクの同時処理は、特に従来のマルチタスク学習アプローチを使用する場合の計算不効率とタスク間の特徴競合により、大きな課題を生んでいる。 本稿では,3次元物体検出や3次元車線検出などの様々な知覚タスクの表現を調和させる,新しい統一表現RepVFを提案することにより,これらの課題に対処する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、計算冗長性と特徴競合を著しく低減するシングルヘッドマルチタスク学習モデルを実現する。 RepVF上に構築されたRFTRは,タスク間の関係を暗黙的にモデル化するクエリの階層構造を利用して,異なるタスク間の関係を生かしたネットワークである。 このアプローチはタスク固有のヘッダやパラメータの必要性を排除し、従来のマルチタスク学習パラダイムに固有のコンフリクトを根本的に削減する。 当社のアプローチは,OpenLaneデータセットのラベルとWaymo Openデータセットを組み合わせることで検証します。 本研究は、自律運転におけるマルチタスク認識の効率性と有効性において、複数の3次元知覚タスクを同期かつ並列に扱うための新たな視点を提供するものである。 コードは、https://github.com/jbji/RepVF.comで入手できる。

Concurrent processing of multiple autonomous driving 3D perception tasks within the same spatiotemporal scene poses a significant challenge, in particular due to the computational inefficiencies and feature competition between tasks when using traditional multi-task learning approaches. This paper addresses these issues by proposing a novel unified representation, RepVF, which harmonizes the representation of various perception tasks such as 3D object detection and 3D lane detection within a single framework. RepVF characterizes the structure of different targets in the scene through a vector field, enabling a single-head, multi-task learning model that significantly reduces computational redundancy and feature competition. Building upon RepVF, we introduce RFTR, a network designed to exploit the inherent connections between different tasks by utilizing a hierarchical structure of queries that implicitly model the relationships both between and within tasks. This approach eliminates the need for task-specific heads and parameters, fundamentally reducing the conflicts inherent in traditional multi-task learning paradigms. We validate our approach by combining labels from the OpenLane dataset with the Waymo Open dataset. Our work presents a significant advancement in the efficiency and effectiveness of multi-task perception in autonomous driving, offering a new perspective on handling multiple 3D perception tasks synchronously and in parallel. The code will be available at: https://github.com/jbji/RepVF
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 天然ガス市場に対する地圧の影響の解明と定量化のための深層因果学習

Deep Causal Learning to Explain and Quantify The Geo-Tension's Impact on Natural Gas Market ( http://arxiv.org/abs/2407.10878v1 )

ライセンス: Link先を確認
Philipp Kai Peter, Yulin Li, Ziyue Li, Wolfgang Ketter, (参考訳) 天然ガス需要は天然ガス価格を予測する上で重要な要素であり、電力システムに直接影響を及ぼす。 しかし、既存の手法は、ロシア・ウクライナ戦争の勃発など、衝撃の影響を評価する上での課題に直面している。 この文脈では、天然ガス需要の重要な要因を特定するために、ディープニューラルネットワークに基づくGranger因果関係を適用する。 さらに、結果として生じる依存関係は、戦争が勃発することなく、反現実的なケースを構築するために使用され、様々なドイツのエネルギーセクターに対する衝撃の全体的影響を定量的に見積もっている。 コードとデータセットはhttps://github.com/bonaldli/CausalEnergy.comで公開されている。

Natural gas demand is a crucial factor for predicting natural gas prices and thus has a direct influence on the power system. However, existing methods face challenges in assessing the impact of shocks, such as the outbreak of the Russian-Ukrainian war. In this context, we apply deep neural network-based Granger causality to identify important drivers of natural gas demand. Furthermore, the resulting dependencies are used to construct a counterfactual case without the outbreak of the war, providing a quantifiable estimate of the overall effect of the shock on various German energy sectors. The code and dataset are available at https://github.com/bonaldli/CausalEnergy.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 行動におけるイノベーション抵抗理論:オープンデータイノベーションを解き放つ公共機関による政府データ導入の障壁を開放する

Innovation Resistance Theory in Action: Unveiling Barriers to Open Government Data Adoption by Public Organizations to Unlock Open Data Innovation ( http://arxiv.org/abs/2407.10883v1 )

ライセンス: Link先を確認
Anastasija Nikiforova, Antoine Clarinval, Anneke Zuiderwijk, Daniel Rudmark, Petar Milic, Katrin Rajamäe-Soosaar, (参考訳) Open Government Data(OGD)は、データ駆動のイノベーションと、さまざまな分野における持続可能性を促進する上で、重要な役割を担っている。 その可能性にもかかわらず、多くの公共団体は、自分のデータを公開的に共有することに消極的だ。 既存の研究は、公共団体がOGDを共有する意図に影響を及ぼす要因を調査してきたが、公共団体による政府データの公開に対する抵抗の調査に理論モデルを適用する研究は、多様である。 本研究は, 公共機関間で抵抗の予測器を識別できるOGDに適したIRTモデルを開発することにより, ギャップを解消するものである。 文献に基づく初期モデルを開発し、6か国21の公共機関へのインタビューを通じてそれを洗練する。 最終モデルは、使用、価値、リスク、伝統、イメージに関連する39の障壁を記述している。 この発見は、IRTをOGDのコンテキストに適応させることによって文学に寄与する。 そこで本研究では,OGD導入障壁を検討するための新たな理論フレームワークの需要が高まっている。 データ開放性を奨励し、OGD導入における課題に対処するデータエコシステムの構築において、政策立案者を支援するために、実践的な洞察が提供される。

Open Government Data (OGD) plays a pivotal role in fostering data-driven innovation and sustainability across various sectors. Despite its potential, many public organizations are reluctant to share their data openly. While existing research has explored factors impacting the public organizations intention to share OGD, there is a paucity of research applying theoretical models to investigate the resistance by public organizations to making government data publicly available. This study addresses the gap by developing an Innovation Resistance Theory (IRT) model tailored to OGD that allows identifying predictors of resistance among public agencies. We develop an initial model based on literature and refine it through interviews with 21 public agencies across six countries. The final model describes 39 barriers related to usage, value, risks, tradition, and image. The findings contribute to the literature by adapting IRT to the context of OGD, an area where its application has been notably limited. As such, this study addresses the growing demand for novel theoretical frameworks to examine OGD adoption barriers. Practical insights are provided to support policymakers in creating data ecosystems that encourage data openness and address challenges in OGD adoption.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 転送行列例外点の順序がバンドエッジの輸送に及ぼす影響

Effect of order of transfer matrix exceptional points on transport at band edges ( http://arxiv.org/abs/2407.10884v1 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni, Archak Purkayastha, (参考訳) 最近、一次元フェルミオン系において、バンドエッジに近いゼロ温度コンダクタンススケールが1/N^2$となり、そこではN$がシステム長となることが示されている。 このバンドエッジにおける導電率の普遍的部分拡散スケーリングは、各バンドエッジで発生する系の伝達行列の例外点(EP)と結び付けられている。 さらに、バルクデファスプローブの存在下では、このEPは導電性の反直観的な超球性スケーリングをもたらすことが示されており、導電性は有限だが大きな系長の体系上でN$で増加する。 本研究では,これらの挙動が,バンドエッジの移動行列EPの順序によってどのように影響を受けるかを検討する。 有限領域のホッピングを持つ一次元フェルミオン格子鎖を考える。 ホッピングの幅とホッピングパラメータにより、このシステムは、関連する転送行列の任意の高次EPに対応する帯域エッジを特徴付けることができる。 このシステムを用いることで、バルクデフォーカスがなければ、意外なことに、コンダクタンスの普遍的な1/N^2$スケーリングはEPの順序によって完全に影響を受けない、という一般性を確立します。 これは、転写マトリックスEPの存在がそのような挙動に不可欠であるという事実にもかかわらずである。 しかし、バルクデファスティングの存在下では、位相コヒーレンス長、超バルーン性スケーリング体制の範囲、超ボール性スケーリング指数は、全て転移行列EPの順序をエンコードする。

Recently, it has been shown that, in one dimensional fermionic systems, close to band edges, the zero temperature conductance scales as $1/N^2$, where $N$ is the system length. This universal subdiffusive scaling of conductance at band edges has been tied to an exceptional point (EP) of the transfer matrix of the system that occur at every band edge. Further, in presence of bulk dephasing probes, this EP has been shown to lead to a counterintuitive superballistic scaling of conductance, where the conductance increases with $N$ over a finite but large regime of system lengths. In this work, we explore how these behaviors are affected by the order of the transfer matrix EP at the band edge. We consider a one-dimensional fermionic lattice chain with a finite range of hopping. Depending on the range of hopping and the hopping parameters, this system can feature band edges which correspond to arbitrarily higher order EPs of the associated transfer matrix. Using this system we establish in generality that, in absence of bulk dephasing, surprisingly, the universal $1/N^2$ scaling of conductance is completely unaffected by the order of the EP. This is despite the fact that existence of transfer matrix EP is crucial for such behavior. In presence of bulk dephasing, however, the phase coherence length, the extent of the superballisitic scaling regime and the exponent of superballistic scaling, all encode the order of the transfer matrix EP.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# SLIP:重み分解を用いたLLMIPのセキュア化

SLIP: Securing LLMs IP Using Weights Decomposition ( http://arxiv.org/abs/2407.10886v1 )

ライセンス: Link先を確認
Yehonathan Refael, Adam Hakim, Lev Greenberg, Tal Aviv, Satya Lokam, Ben Fishman, Shachar Seidman, (参考訳) 大規模言語モデル(LLM)は、最近、アカデミックと産業の両方で広く採用されている。 これらのモデルが成長するにつれて、彼らは価値ある知的財産権(IP)となり、所有者による巨額の投資を反映している。 さらに、クラウドベースのデプロイメントのコストが高いことから、エッジデバイスへのデプロイメントへの関心が高まっている。 エッジ上のモデルのIPを保護する現在の方法は、実用性、精度の低下、要求に対する適合性の制限がある。 本稿では,エッジデデプロイされたモデルを盗難から保護するために,SLIPという新しいハイブリッド推論アルゴリズムを提案する。 SLIPは、現実のアプリケーションには実用的であり、信頼性の低下やレイテンシへの影響を最小限に抑えながら、確実にセキュアな最初のハイブリッドプロトコルである。 モデルは2つのコンピューティングリソース間で分割され、1つは安全だが高価で、もう1つはコスト効率が良いが脆弱性がある。 これは行列分解によって達成され、セキュアなリソースが最小の計算量を実行しながら、モデルのIPの最大機密部分を保持することを保証する。 重要なことに、このプロトコルには、攻撃者が機密情報を推測するためにパーティションを悪用することを防ぐセキュリティ保証が含まれている。 最後に,本手法のロバスト性と有効性を示す実験結果について述べる。

Large language models (LLMs) have recently seen widespread adoption, in both academia and industry. As these models grow, they become valuable intellectual property (IP), reflecting enormous investments by their owners. Moreover, the high cost of cloud-based deployment has driven interest towards deployment to edge devices, yet this risks exposing valuable parameters to theft and unauthorized use. Current methods to protect models' IP on the edge have limitations in terms of practicality, loss in accuracy, or suitability to requirements. In this paper, we introduce a novel hybrid inference algorithm, named SLIP, designed to protect edge-deployed models from theft. SLIP is the first hybrid protocol that is both practical for real-world applications and provably secure, while having zero accuracy degradation and minimal impact on latency. It involves partitioning the model between two computing resources, one secure but expensive, and another cost-effective but vulnerable. This is achieved through matrix decomposition, ensuring that the secure resource retains a maximally sensitive portion of the model's IP while performing a minimal amount of computations, and vice versa for the vulnerable resource. Importantly, the protocol includes security guarantees that prevent attackers from exploiting the partition to infer the secured information. Finally, we present experimental results that show the robustness and effectiveness of our method, positioning it as a compelling solution for protecting LLMs.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# これが私のモデルだ! LLMフィンガープリント技術であるChain & Hashの導入

Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique ( http://arxiv.org/abs/2407.10887v1 )

ライセンス: Link先を確認
Mark Russinovich, Ahmed Salem, (参考訳) 盗難の容易さやLLM(Large Language Models)の誤用に関する懸念が高まっている中、フィンガープリントモデルの必要性が高まっている。 この文脈でのフィンガープリントは、モデル所有者が与えられたモデルを元のバージョンにリンクできることを意味し、それによってモデルが誤用されているか、完全に盗まれているかを識別する。 本稿では,まず,指紋が満足すべき5つの特性,すなわち,指紋は透過性,効率性,永続性,ロバスト性,非偽造性(unforgeable)の5つを定義する。 次にChain & Hashを提案する。これは、暗号的なフレーバーを持つ指紋を実装し、これらの特性をすべて達成する、新しい、シンプルなフィンガープリントアプローチである。 Chain & Hashは、潜在的な答えのセットとともに、一連の質問(指紋)を生成する。 これらの要素はセキュアなハッシュ技術を使ってまとめられ、各質問の値を選択する。 我々は,複数のモデル上でChain & Hash技術を評価し,異なるデータセットの微調整や指紋の消去の試みなど,良性変換に対する堅牢性を実証した。 最後に、我々はChain & Hashとそのユーティリティの実装の効率を実証し、指紋モデルが異なるベンチマークで非指紋モデルとほぼ同等のパフォーマンスを達成した。

Amid growing concerns over the ease of theft and misuse of Large Language Models (LLMs), the need for fingerprinting models has increased. Fingerprinting, in this context, means that the model owner can link a given model to their original version, thereby identifying if their model is being misused or has been completely stolen. In this paper, we first define a set five properties a successful fingerprint should satisfy; namely, the fingerprint should be Transparent, Efficient, Persistent, Robust, and Unforgeable. Next, we propose Chain & Hash, a new, simple fingerprinting approach that implements a fingerprint with a cryptographic flavor, achieving all these properties. Chain & Hash involves generating a set of questions (the fingerprints) along with a set of potential answers. These elements are hashed together using a secure hashing technique to select the value for each question, hence providing an unforgeability property-preventing adversaries from claiming false ownership. We evaluate the Chain & Hash technique on multiple models and demonstrate its robustness against benign transformations, such as fine-tuning on different datasets, and adversarial attempts to erase the fingerprint. Finally, our experiments demonstrate the efficiency of implementing Chain & Hash and its utility, where fingerprinted models achieve almost the same performance as non-fingerprinted ones across different benchmarks.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# MRIによる解剖学的精度CTスキャン生成のためのマルチモーダルサイクルGANの応用

Leveraging Multimodal CycleGAN for the Generation of Anatomically Accurate Synthetic CT Scans from MRIs ( http://arxiv.org/abs/2407.10888v1 )

ライセンス: Link先を確認
Leonardo Crespi, Samuele Camnasio, Damiano Dei, Nicola Lambri, Pietro Mancosu, Marta Scorsetti, Daniele Loiacono, (参考訳) CT(CT)とMRI(MRI)の両方の使用は、患者の解剖を徹底的に把握し、適切な治療戦略を立案するために必要である。 時々、MRIはターゲットのボリュームをゆがめるのが好まれる。 しかし、このアプローチはコストが高く、時間がかかり、そして最も重要なのは、患者にとってストレスが多いため、最も効率的ではないことが多い。 この問題を克服するために、我々は、MRIから合成CTスキャンを生成するためのDeep Learningモデルの異なる構成の能力を分析し、ジェネレーティブ・アドバイザリアル・ネットワーク(GAN)のパワーを活用し、特に、教師なしの方法で動作でき、ペア画像も利用できないCycleGANアーキテクチャを利用する。 異なるMRIモダリティからCTスキャンを生成するために、コントラスト剤を使用しないいくつかのCycleGANモデルを教師なしで訓練した。 実際の画像と合成画像を区別して生成した画像がいかにリアルかを理解するための定性的な評価とともに、基礎的な真実を持たない問題を解決するために、分布に基づくメトリクスを用いてモデルの性能を定量的に評価した。 結果から, 入力のモダリティによって, モデルが全く異なる性能を持つことを示すが, 最適な定量的結果を持つモデルでは, 医用であっても, 実際のモデルと区別しにくい画像を生成することができる。

In many clinical settings, the use of both Computed Tomography (CT) and Magnetic Resonance (MRI) is necessary to pursue a thorough understanding of the patient's anatomy and to plan a suitable therapeutical strategy; this is often the case in MRI-based radiotherapy, where CT is always necessary to prepare the dose delivery, as it provides the essential information about the radiation absorption properties of the tissues. Sometimes, MRI is preferred to contour the target volumes. However, this approach is often not the most efficient, as it is more expensive, time-consuming and, most importantly, stressful for the patients. To overcome this issue, in this work, we analyse the capabilities of different configurations of Deep Learning models to generate synthetic CT scans from MRI, leveraging the power of Generative Adversarial Networks (GANs) and, in particular, the CycleGAN architecture, capable of working in an unsupervised manner and without paired images, which were not available. Several CycleGAN models were trained unsupervised to generate CT scans from different MRI modalities with and without contrast agents. To overcome the problem of not having a ground truth, distribution-based metrics were used to assess the model's performance quantitatively, together with a qualitative evaluation where physicians were asked to differentiate between real and synthetic images to understand how realistic the generated images were. The results show how, depending on the input modalities, the models can have very different performances; however, models with the best quantitative results, according to the distribution-based metrics used, can generate very difficult images to distinguish from the real ones, even for physicians, demonstrating the approach's potential.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 高次元エンタングルメントによる線形光核融合

Linear-optical fusion boosted by high-dimensional entanglement ( http://arxiv.org/abs/2407.10893v1 )

ライセンス: Link先を確認
Tomohiro Yamazaki, Koji Azuma, (参考訳) 2量子ビット部分空間におけるベル状態に次元$d$の1対の量子四重項を確率的に投影する量子測度を提案する。 これは、アシラ光子なしで1-d^{-1}$の成功確率と2(2^{k}-1)$アシラ光子で1-d^{-1(k+1)}$で行うことができる。 これにより、立方体上の線形光核融合ゲートよりも高い確率で2次元的に2つの独立に準備された高次元絡み合った状態が絡み合うことができる。 応用として、3量子GHZ状態と量子メモリを備えた高速量子リピータプロトコルを提案する。

We propose a quantum measurement that probabilistically projects a pair of qudits of dimension $d$ onto a Bell state in a two-qubit subspace. It can be performed using linear-optical circuits with the success probabilities of $1-d^{-1}$ without ancilla photons and $1-d^{-(k+1)}$ with $2(2^{k}-1)$ ancilla photons. It allows us to entangle two independently-prepared high-dimensional entangled states two-dimensionally with higher probabilities than ones of linear-optical fusion gates on qubits. As an application, we propose a fast quantum repeater protocol with three-qudit GHZ states and quantum memories.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 画像生成のための光拡散モデル

Optical Diffusion Models for Image Generation ( http://arxiv.org/abs/2407.10897v1 )

ライセンス: Link先を確認
Ilker Oguz, Niyazi Ulas Dinc, Mustafa Yildirim, Junjie Ke, Innfarn Yoo, Qifei Wang, Feng Yang, Christophe Moser, Demetri Psaltis, (参考訳) 拡散モデルは、初期供給されたランダム分布から徐々にノイズを減らし、新しいサンプルを生成する。 この推論手順は一般に、トレーニングされたニューラルネットワークを何度も使用して最終的な出力を取得し、GPUのようなデジタル電子ハードウェア上で大きなレイテンシとエネルギー消費を生み出す。 本研究では,半透明媒質を透過する光ビームの伝搬をプログラムし,画像サンプルにデノナイズ拡散モデルを実装することを実証する。 このフレームワークは、受動回折光学層を通してノイズの多い画像パターンを投影し、予測された雑音項のみを画像中に送信する。 オンライントレーニングアプローチでトレーニングされた光学透明層は、システムの分析モデルにエラーをバックプロパゲートして受動的に処理し、異なる段階の認知処理を行う。 これにより、光情報処理の帯域幅とエネルギー効率の恩恵を受け、最小消費電力で高速な画像生成が可能となる。

Diffusion models generate new samples by progressively decreasing the noise from the initially provided random distribution. This inference procedure generally utilizes a trained neural network numerous times to obtain the final output, creating significant latency and energy consumption on digital electronic hardware such as GPUs. In this study, we demonstrate that the propagation of a light beam through a semi-transparent medium can be programmed to implement a denoising diffusion model on image samples. This framework projects noisy image patterns through passive diffractive optical layers, which collectively only transmit the predicted noise term in the image. The optical transparent layers, which are trained with an online training approach, backpropagating the error to the analytical model of the system, are passive and kept the same across different steps of denoising. Hence this method enables high-speed image generation with minimal power consumption, benefiting from the bandwidth and energy efficiency of optical information processing.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# LLM-Respondents for Item Evaluation: a Psychometric Analysis

Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis ( http://arxiv.org/abs/2407.10899v1 )

ライセンス: Link先を確認
Yunting Liu, Shreya Bhandari, Zachary A. Pardos, (参考訳) 効果的な教育測定は、適切に設計されたアイテムプールのキュレーションに大きく依存している(つまり、適切な心理測定特性を持つ)。 しかし、アイテムのキャリブレーションには時間と費用がかかり、レスポンスプロセスに十分な数の回答者が必要である。 我々は6種類のLDM(GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, Cohere Command R Plus)とそれらの組み合わせをサンプリング法を用いて探索し、人間の答えに類似した心理学的特性を持つ応答を生成する。 その結果,一部のLLMは大学生に比べて,カレッジ・アルジェブラの習熟度が高いことが示唆された。 熟練度分布が狭いため,一人のLLMが人間の答えを模倣することはないが,LLMのアンサンブルは大学生の能力分布によく似ている。 LLM-Respondents で校正された項目のパラメータは、人間の校正された項目と比較して高い相関(eg > 0.8 for GPT-3.5)を持ち、人間のサブセットのパラメータ(eg 0.02 スピアマン相関差)とよく似ている。 いくつかの強化戦略が相対的な性能で評価され、再サンプリング法が最も効果的であることが証明され、スピアマンの相関は0.89(人間のみ)から0.93(人間のみ)に向上した。

Effective educational measurement relies heavily on the curation of well-designed item pools (i.e., possessing the right psychometric properties). However, item calibration is time-consuming and costly, requiring a sufficient number of respondents for the response process. We explore using six different LLMs (GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, and Cohere Command R Plus) and various combinations of them using sampling methods to produce responses with psychometric properties similar to human answers. Results show that some LLMs have comparable or higher proficiency in College Algebra than college students. No single LLM mimics human respondents due to narrow proficiency distributions, but an ensemble of LLMs can better resemble college students' ability distribution. The item parameters calibrated by LLM-Respondents have high correlations (e.g. > 0.8 for GPT-3.5) compared to their human calibrated counterparts, and closely resemble the parameters of the human subset (e.g. 0.02 Spearman correlation difference). Several augmentation strategies are evaluated for their relative performance, with resampling methods proving most effective, enhancing the Spearman correlation from 0.89 (human only) to 0.93 (augmented human).
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# オブジェクト検出とディジット分類を用いた手動作の解釈

Interpreting Hand gestures using Object Detection and Digits Classification ( http://arxiv.org/abs/2407.10902v1 )

ライセンス: Link先を確認
Sangeetha K, Balaji VS, Kamalesh P, Anirudh Ganapathy PS, (参考訳) 手のジェスチャーは、自然で直感的なテクノロジーへの関わり方へと進化してきた。 本研究の目的は,数字を表す手振りを正確に認識・分類できる頑健なシステムを開発することである。 提案手法では、手動画像のデータセットの収集、画像の事前処理と拡張、関連する特徴の抽出、機械学習モデルのトレーニングなどを行う。 コンピュータビジョン技術とオブジェクト検出技術の進歩は、手の動きを分析し、理解するOpenCVの能力と相まって、数値桁の識別とその潜在的な応用を変換する機会を提供する。 コンピュータビジョン技術と物体識別技術の進歩と、手の動きを分析し解釈するOpenCVの能力は、人間のインタラクションに革命をもたらす可能性があり、情報、教育、雇用機会への人々のアクセスを促進する。 キーワード:コンピュータビジョン、機械学習、ディープラーニング、ニューラルネットワーク

Hand gestures have evolved into a natural and intuitive means of engaging with technology. The objective of this research is to develop a robust system that can accurately recognize and classify hand gestures representing numbers. The proposed approach involves collecting a dataset of hand gesture images, preprocessing and enhancing the images, extracting relevant features, and training a machine learning model. The advancement of computer vision technology and object detection techniques, in conjunction with OpenCV's capability to analyze and comprehend hand gestures, presents a chance to transform the identification of numerical digits and its potential applications. The advancement of computer vision technology and object identification technologies, along with OpenCV's capacity to analyze and interpret hand gestures, has the potential to revolutionize human interaction, boosting people's access to information, education, and employment opportunities. Keywords: Computer Vision, Machine learning, Deep Learning, Neural Networks
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# Just-in-Time Multi-Programming-Language Bug予測に関する探索的研究

An Exploratory Study on Just-in-Time Multi-Programming-Language Bug Prediction ( http://arxiv.org/abs/2407.10906v1 )

ライセンス: Link先を確認
Zengyang Li, Jiabao Ji, Peng Liang, Ran Mo, Hui Liu, (参考訳) コンテキスト: マルチプログラミング言語(MPL)システムと呼ばれる複数のプログラミング言語(PL)で記述されるソフトウェアシステムが増えている。 MPLバグ(MPLBs)は、複数のPLを含むバグを指す。 MPLBの解像度は複雑だが、MPLBの予測方法が欠けている。 目的: 本研究の目的は, ジャスト・イン・タイム (JIT) MPLB 予測モデルを選択した予測指標を用いて構築し, メトリクスの意義を分析し, プロジェクト横断 MPLB 予測の性能を評価することである。 方法: 機械学習アルゴリズムを用いて選択したメトリクスを用いたJIT MPLB予測モデルを開発し、18のApache MPLプロジェクトに基づいて構築したデータセットを用いて、プロジェクト内およびプロジェクト間コンテキストにおけるモデルの評価を行う。 結果: Random Forest は JIT MPLB 予測に適しています。 すべてのファイルのLOCを変更し、すべてのファイルのLOCを追加し、現在、プロジェクトの全ファイルの行数はJIT MPLB予測において最も重要な指標である。 予測モデルは、いくつかのトップランクのメトリクスを使用して単純化することができる。 複数のプロジェクトからのデータセットのトレーニングは、プロジェクト間のJIT MPLB予測のために単一のプロジェクトからのデータセットのトレーニングよりもはるかに高いAUCが得られる。 結論: JIT MPLB予測モデルは、選択されたメトリクスセットで構築することができ、単純化されたJIT MPLB予測モデルを構築するために削減することができる。

Context: An increasing number of software systems are written in multiple programming languages (PLs), which are called multi-programming-language (MPL) systems. MPL bugs (MPLBs) refers to the bugs whose resolution involves multiple PLs. Despite high complexity of MPLB resolution, there lacks MPLB prediction methods. Objective: This work aims to construct just-in-time (JIT) MPLB prediction models with selected prediction metrics, analyze the significance of the metrics, and then evaluate the performance of cross-project JIT MPLB prediction. Method: We develop JIT MPLB prediction models with the selected metrics using machine learning algorithms and evaluate the models in within-project and cross-project contexts with our constructed dataset based on 18 Apache MPL projects. Results: Random Forest is appropriate for JIT MPLB prediction. Changed LOC of all files, added LOC of all files, and the total number of lines of all files of the project currently are the most crucial metrics in JIT MPLB prediction. The prediction models can be simplified using a few top-ranked metrics. Training on the dataset from multiple projects can yield significantly higher AUC than training on the dataset from a single project for cross-project JIT MPLB prediction. Conclusions: JIT MPLB prediction models can be constructed with the selected set of metrics, which can be reduced to build simplified JIT MPLB prediction models, and cross-project JIT MPLB prediction is feasible.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# DataDream: ガイド付きデータセット生成

DataDream: Few-shot Guided Dataset Generation ( http://arxiv.org/abs/2407.10910v1 )

ライセンス: Link先を確認
Jae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata, (参考訳) テキストと画像の拡散モデルは画像合成における最先端の結果をもたらすことが示されているが、下流アプリケーションでの有効性は証明されていない。 これまで,実データアクセスに制限のある画像分類器学習のためのデータ生成手法が提案されてきた。 しかし、これらの手法は、分布内画像の生成や微細な特徴の描写に苦慮し、それによって合成データセットに基づいて訓練された分類モデルの一般化を妨げる。 本研究では,分類データセットを合成するフレームワークであるDataDreamを提案する。 DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。 次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像分類を改善する。 我々は、DataDreamが10のデータセットのうち7つのショットデータで最先端の分類精度を上回り、他の3つのデータセットと競合することを示す。 さらに,実写画像数や生成画像数,モデル性能の微調整計算など,様々な要因の影響について考察する。 コードはhttps://github.com/ExplainableML/DataDream.comで公開されている。

While text-to-image diffusion models have been shown to achieve state-of-the-art results in image synthesis, they have yet to prove their effectiveness in downstream applications. Previous work has proposed to generate data for image classifier training given limited real data access. However, these methods struggle to generate in-distribution images or depict fine-grained features, thereby hindering the generalization of classification models trained on synthetic datasets. We propose DataDream, a framework for synthesizing classification datasets that more faithfully represents the real data distribution when guided by few-shot examples of the target classes. DataDream fine-tunes LoRA weights for the image generation model on the few real images before generating the training data using the adapted model. We then fine-tune LoRA weights for CLIP using the synthetic data to improve downstream image classification over previous approaches on a large variety of datasets. We demonstrate the efficacy of DataDream through extensive experiments, surpassing state-of-the-art classification accuracy with few-shot data across 7 out of 10 datasets, while being competitive on the other 3. Additionally, we provide insights into the impact of various factors, such as the number of real-shot and generated images as well as the fine-tuning compute on model performance. The code is available at https://github.com/ExplainableML/DataDream.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# Heterophilyが不均一性に出会ったとき - 新しいグラフベンチマークと効果的な方法

When Heterophily Meets Heterogeneity: New Graph Benchmarks and Effective Methods ( http://arxiv.org/abs/2407.10916v1 )

ライセンス: Link先を確認
Junhong Lin, Xiaojie Guo, Shuaicheng Zhang, Dawei Zhou, Yada Zhu, Julian Shun, (参考訳) 多くの実世界のグラフは、不均一性と不均一性の両方が存在するため、グラフ学習の課題をしばしば提示する。 しかし、グラフ学習のための既存のベンチマークは、しばしばホモフィリーグラフやホモジニアスグラフとヘテロフィリーグラフに焦点を合わせ、ヘテロジニアスグラフとヘテロジニアスグラフの両方でメソッドがどのように機能するかを理解するためのギャップを残している。 このギャップを埋めるために、グラフの不均一性と不均一性の両方の複雑さをもたらす新しいグラフベンチマークであるH2GBを導入する。 ベンチマークには5つのドメインにまたがる9つの現実世界のデータセット、28のベースラインモデル実装、26のベンチマーク結果が含まれています。 さらに、モジュラーグラフ変換フレームワークUnifiedGTと新しいモデル変種であるH2G-formerが、この挑戦的なベンチマークで優れていることを示す。 マスク付きラベル埋め込み、クロスタイプヘテロジニアスアテンション、タイプ特異的FFNを統合することで、H2G-formerはグラフのヘテロフィリーとヘテロジニアリティに効果的に取り組む。 H2GB上の26のベースラインにわたる大規模な実験は、異種不均一グラフ学習における現在のモデルの不整合を明らかにし、既存のソリューションよりもH2G-formerの方が優れていることを示す。 ベンチマークとフレームワークはGitHub(https://github.com/junhongmit/H2GB)とPyPI(https://pypi.org/project/H2GB)で利用可能であり、ドキュメントはhttps://junhongmit.github.io/H2GB/で見ることができる。

Many real-world graphs frequently present challenges for graph learning due to the presence of both heterophily and heterogeneity. However, existing benchmarks for graph learning often focus on heterogeneous graphs with homophily or homogeneous graphs with heterophily, leaving a gap in understanding how methods perform on graphs that are both heterogeneous and heterophilic. To bridge this gap, we introduce H2GB, a novel graph benchmark that brings together the complexities of both the heterophily and heterogeneity properties of graphs. Our benchmark encompasses 9 diverse real-world datasets across 5 domains, 28 baseline model implementations, and 26 benchmark results. In addition, we present a modular graph transformer framework UnifiedGT and a new model variant, H2G-former, that excels at this challenging benchmark. By integrating masked label embeddings, cross-type heterogeneous attention, and type-specific FFNs, H2G-former effectively tackles graph heterophily and heterogeneity. Extensive experiments across 26 baselines on H2GB reveal inadequacies of current models on heterogeneous heterophilic graph learning, and demonstrate the superiority of our H2G-former over existing solutions. Both the benchmark and the framework are available on GitHub (https://github.com/junhongmit/H2GB) and PyPI (https://pypi.org/project/H2GB), and documentation can be found at https://junhongmit.github.io/H2GB/.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# PartImageNet++データセット:ロバスト認識のための部分ベースモデルのスケールアップ

PartImageNet++ Dataset: Scaling up Part-based Models for Robust Recognition ( http://arxiv.org/abs/2407.10918v1 )

ライセンス: Link先を確認
Xiao Li, Yining Liu, Na Dong, Sitian Qin, Xiaolin Hu, (参考訳) 深層学習に基づく物体認識システムは、様々な逆方向の摂動によって容易に騙される。 弱い頑丈さの1つの理由は、人間の認識プロセスのような部分ベースの帰納バイアスがないためかもしれない。 これを受けて、認識の対角的堅牢性を改善するために、いくつかのパートベース認識モデルが提案されている。 しかし、パートアノテーションが欠如しているため、これらの手法の有効性は小規模の非標準データセットでのみ検証される。 本研究では、ImageNet-1K(IN-1K)のすべてのカテゴリに対して高品質な部分分割アノテーションを提供するデータセットであるPartImageNet++の略であるPIN++を提案する。 これらのアノテーションにより、ロバスト認識のための標準IN-1Kデータセットに直接、部分ベースのメソッドを構築する。 従来の2段階のパートベースモデルとは違って,パートアノテーションを用いた堅牢な表現を学習するためのMPM(Multiscale Part-supervised Model)を提案する。 実験により、MPMは様々な攻撃条件で強いベースラインを越えながら、大規模なIN-1Kに対してより良い敵のロバスト性を示した。 さらに、MPMは一般的な腐敗といくつかのアウト・オブ・ディストリビューションデータセットの堅牢性を改善した。 このデータセットは、これらの結果とともに、研究者がより現実的なアプリケーションでパートベースのモデルの可能性を探ることを可能にする。

Deep learning-based object recognition systems can be easily fooled by various adversarial perturbations. One reason for the weak robustness may be that they do not have part-based inductive bias like the human recognition process. Motivated by this, several part-based recognition models have been proposed to improve the adversarial robustness of recognition. However, due to the lack of part annotations, the effectiveness of these methods is only validated on small-scale nonstandard datasets. In this work, we propose PIN++, short for PartImageNet++, a dataset providing high-quality part segmentation annotations for all categories of ImageNet-1K (IN-1K). With these annotations, we build part-based methods directly on the standard IN-1K dataset for robust recognition. Different from previous two-stage part-based models, we propose a Multi-scale Part-supervised Model (MPM), to learn a robust representation with part annotations. Experiments show that MPM yielded better adversarial robustness on the large-scale IN-1K over strong baselines across various attack settings. Furthermore, MPM achieved improved robustness on common corruptions and several out-of-distribution datasets. The dataset, together with these results, enables and encourages researchers to explore the potential of part-based models in more real applications.
翻訳日:2024-07-16 14:10:37 公開日:2024-07-15
# 文化理解のための視覚言語モデルのベンチマーク

Benchmarking Vision Language Models for Cultural Understanding ( http://arxiv.org/abs/2407.10920v1 )

ライセンス: Link先を確認
Shravan Nayak, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stańczak, Aishwarya Agrawal, (参考訳) 基礎モデルと視覚言語事前訓練は、視覚および言語データのマルチモーダル処理を可能にする高度なビジョン言語モデル(VLM)を備えている。 しかし、そのパフォーマンスは一般的に、文化的な理解よりも、一般的な場面理解(物体、属性、行動を認識すること)に基づいて評価されてきた。 本稿では,VLMの地理的多様性の文化的理解を評価するための視覚的質問応答ベンチマークであるCulturalVQAを紹介する。 我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。 質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。 GPT-4V や Gemini など文化VQA に関する VLM のベンチマークでは,北米の文化理解能力は高いが,アフリカにおける文化理解能力は著しく低下している。 私たちは、衣服、儀式、伝統によって、食事や飲み物よりも高いパフォーマンスを示す文化的な面でも、彼らのパフォーマンスの格差を観察します。 これらの格差は、VLMが文化的理解を欠いている地域を識別し、VLMの多様性を理解するための総合的な評価セットとしてカルチャーVQAの可能性を示すのに役立つ。

Foundation models and vision-language pre-training have notably advanced Vision Language Models (VLMs), enabling multimodal processing of visual and linguistic data. However, their performance has been typically assessed on general scene understanding - recognizing objects, attributes, and actions - rather than cultural comprehension. This study introduces CulturalVQA, a visual question-answering benchmark aimed at assessing VLM's geo-diverse cultural understanding. We curate a collection of 2,378 image-question pairs with 1-5 answers per question representing cultures from 11 countries across 5 continents. The questions probe understanding of various facets of culture such as clothing, food, drinks, rituals, and traditions. Benchmarking VLMs on CulturalVQA, including GPT-4V and Gemini, reveals disparity in their level of cultural understanding across regions, with strong cultural understanding capabilities for North America while significantly lower performance for Africa. We observe disparity in their performance across cultural facets too, with clothing, rituals, and traditions seeing higher performances than food and drink. These disparities help us identify areas where VLMs lack cultural understanding and demonstrate the potential of CulturalVQA as a comprehensive evaluation set for gauging VLM progress in understanding diverse cultures.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# アルツハイマー早期発見のための深部畳み込みニューラルネットワークを意識した二重注意型ニューラルネットワーク

A Dual-Attention Aware Deep Convolutional Neural Network for Early Alzheimer's Detection ( http://arxiv.org/abs/2407.10921v1 )

ライセンス: Link先を確認
Pandiyaraju V, Shravan Venkatraman, Abeshek A, Aravintakshan S A, Pavan Kumar S, Kannan A, (参考訳) アルツハイマー病(英語版) (AD) は神経変性の主要な形態であり、毎年何百万人もの個人に影響を与え、進歩的な認知低下を引き起こす。 神経画像データを用いたADの正確な診断と分類は、医学における進行中の課題を示し、治療措置を強化する先進的な介入を必要としている。 本研究では,脳神経画像データからADを分類するための2重注意強化深層学習(DL)フレームワークを提案する。 空間と自己保持の複合機構は,MRI画像から神経原線維の絡み合いやアミロイドプラークに焦点をあてることにおいて重要な役割を担っている。 その結果,既存の畳み込みニューラルネットワーク(CNN)と比較して,99.1%の精度で優れた性能を示した。 さらに、F1スコアは99.31%、精度は99.24%、リコールは99.5%であった。 これらの結果は、医療診断における最先端のDL手法の約束を強調し、信頼性が高く、より効率的な医療ソリューションに寄与する。

Alzheimer's disease (AD) represents the primary form of neurodegeneration, impacting millions of individuals each year and causing progressive cognitive decline. Accurately diagnosing and classifying AD using neuroimaging data presents ongoing challenges in medicine, necessitating advanced interventions that will enhance treatment measures. In this research, we introduce a dual attention enhanced deep learning (DL) framework for classifying AD from neuroimaging data. Combined spatial and self-attention mechanisms play a vital role in emphasizing focus on neurofibrillary tangles and amyloid plaques from the MRI images, which are difficult to discern with regular imaging techniques. Results demonstrate that our model yielded remarkable performance in comparison to existing state of the art (SOTA) convolutional neural networks (CNNs), with an accuracy of 99.1%. Moreover, it recorded remarkable metrics, with an F1-Score of 99.31%, a precision of 99.24%, and a recall of 99.5%. These results highlight the promise of cutting edge DL methods in medical diagnostics, contributing to highly reliable and more efficient healthcare solutions.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# OPa-Ma:360度画像出力用テキストガイドマンバ

OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting ( http://arxiv.org/abs/2407.10923v1 )

ライセンス: Link先を確認
Penglei Gao, Kai Yao, Tiandi Ye, Steven Wang, Yuan Yao, Xiaofeng Wang, (参考訳) 本稿では,従来の狭視野画像(NFoV)を1台のカメラや携帯電話から撮影できるため,最近普及している360度画像生成の課題に対処する。 この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。 既存の特徴抽出と融合の方法は、しばしばトランスフォーマーベースのアーキテクチャで構築され、かなりのメモリ使用量と計算コストを発生させる。 また、360度画像全体の視覚的連続性を維持するのにも限界があり、一貫性のないテクスチャやスタイルの生成を引き起こす可能性がある。 以上の問題を解決するために,Mambaと呼ばれる状態空間モデルを備えた新しいテキストガイド付きアウトペイントフレームワークを提案し,その長文のモデリングと空間連続性を利用する。 さらに、テキスト情報の導入は、画像生成を誘導し、詳細なコンテキストでプロセスを強化し、多様性を増大させる効果的な戦略である。 テキストの特徴を効率的に抽出し、画像属性と統合することは、360度のアウトペイントにとって重要な課題である。 そこで我々は,VCR(Visual-textual Consistency Refiner)とGMA(Global-local Mamba Adapter)という2つのモジュールを開発した。 VCRは、修正されたテキスト特徴を画像特徴と融合させ、GMAは、グローバルからローカルへの情報フローをキャプチャすることで、適応的な状態選択条件を提供する。 提案手法は,室内環境や屋外環境など,広義に使用されている2つの360度画像データセットに対する広範な実験により,最先端性能を実現する。

In this paper, we tackle the recently popular topic of generating 360-degree images given the conventional narrow field of view (NFoV) images that could be taken from a single camera or cellphone. This task aims to predict the reasonable and consistent surroundings from the NFoV images. Existing methods for feature extraction and fusion, often built with transformer-based architectures, incur substantial memory usage and computational expense. They also have limitations in maintaining visual continuity across the entire 360-degree images, which could cause inconsistent texture and style generation. To solve the aforementioned issues, we propose a novel text-guided out-painting framework equipped with a State-Space Model called Mamba to utilize its long-sequence modelling and spatial continuity. Furthermore, incorporating textual information is an effective strategy for guiding image generation, enriching the process with detailed context and increasing diversity. Efficiently extracting textual features and integrating them with image attributes presents a significant challenge for 360-degree image out-painting. To address this, we develop two modules, Visual-textual Consistency Refiner (VCR) and Global-local Mamba Adapter (GMA). VCR enhances contextual richness by fusing the modified text features with the image features, while GMA provides adaptive state-selective conditions by capturing the information flow from global to local representations. Our proposed method achieves state-of-the-art performance with extensive experiments on two broadly used 360-degree image datasets, including indoor and outdoor settings.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# トレーニング済みルックアップテーブルによるループ内フィルタリング

In-Loop Filtering via Trained Look-Up Tables ( http://arxiv.org/abs/2407.10926v1 )

ライセンス: Link先を確認
Zhuoyuan Li, Jiacheng Li, Yao Li, Li Li, Dong Liu, Feng Wu, (参考訳) インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。 近年,ニューラルネットワークをベースとしたループ内フィルタリング手法は,先進的なビデオコーディング標準の能力を超え,将来的なビデオコーディング標準の強力なコーディングツール候補となる。 しかし、ディープニューラルネットワークの利用は、非常に時間と計算の複雑さをもたらし、高性能ハードウェアの要求も高くなるため、コーディングシーンの一般的な用途には適用が難しい。 画像復元における探索から着想を得たこの制限に対処するため,Look-up Table (LUT) を用いたループ内フィルタリング手法を提案する。 我々は、固定されたフィルタリング基準範囲内でループ内フィルタリングのDNNを訓練し、可能な全ての入力をトラバースすることで、DNNの出力値をLUTにキャッシュする。 符号化過程におけるテスト時に、入力画素(基準画素付きフィルタ画素)を位置決めし、キャッシュされたフィルタ画素値を補間することにより、フィルタ画素を生成する。 さらに、LUTのストレージコストが制限された大規模なフィルタリング基準範囲を実現するため、フィルタリングプロセスにおける拡張インデックス化機構と、トレーニングにおけるクリッピング/ファインタニング機構を導入する。 提案手法はVersatile Video Coding (VVC)参照ソフトウェアであるVTM-11.0に実装されている。 実験結果から,提案手法の超高速・超高速・高速モードは, 平均0.13%/0.34%/0.51%, 0.10%/0.27%/0.39%のBDレートで, 全 (AI) およびランダムアクセス (RA) 構成で達成できることがわかった。 特に,本手法は,101%/102%-104%/108%の時間増加,0.13-0.93kMACs/ピクセル,1つのモデルで164-1148KBのストレージコストしか持たない。 私たちのソリューションは、実用的なニューラルネットワークベースのコーディングツール進化の旅に光を当てるかもしれません。

In-loop filtering (ILF) is a key technology for removing the artifacts in image/video coding standards. Recently, neural network-based in-loop filtering methods achieve remarkable coding gains beyond the capability of advanced video coding standards, which becomes a powerful coding tool candidate for future video coding standards. However, the utilization of deep neural networks brings heavy time and computational complexity, and high demands of high-performance hardware, which is challenging to apply to the general uses of coding scene. To address this limitation, inspired by explorations in image restoration, we propose an efficient and practical in-loop filtering scheme by adopting the Look-up Table (LUT). We train the DNN of in-loop filtering within a fixed filtering reference range, and cache the output values of the DNN into a LUT via traversing all possible inputs. At testing time in the coding process, the filtered pixel is generated by locating input pixels (to-be-filtered pixel with reference pixels) and interpolating cached filtered pixel values. To further enable the large filtering reference range with the limited storage cost of LUT, we introduce the enhanced indexing mechanism in the filtering process, and clipping/finetuning mechanism in the training. The proposed method is implemented into the Versatile Video Coding (VVC) reference software, VTM-11.0. Experimental results show that the ultrafast, very fast, and fast mode of the proposed method achieves on average 0.13%/0.34%/0.51%, and 0.10%/0.27%/0.39% BD-rate reduction, under the all intra (AI) and random access (RA) configurations. Especially, our method has friendly time and computational complexity, only 101%/102%-104%/108% time increase with 0.13-0.93 kMACs/pixel, and only 164-1148 KB storage cost for a single model. Our solution may shed light on the journey of practical neural network-based coding tool evolution.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# ファインチューニングとプロンプト最適化:2つの素晴らしいステップ

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together ( http://arxiv.org/abs/2407.10930v1 )

ライセンス: Link先を確認
Dilara Soylu, Christopher Potts, Omar Khattab, (参考訳) 自然言語処理(NLP)システムは、複数の異なる言語モデル(LM)とプロンプト戦略を含む多段階パイプラインの形式をますます取り入れている。 ここでは、このようなシステムを微調整して性能を向上するかという問題に対処する。 我々はこれを、基盤となるLM重みとプロンプト戦略をまとめて最適化する問題とみなし、パイプラインの中間段階に金のラベルがないという難題だが非常に現実的なシナリオを考察した。 この課題に対処するために、パイプラインステージ毎にトレーニングラベルをブートストラップし、これらを使用してパイプラインのプロンプトを最適化し、重みを微調整する、近似最適化戦略を評価した。 マルチホップQA, 数学的推論, 特徴に基づく分類を用いた実験では, プロンプトとウェイトを同時に最適化するための単純なアプローチが, 平均してLMとタスク間で, ウェイトを直接最適化し, 最大65%, 5%のプロンプトを単独で生成する。 DSPyの新しいオプティマイザはhttp://dspy.aiで公開します。

Natural Language Processing (NLP) systems are increasingly taking the form of multi-stage pipelines involving multiple distinct language models (LMs) and prompting strategies. Here we address the question of how to fine-tune such systems to improve their performance. We cast this as a problem of optimizing the underlying LM weights and the prompting strategies together, and consider a challenging but highly realistic scenario in which we have no gold labels for any intermediate stages in the pipeline. To address this challenge, we evaluate approximate optimization strategies in which we bootstrap training labels for all pipeline stages and use these to optimize the pipeline's prompts and fine-tune its weights alternatingly. In experiments with multi-hop QA, mathematical reasoning, and feature-based classification, we find that simple approaches for optimizing the prompts and weights together outperform directly optimizing weights alone and prompts alone by up to 65% and 5%, respectively, on average across LMs and tasks. We will release our new optimizers in DSPy at http://dspy.ai
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# 繰り返し測定のための超伝導量子ビットの読み出しベンチマーク

Benchmarking the readout of a superconducting qubit for repeated measurements ( http://arxiv.org/abs/2407.10934v1 )

ライセンス: Link先を確認
S. Hazra, W. Dai, T. Connolly, P. D. Kurilovich, Z. Wang, L. Frunzio, M. H. Devoret, (参考訳) 超伝導量子ビットの読み出しは、測定速度と読み出し駆動によるキュービットの不要なバックアクション、例えば$T_1$の劣化や計算部分空間からの漏れとのトレードオフに直面している。 読み出しは、通常、読み出し信号の統合と「読み出し忠実度」を抽出する二項しきい値の選択によってベンチマークされる。 このような特徴は、読み出しによるリークエラーを著しく見落としている可能性がある。 ランダム化キュービットフリップに先行するリードアウトである複合演算を繰り返し実行することにより,この誤差を定量的に評価する手法を提案する。 本稿では,本手法を用いて,本発明の本質的なパーセル保護量子ビットの分散可読化を特徴付ける。 合成演算の繰り返し率$(380 \rm{ns})^{-1} において、99.63\%$と99.00\%$を超える量子非破壊(QND)フィリティをリークエラー率$0.12\pm0.03\%$として報告する。

Readout of superconducting qubits faces a trade-off between measurement speed and unwanted back-action on the qubit caused by the readout drive, such as $T_1$ degradation and leakage out of the computational subspace. The readout is typically benchmarked by integrating the readout signal and choosing a binary threshold to extract the "readout fidelity". We show that such a characterization may significantly overlook readout-induced leakage errors. We introduce a method to quantitatively assess this error by repeatedly executing a composite operation -- a readout preceded by a randomized qubit-flip. We apply this technique to characterize the dispersive readout of an intrinsically Purcell-protected qubit. We report a binary readout fidelity of $99.63\%$ and quantum non-demolition (QND) fidelity exceeding $99.00\%$ which takes into account a leakage error rate of $0.12\pm0.03\%$, under a repetition rate of $(380 \rm{ns})^{-1}$ for the composite operation.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# STARS:スケルトン配列における3次元行動認識のための自己教師型チューニング

STARS: Self-supervised Tuning for 3D Action Recognition in Skeleton Sequences ( http://arxiv.org/abs/2407.10935v1 )

ライセンス: Link先を確認
Soroush Mehraban, Mohammad Javad Rajabi, Babak Taati, (参考訳) マスク付き予測を用いた自己教師付き事前学習手法は骨格に基づく行動認識において顕著な内部データセット性能を示す。 しかし、対照的な学習手法とは異なり、よく分離されたクラスタは生成しない。 さらに、これらの手法は、数ショット設定での一般化に苦慮している。 これらの課題に対処するために,Skeleton sequences (STARS) における3次元行動認識のための自己教師付きチューニングを提案する。 具体的には、STARSはまずエンコーダ-デコーダアーキテクチャを用いてマスク付き予測ステージを使用する。 次に、最寄りのコントラスト学習を用いてエンコーダの重みを部分的に調整し、異なるアクションのためのセマンティッククラスタの形成を強化する。 エンコーダを数回調整し、手作りのデータ拡張を使わずに、STARSはNTU-60、NTU-120、PKU-MMDなどの様々なベンチマークで最先端の自己監督結果を達成する。 さらに、STARSは、プレトレーニング全体を通してアクションを見ていない数ショット設定において、マスク付き予測モデルよりもはるかに優れた結果を示す。 プロジェクトページ:https://soroushmehraban.github.io/stars/

Self-supervised pretraining methods with masked prediction demonstrate remarkable within-dataset performance in skeleton-based action recognition. However, we show that, unlike contrastive learning approaches, they do not produce well-separated clusters. Additionally, these methods struggle with generalization in few-shot settings. To address these issues, we propose Self-supervised Tuning for 3D Action Recognition in Skeleton sequences (STARS). Specifically, STARS first uses a masked prediction stage using an encoder-decoder architecture. It then employs nearest-neighbor contrastive learning to partially tune the weights of the encoder, enhancing the formation of semantic clusters for different actions. By tuning the encoder for a few epochs, and without using hand-crafted data augmentations, STARS achieves state-of-the-art self-supervised results in various benchmarks, including NTU-60, NTU-120, and PKU-MMD. In addition, STARS exhibits significantly better results than masked prediction models in few-shot settings, where the model has not seen the actions throughout pretraining. Project page: https://soroushmehraban.github.io/stars/
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# IDOL: 統合型デュアルモード潜時拡散法

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation ( http://arxiv.org/abs/2407.10937v1 )

ライセンス: Link先を確認
Yuanhao Zhai, Kevin Lin, Linjie Li, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, David Doermann, Junsong Yuan, Zicheng Liu, Lijuan Wang, (参考訳) 人間中心のビデオ生成において重要な進歩があったが、共同ビデオ深度生成の問題はまだ未解決のままである。 既存の単眼深度推定法は、合成画像やビデオにはあまり当てはまらないが、多視点法では人間の外見や動きの制御が困難である。 本研究では,高品質な人中心関節ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。 IDOLは2つの新しいデザインで構成されています。 まず,映像と深度生成の間の情報交換を最大化するために,映像と深度生成のパラメータ共有フレームワークであるデュアルモーダルU-Netを提案する。 第2に,映像深度空間アライメントの精度を確保するため,映像と深度特徴運動場の整合性を強制する動きの整合性損失を提案し,高調波出力を実現する。 さらに、映像のクロスアテンションマップを奥行きデノージングのクロスアテンションマップと整列させ、空間アライメントをさらに容易にする。 TikTokとNTU120データセットの大規模な実験は、ビデオFVDと深度精度の点で既存の手法を大幅に上回る、優れたパフォーマンスを示している。

Significant advances have been made in human-centric video generation, yet the joint video-depth generation problem remains underexplored. Most existing monocular depth estimation methods may not generalize well to synthesized images or videos, and multi-view-based methods have difficulty controlling the human appearance and motion. In this work, we present IDOL (unIfied Dual-mOdal Latent diffusion) for high-quality human-centric joint video-depth generation. Our IDOL consists of two novel designs. First, to enable dual-modal generation and maximize the information exchange between video and depth generation, we propose a unified dual-modal U-Net, a parameter-sharing framework for joint video and depth denoising, wherein a modality label guides the denoising target, and cross-modal attention enables the mutual information flow. Second, to ensure a precise video-depth spatial alignment, we propose a motion consistency loss that enforces consistency between the video and depth feature motion fields, leading to harmonized outputs. Additionally, a cross-attention map consistency loss is applied to align the cross-attention map of the video denoising with that of the depth denoising, further facilitating spatial alignment. Extensive experiments on the TikTok and NTU120 datasets show our superior performance, significantly surpassing existing methods in terms of video FVD and depth accuracy.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# カーカット量子ビットを用いたオシレータの量子制御

Quantum Control of an Oscillator with a Kerr-cat Qubit ( http://arxiv.org/abs/2407.10940v1 )

ライセンス: Link先を確認
Andy Z. Ding, Benjamin L. Brock, Alec Eickbusch, Akshay Koottandavida, Nicholas E. Frattini, Rodrigo G. Cortinas, Vidul R. Joshi, Stijn J. de Graaf, Benjamin J. Chapman, Suhas Ganjam, Luigi Frunzio, Robert J. Schoelkopf, Michel H. Devoret, (参考訳) ボソニック符号は、高調波発振器の大きなヒルベルト空間において、量子情報を冗長に符号化することで量子誤り訂正のためのハードウェア効率の良い戦略を提供する。 しかし、これらの符号の実験的実現は、症候群測定中に符号化された論理量子ビットに伝播するアンシラ誤差によって制限されることが多い。 Kerr-cat qubit は、フォールトトレラントなエラー症候群の測定を可能にする理論的なノイズバイアスのため、これらの符号のアンシラとして提案されているが、これらの症候群の測定に必要な結合性はまだ実証されていない。 本研究では,Kerr-cat量子ビットの高分解能マイクロ波キャビティへのパラメトリック結合を実験的に実現し,キャビティの普遍的な量子制御を可能にするゲートセットを実証する。 我々は,Kerr-catの存在下での空洞の脱コヒーレンスを測定し,Kerr-catの励起状態への加熱による過剰な脱落を検出する。 この加熱に対抗して周波数選択散逸を工学的に行うことにより、この劣化を排除し、高いオンオフ制御比を示すことができる。 この結果から,Kerr-catを用いたボソニック符号のエラーシンドロームのフォールトトレラントな測定が可能となった。

Bosonic codes offer a hardware-efficient strategy for quantum error correction by redundantly encoding quantum information in the large Hilbert space of a harmonic oscillator. However, experimental realizations of these codes are often limited by ancilla errors propagating to the encoded logical qubit during syndrome measurements. The Kerr-cat qubit has been proposed as an ancilla for these codes due to its theoretically-exponential noise bias, which would enable fault-tolerant error syndrome measurements, but the coupling required to perform these syndrome measurements has not yet been demonstrated. In this work, we experimentally realize driven parametric coupling of a Kerr-cat qubit to a high-quality-factor microwave cavity and demonstrate a gate set enabling universal quantum control of the cavity. We measure the decoherence of the cavity in the presence of the Kerr-cat and discover excess dephasing due to heating of the Kerr-cat to excited states. By engineering frequency-selective dissipation to counteract this heating, we are able to eliminate this dephasing, thereby demonstrating a high on-off ratio of control. Our results pave the way toward using the Kerr-cat to fault-tolerantly measure error syndromes of bosonic codes.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# 変圧器を用いたルールベースチャットボットの表現

Representing Rule-based Chatbots with Transformers ( http://arxiv.org/abs/2407.10949v1 )

ライセンス: Link先を確認
Dan Friedman, Abhishek Panigrahi, Danqi Chen, (参考訳) トランスフォーマーベースのチャットボットは、流動的で自然に聞こえる会話を行うことができるが、その振る舞いの基礎となるメカニズムは限定的に理解されている。 それまでの作業では、正規表現やDyck言語など、様々な合成および形式言語タスクのためのトランスフォーマーを構築することで、トランスフォーマーを理解するためのボトムアップアプローチを採用してきた。 しかし、より自然主義的な会話エージェントを理解するためにこのアプローチを拡張する方法が明確ではない。 本研究では,従来のルールベースのチャットボットであるELIZAプログラムを実装したTransformerを構築することで,この方向への一歩を踏み出す。 ELIZAは、ローカルパターンマッチングと長期ダイアログ状態追跡の両方を含む、会話設定のいくつかの特徴的な課題を説明している。 我々は、以前の作業、特に有限状態オートマトンをシミュレートする -- から構築し、より洗練された振る舞いをもたらすために、いかにシンプルに構成および拡張できるかを示す。次に、合成生成されたELIZA会話のデータセット上でトランスフォーマーを訓練し、モデルが学習するメカニズムを調査する。分析は、モデルがより正確に位置ベースのコピー機構よりも誘導ヘッド機構を好んでおり、中間世代を使用して、ELIZAのメモリメカニズムのような繰り返しデータ構造をシミュレートする。 全体として、神経チャットボットと解釈可能なシンボリックメカニズムとの明示的な接続を描くことで、我々の結果は会話エージェントの機械的分析のための新しい設定を提供する。

Transformer-based chatbots can conduct fluent, natural-sounding conversations, but we have limited understanding of the mechanisms underlying their behavior. Prior work has taken a bottom-up approach to understanding Transformers by constructing Transformers for various synthetic and formal language tasks, such as regular expressions and Dyck languages. However, it is not obvious how to extend this approach to understand more naturalistic conversational agents. In this work, we take a step in this direction by constructing a Transformer that implements the ELIZA program, a classic, rule-based chatbot. ELIZA illustrates some of the distinctive challenges of the conversational setting, including both local pattern matching and long-term dialog state tracking. We build on constructions from prior work -- in particular, for simulating finite-state automata -- showing how simpler constructions can be composed and extended to give rise to more sophisticated behavior. Next, we train Transformers on a dataset of synthetically generated ELIZA conversations and investigate the mechanisms the models learn. Our analysis illustrates the kinds of mechanisms these models tend to prefer -- for example, models favor an induction head mechanism over a more precise, position based copying mechanism; and using intermediate generations to simulate recurrent data structures, like ELIZA's memory mechanisms. Overall, by drawing an explicit connection between neural chatbots and interpretable, symbolic mechanisms, our results offer a new setting for mechanistic analysis of conversational agents.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# ROOT-SGDと最小化ステップサイズを用いた統計的効率の確率最適化

Enhancing Stochastic Optimization for Statistical Efficiency Using ROOT-SGD with Diminishing Stepsize ( http://arxiv.org/abs/2407.10955v1 )

ライセンス: Link先を確認
Tong Zhang, Chris Junchi Li, (参考訳) 本稿では,確率最適化の革新的手法であるtextsf{ROOT-SGD} を再検討し,確率最適化と統計的効率のギャップを埋める。 提案手法は,念入りに設計された 'emph{diminishing stepsize strategy} を統合することにより, \textsf{ROOT-SGD} の性能と信頼性を向上させる。 このアプローチは最適化における重要な課題に対処し、堅牢な理論的保証と実用的な利点を提供する。 解析により, 計算効率を保ちながら最適な収束率が得られることを示した。 学習速度を動的に調整することにより、最適化プロセス全体の安定性と精度を向上させることができる。 この研究の結果は、効率的かつ統計的に堅牢な高度な最適化アルゴリズムを開発する上で、貴重な洞察を与える。

In this paper, we revisit \textsf{ROOT-SGD}, an innovative method for stochastic optimization to bridge the gap between stochastic optimization and statistical efficiency. The proposed method enhances the performance and reliability of \textsf{ROOT-SGD} by integrating a carefully designed \emph{diminishing stepsize strategy}. This approach addresses key challenges in optimization, providing robust theoretical guarantees and practical benefits. Our analysis demonstrates that \textsf{ROOT-SGD} with diminishing achieves optimal convergence rates while maintaining computational efficiency. By dynamically adjusting the learning rate, \textsf{ROOT-SGD} ensures improved stability and precision throughout the optimization process. The findings of this study offer valuable insights for developing advanced optimization algorithms that are both efficient and statistically robust.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# Spider2-V: データサイエンスとエンジニアリングワークフローを自動化するマルチモーダルエージェントはどこまであるのか?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? ( http://arxiv.org/abs/2407.10956v1 )

ライセンス: Link先を確認
Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu, (参考訳) データサイエンスとエンジニアリングのワークフローは、ウェアハウスからオーケストレーションまで、BigQuery、dbt、Airbyteといったツールを使用して、複数のステージにまたがることが多い。 視覚言語モデル(VLM)がマルチモーダル理解とコード生成に進歩するにつれ、VLMベースのエージェントは、SQLクエリ、Pythonコード、GUI操作を生成することによって、これらのワークフローを自動化する可能性がある。 この自動化は、大規模なデータ分析へのアクセスを民主化しながら、専門家の生産性を向上させることができる。 本稿では,プロのデータサイエンスとエンジニアリングのワークフローに着目した,初めてのマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 これらのタスクは、実世界のユースケースから派生したもので、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。 評価の単純さと現実的なシミュレーションのバランスをとるために,タスク設定のための自動構成を開発し,各タスクに対する評価指標を慎重に作成するために,多大な努力を払った。 さらに、これらのエンタープライズデータソフトウェアシステムの包括的ドキュメントにマルチモーダルエージェントを補足する。 我々の経験的評価によると、既存のLLM/VLMベースのエージェントは完全なデータワークフローを確実に自動化していない(14.0%の成功)。 ステップバイステップのガイダンスであっても、これらのエージェントは細粒度で知識集約的なGUIアクション(16.2%)とリモートのクラウドホストワークスペース(10.6%)を必要とするタスクでは依然としてパフォーマンスが劣っている。 Spider2-Vは、自律的なマルチモーダルエージェントがデータサイエンスとエンジニアリングワークフローの自動化を変革する道を開くことを願っている。 私たちのコードとデータはhttps://spider2-v.github.io.comで公開されています。

Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# Ref-AVS:オーディオ映像シーンにおける参照オブジェクトとセグメントオブジェクト

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes ( http://arxiv.org/abs/2407.10957v1 )

ライセンス: Link先を確認
Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu, (参考訳) 伝統的な参照セグメンテーションタスクは、主にサイレントな視覚シーンに焦点を当てており、マルチモーダルな知覚と人間の体験における相互作用の不可欠な役割を無視している。 本稿では,マルチモーダルキューを含む表現に基づいて,視覚領域内のオブジェクトをセグメント化するRef-AVS(Reference Audio-Visual Segmentation)という新しいタスクを提案する。 このような表現は自然言語形式で表現されるが、音声や視覚的記述を含む多モーダルな手がかりが豊富である。 本研究では,対応するマルチモーダルキュー式に記述されたオブジェクトに対して,ピクセルレベルのアノテーションを提供するRef-AVSベンチマークを構築する。 Ref-AVSタスクに対処するために,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。 最後に,3つのテストサブセットについて定量的,定性的な実験を行い,既存の手法と関連する課題を比較した。 提案手法の有効性を実証し,マルチモーダルキュー式を用いてオブジェクトを正確にセグメント化できることを強調した。 Dataset は \href{https://gewu-lab.github.io/Ref-AVS}{https://gewu-lab.github.io/Ref-AVS} で利用可能である。

Traditional reference segmentation tasks have predominantly focused on silent visual scenes, neglecting the integral role of multimodal perception and interaction in human experiences. In this work, we introduce a novel task called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment objects within the visual domain based on expressions containing multimodal cues. Such expressions are articulated in natural language forms but are enriched with multimodal cues, including audio and visual descriptions. To facilitate this research, we construct the first Ref-AVS benchmark, which provides pixel-level annotations for objects described in corresponding multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method that adequately utilizes multimodal cues to offer precise segmentation guidance. Finally, we conduct quantitative and qualitative experiments on three test subsets to compare our approach with existing methods from related tasks. The results demonstrate the effectiveness of our method, highlighting its capability to precisely segment objects using multimodal-cue expressions. Dataset is available at \href{https://gewu-lab.github.io/Ref-AVS}{https://gewu-lab.github.io/Ref-AVS}.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# Q-Sparse: すべての大規模言語モデルは、完全に疎活性化できる

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated ( http://arxiv.org/abs/2407.10969v1 )

ライセンス: Link先を確認
Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei, (参考訳) Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全分散を可能にし、推論の効率性を大幅に向上させることができる。 これは、アクティベーションにトップKスペーシングを適用し、トレーニングにストレートスルー推定器を適用することで達成される。 本研究の主な成果は,(1)Q-Sparse は,(1) ベースライン LLM に比較して,より効率的な推論時間で結果が得られること,(2) 疎活性化 LLM に対する推論-最適スケーリング則を示すこと,(3) Q-Sparse は,Scratch からのトレーニング,オフ・ザ・シェルフ LLM の継続トレーニング,微調整,(4) Q-Sparse は完全精度と1ビット LLM (例: BitNet b1.58) の両方で動作すること,などである。 特に、BitNet b1.58とQ-Sparse(MoEを装備できる)のシナジーは、将来のLCMのコストやエネルギー消費を含む効率を変革するための基盤と明確な経路を提供する。

We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# VGBench: ベクトルグラフィックスの理解と生成に基づく大規模言語モデルの評価

VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation ( http://arxiv.org/abs/2407.10972v1 )

ライセンス: Link先を確認
Bocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee, (参考訳) 視覚モデルの領域では、表現の第一のモードは、ピクセルを使って視覚世界をラスタライズすることである。 しかし、特に多角形のような幾何学的プリミティブを使って世界を描写するデザイナーやアーティストにとって、これは必ずしも視覚的コンテンツを表現するための最良の方法やユニークな方法ではない。 一方、ベクトルグラフィックス(VG)はビジュアルコンテンツのテキスト表現を提供しており、漫画やスケッチのようなコンテンツに対してより簡潔で強力である。 近年,Large Language Models (LLMs) を用いたベクトルグラフィックス処理の有望な成果が報告されている。 しかし、そのような研究は質的な結果、理解、あるいは特定の種類のベクトルグラフィックスにのみ焦点をあてている。 VGBenchは、多種多様な側面を含むベクトルグラフィックスを扱うLLMの総合的なベンチマークである。 (a)視覚的理解と生成の両方 (b)ベクターグラフィックスフォーマットの評価 (c) 多様な質問タイプ。 (d)広範囲のプロンプト技術 (e) 複数 LLM で表す。 収集した4279の理解と5845の生成サンプルから,LLMは両面に強い能力を示し,低レベルフォーマット(SVG)では望ましい性能が得られていないことがわかった。 データと評価パイプラインはhttps://vgbench.github.ioでオープンソース化される。

In the realm of vision models, the primary mode of representation is using pixels to rasterize the visual world. Yet this is not always the best or unique way to represent visual content, especially for designers and artists who depict the world using geometry primitives such as polygons. Vector graphics (VG), on the other hand, offer a textual representation of visual content, which can be more concise and powerful for content like cartoons or sketches. Recent studies have shown promising results on processing vector graphics with capable Large Language Models (LLMs). However, such works focus solely on qualitative results, understanding, or a specific type of vector graphics. We propose VGBench, a comprehensive benchmark for LLMs on handling vector graphics through diverse aspects, including (a) both visual understanding and generation, (b) evaluation of various vector graphics formats, (c) diverse question types, (d) wide range of prompting techniques, (e) under multiple LLMs. Evaluating on our collected 4279 understanding and 5845 generation samples, we find that LLMs show strong capability on both aspects while exhibiting less desirable performance on low-level formats (SVG). Both data and evaluation pipeline will be open-sourced at https://vgbench.github.io.
翻訳日:2024-07-16 14:00:49 公開日:2024-07-15
# 量子コンピュータのベンチマーク:標準性能評価アプローチに向けて

Benchmarking Quantum Computers: Towards a Standard Performance Evaluation Approach ( http://arxiv.org/abs/2407.10941v1 )

ライセンス: Link先を確認
Arturo Acuaviva, David Aguirre, Rubén Peña, Mikel Sanz, (参考訳) 異なる量子プラットフォーム上でますます大きな量子プロセッサの技術的発展は、量子プロセッサの量子ベンチマークとして知られる、そのパフォーマンスを正確に比較する方法の問題を提起する。 これは、コンピュータ科学者が古典的なプロセッサを比較する際に既に直面している課題であり、これに対処する様々な数学的ツールの開発に繋がるだけでなく、この問題の限界の特定にも繋がる。 本稿では、従来のプロセッサベンチマークとそれらを構成するメトリクスの両方において最も重要な側面を概観し、正確な定義を提供し、それらが提示すべき品質特性を分析する。 その後、量子コンピューティングのパラダイムを特徴付ける固有の特性を分析し、古典的なベンチマークから戦略の素早い移行を妨げる。 しかし、私たちはまだ、 \textit{good}ベンチマークの品質特性など、いくつかの教訓を活用できます。 さらに、文献で提案されている量子プロセッサの最も重要なメトリクスとベンチマークをレビューし、それらが満たす品質特性を評価する。 最後に,量子ベンチマークの一般的なガイドラインを提案する。 これらのガイドラインは、量子デバイスの性能評価の標準化に向けたロードマップを確立するための道を開くことを目的としており、最終的に標準性能評価法人(SPEC)のような組織を創出することにつながる。

The technological development of increasingly larger quantum processors on different quantum platforms raises the problem of how to fairly compare their performance, known as quantum benchmarking of quantum processors. This is a challenge that computer scientists have already faced when comparing classical processors, leading to the development of various mathematical tools to address it, but also to the identification of the limits of this problem. In this work, we briefly review the most important aspects of both classical processor benchmarks and the metrics comprising them, providing precise definitions and analyzing the quality attributes that they should exhibit. Subsequently, we analyze the intrinsic properties that characterize the paradigm of quantum computing and hinder the naive transfer of strategies from classical benchmarking. However, we can still leverage some of the lessons learned such as the quality attributes of a \textit{good} benchmark. Additionally, we review some of the most important metrics and benchmarks for quantum processors proposed in the literature, assessing what quality attributes they fulfill. Finally, we propose general guidelines for quantum benchmarking. These guidelines aim to pave the way for establishing a roadmap towards standardizing the performance evaluation of quantum devices, ultimately leading to the creation of an organization akin to the Standard Performance Evaluation Corporation (SPEC).
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# GRUtopia:大規模都市での夢の汎用ロボット

GRUtopia: Dream General Robots in a City at Scale ( http://arxiv.org/abs/2407.10943v1 )

ライセンス: Link先を確認
Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang, (参考訳) 最近の研究は、Embodied AIの分野におけるスケーリング法則を探求している。 実世界のデータ収集の禁止コストを考えると、シミュレーション・トゥ・リアル(Sim2Real)パラダイムは具体的モデルの学習をスケールするための重要なステップであると考えています。 本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。 いくつかの進歩がある。 (a)シーンデータセットであるGRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み込むことができる。 GRScenesは、主に家庭に焦点を当てた以前の作品とは対照的に、89の多様なシーンをカバーしており、一般的なロボットが最初に展開されるサービス指向環境のギャップを埋めている。 b) GRResidents, LLM(Large Language Model)によるNPC(Non-Player Character)システム。 (c) GRBenchは様々なロボットをサポートするが、脚のついたロボットを主要エージェントとして重視し、Object Loco-Navigation、Social Loco-Navigation、Loco-Manipulationを含む適度に困難なタスクを行う。 この研究は、この分野における高品質なデータの不足を軽減し、エンボディードAI研究のより包括的な評価を可能にすることを願っている。 プロジェクトはhttps://github.com/OpenRobotLab/GRUtopia.comで公開されている。

Recent works have been exploring the scaling laws in the field of Embodied AI. Given the prohibitive costs of collecting real-world data, we believe the Simulation-to-Real (Sim2Real) paradigm is a crucial step for scaling the learning of embodied models. This paper introduces project GRUtopia, the first simulated interactive 3D society designed for various robots. It features several advancements: (a) The scene dataset, GRScenes, includes 100k interactive, finely annotated scenes, which can be freely combined into city-scale environments. In contrast to previous works mainly focusing on home, GRScenes covers 89 diverse scene categories, bridging the gap of service-oriented environments where general robots would be initially deployed. (b) GRResidents, a Large Language Model (LLM) driven Non-Player Character (NPC) system that is responsible for social interaction, task generation, and task assignment, thus simulating social scenarios for embodied AI applications. (c) The benchmark, GRBench, supports various robots but focuses on legged robots as primary agents and poses moderately challenging tasks involving Object Loco-Navigation, Social Loco-Navigation, and Loco-Manipulation. We hope that this work can alleviate the scarcity of high-quality data in this field and provide a more comprehensive assessment of Embodied AI research. The project is available at https://github.com/OpenRobotLab/GRUtopia.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# 自然に発生するフィードバックから学ぶ

Learning from Naturally Occurring Feedback ( http://arxiv.org/abs/2407.10944v1 )

ライセンス: Link先を確認
Shachar Don-Yehiya, Leshem Choshen, Omri Abend, (参考訳) 人間のフィードバックデータは、言語モデルの開発において重要な要素である。 しかし、このフィードバックを集めるのはコストがかかり、究極的にはスケーラブルではありません。 本稿では,チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出し,モデルトレーニングに活用するスケーラブルな手法を提案する。 我々は、幻覚や偏見の減少など、自然主義的な(自動生成ではなく)フィードバックを使うという質的な利点も示している以前の研究によってさらに動機づけられた。 通常のコーパスで自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートし,チャットの最大30%には明示的なフィードバックが含まれていることを確認した。 100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。 抽出したフィードバックを用いたトレーニングは,ベースラインモデルよりも顕著な性能向上を示し,人間の嗜好に対するモデルアライメントを高めるためのアプローチの有効性を示した。

Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. We propose a scalable method for extracting feedback that users naturally include when interacting with chat models, and leveraging it for model training. We are further motivated by previous work that showed there are also qualitative advantages to using naturalistic (rather than auto-generated) feedback, such as less hallucinations and biases. We manually annotated conversation data to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. We apply our method to over 1M conversations to obtain hundreds of thousands of feedback samples. Training with the extracted feedback shows significant performance improvements over baseline models, demonstrating the efficacy of our approach in enhancing model alignment to human preferences.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# ブロックチェーンガバナンス: DAOにおけるユーザエンゲージメントの実証分析

Blockchain Governance: An Empirical Analysis of User Engagement on DAOs ( http://arxiv.org/abs/2407.10945v1 )

ライセンス: Link先を確認
Brett Falk, Tasneem Pathan, Andrew Rigas, Gerry Tsoukalas, (参考訳) 本稿では,4つの主要なブロックチェーンDAO(Aave, Compound, Lido, Uniswap)の投票について検討する。 Ethereumブロックチェーンから直接収集されたデータを用いて、投票者の活動を調べる。 ほとんどの投票では、「最小のクォーラム」すなわち、投票を動かせる最小のアクティブな有権者は極めて少ない。 このDAOを実際に誰が運転しているかを理解するために、Ethereum Name Service(ENS)、Sybil.org、Commendからのデータを使用して、有権者を異なるカテゴリに分割する。

In this note, we examine voting on four major blockchain DAOs: Aave, Compound, Lido and Uniswap. Using data directly collected from the Ethereum blockchain, we examine voter activity. We find that in most votes, the "minimal quorum," i.e., the smallest number of active voters who could swing the vote is quite small. To understand who is actually driving these DAOs, we use data from the Ethereum Name Service (ENS), Sybil.org, and Compound, to divide voters into different categories.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# テキストセマンティクスは音質オブジェクトのセグメンテーションを緩和できるか?

Can Textual Semantics Mitigate Sounding Object Segmentation Preference? ( http://arxiv.org/abs/2407.10947v1 )

ライセンス: Link先を確認
Yaoting Wang, Peiwen Sun, Yuanchao Li, Honggang Zhang, Di Hu, (参考訳) オーディオ・ビジュアル・セグメンテーション(AVS)タスクは、オーディオキューを使用して、視覚空間内の音のオブジェクトをセグメントすることを目的としている。 しかし,本研究では,従来のAVS手法は正確な音声誘導よりも,可聴物体に関する有害なセグメンテーションの嗜好に大きく依存していることが認識されている。 主な理由は、特にマルチソースの音響シーンにおいて、音声が視覚に比べて頑健な意味論を欠いているため、視覚空間上でのオーディオガイダンスが弱くなるためである。 テキストのモダリティがよく検討され,豊富な抽象意味論を含むという事実に触発され,テキスト固有のセマンティクスによる音声指導を強化するために,視覚シーンからのテキストキューを活用することを提案する。 提案手法は,市販画像キャプタを用いてシーン記述を取得し,凍結した大言語モデルにテキストの手がかりとして潜在的音声オブジェクトを推論することから始まる。 次に,動的マスク付きセマンティクス駆動型音声モデリングモジュールを導入し,音声特徴をテキストキューと統合し,代表的な音声オブジェクト特徴を実現する。 これらの特徴は、オーディオキューだけでなく、鮮明なセマンティクスも備えており、視覚空間におけるより明確なガイダンスを提供する。 AVSベンチマークによる実験結果から,本手法は3つのサブセットすべてに対して高い競争性能を達成でき,音声に対する感度が向上することが確認された。 プロジェクトページ: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}

The Audio-Visual Segmentation (AVS) task aims to segment sounding objects in the visual space using audio cues. However, in this work, it is recognized that previous AVS methods show a heavy reliance on detrimental segmentation preferences related to audible objects, rather than precise audio guidance. We argue that the primary reason is that audio lacks robust semantics compared to vision, especially in multi-source sounding scenes, resulting in weak audio guidance over the visual space. Motivated by the the fact that text modality is well explored and contains rich abstract semantics, we propose leveraging text cues from the visual scene to enhance audio guidance with the semantics inherent in text. Our approach begins by obtaining scene descriptions through an off-the-shelf image captioner and prompting a frozen large language model to deduce potential sounding objects as text cues. Subsequently, we introduce a novel semantics-driven audio modeling module with a dynamic mask to integrate audio features with text cues, leading to representative sounding object features. These features not only encompass audio cues but also possess vivid semantics, providing clearer guidance in the visual space. Experimental results on AVS benchmarks validate that our method exhibits enhanced sensitivity to audio when aided by text cues, achieving highly competitive performance on all three subsets. Project page: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# MMM:多言語相互強化効果 混合データセットとオープンドメイン情報抽出大言語モデルを用いたテスト

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models ( http://arxiv.org/abs/2407.10953v1 )

ライセンス: Link先を確認
Chengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori, (参考訳) 相互強化効果(MRE)は情報抽出とマルチタスク研究において有望な道のりを示す。 それにもかかわらず、MRE混合データセットが日本語で排他的に利用可能であることから、その適用性は制限されており、グローバル研究コミュニティによる包括的な探索が制限されている。 この制限に対処するために、英語、日本語、中国語の21のサブデータセットを含む多言語MRE混合データセット(MMM)を導入する。 本稿では,Lumge Language Models (LLMs) が支援するデータセット翻訳手法を提案する。 さらに、オープンドメイン名前付きエンティティ認識(NER)と文分類タスクを組み込むことで、データセットを充実させた。 この拡張データセットを利用することで、オープンドメイン情報抽出大言語モデル(OIELLM)を学習するための統一的な入力出力フレームワークを開発した。 OIELLMモデルは、新しいMMMデータセットを効果的に処理できることを示し、パフォーマンスを大幅に改善した。

The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# ファジィ論理を用いた統一微分可能なブール演算子

A Unified Differentiable Boolean Operator with Fuzzy Logic ( http://arxiv.org/abs/2407.10954v1 )

ライセンス: Link先を確認
Hsueh-Ti Derek Liu, Maneesh Agrawala, Cem Yuksel, Tim Omernick, Vinith Misra, Stefano Corazza, Morgan McGuire, Victor Zordan, (参考訳) 本稿では,コンストラクティブ・ソリッド・ジオメトリー (CSG) を用いた暗黙的な固体形状モデリングのための統一的な微分可能なブール演算子を提案する。 従来のCSGは、暗黙の形状でブール演算を行うためにmin、max演算子に依存していた。 しかし、これらのブール演算子は演算の選択において不連続であり離散的であるため、CSG表現に対する最適化は困難である。 ファジィ論理からインスピレーションを得て、連続関数を出力し、演算子型に対して微分可能な統一ブール演算子を提案する。 これにより、CSGで使用されるプリミティブとブール演算の両方を、勾配降下のような連続的な最適化手法で最適化することができる。 さらに、このような連続ブール演算子により、シャープな機械的物体と、同じ枠組みで滑らかな有機形状の両方をモデル化できることを実証する。 提案するブール演算子は,完全連続CSG最適化に向けた今後の研究の新たな可能性を開く。

This paper presents a unified differentiable boolean operator for implicit solid shape modeling using Constructive Solid Geometry (CSG). Traditional CSG relies on min, max operators to perform boolean operations on implicit shapes. But because these boolean operators are discontinuous and discrete in the choice of operations, this makes optimization over the CSG representation challenging. Drawing inspiration from fuzzy logic, we present a unified boolean operator that outputs a continuous function and is differentiable with respect to operator types. This enables optimization of both the primitives and the boolean operations employed in CSG with continuous optimization techniques, such as gradient descent. We further demonstrate that such a continuous boolean operator allows modeling of both sharp mechanical objects and smooth organic shapes with the same framework. Our proposed boolean operator opens up new possibilities for future research toward fully continuous CSG optimization.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# InVi:オフザシェルフ拡散モデルを用いたビデオのオブジェクト挿入

InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models ( http://arxiv.org/abs/2407.10958v1 )

ライセンス: Link先を確認
Nirat Saini, Navaneeth Bodla, Ashish Shrivastava, Avinash Ravichandran, Xiao Zhang, Abhinav Shrivastava, Bharat Singh, (参考訳) InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いている(インペイントと呼ぶ)。 InViのターゲットは、オブジェクトの操作をコントロールし、それらをバックグラウンドビデオにシームレスにブレンドする。 この目標を達成するために、私たちは2つの重要な課題に取り組みます。 まず、高品質な制御とブレンディングのために、塗装とマッチングを含む2段階のプロセスを採用する。 このプロセスは、ControlNetベースのインペイント拡散モデルを使用してオブジェクトを単一のフレームに挿入し、その後、インペイントされたフレームからアンカーとして特徴に条件付けられた後続のフレームを生成し、背景とオブジェクト間のドメインギャップを最小限にする。 次に,時間的コヒーレンスを確保するため,拡散モデルの自己アテンション層を拡張アテンション層に置き換える。 アンカーフレーム機能はこれらのレイヤのキーと値として機能し、フレーム間の一貫性を向上する。 提案手法は,ビデオ特有の微調整の必要性を排除し,効率よく適応可能なソリューションを提供する。 実験により、InViはフレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存の手法より優れていることが示された。

We introduce InVi, an approach for inserting or replacing objects within videos (referred to as inpainting) using off-the-shelf, text-to-image latent diffusion models. InVi targets controlled manipulation of objects and blending them seamlessly into a background video unlike existing video editing methods that focus on comprehensive re-styling or entire scene alterations. To achieve this goal, we tackle two key challenges. Firstly, for high quality control and blending, we employ a two-step process involving inpainting and matching. This process begins with inserting the object into a single frame using a ControlNet-based inpainting diffusion model, and then generating subsequent frames conditioned on features from an inpainted frame as an anchor to minimize the domain gap between the background and the object. Secondly, to ensure temporal coherence, we replace the diffusion model's self-attention layers with extended-attention layers. The anchor frame features serve as the keys and values for these layers, enhancing consistency across frames. Our approach removes the need for video-specific fine-tuning, presenting an efficient and adaptable solution. Experimental results demonstrate that InVi achieves realistic object insertion with consistent blending and coherence across frames, outperforming existing methods.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# 交通衝突検出のための統一理論と統計的学習手法

A unified theory and statistical learning approach for traffic conflict detection ( http://arxiv.org/abs/2407.10959v1 )

ライセンス: Link先を確認
Yiru Jiao, Simeon C. Calvert, Sander van Cranenburgh, Hans van Lint, (参考訳) 本研究は,道路利用者の衝突リスクを評価するための一貫した包括的方法論を求めて,交通衝突検出のための統一理論と統計的学習手法を提案する。 提案理論は、文脈依存確率的衝突リスクを仮定し、観測された確率と文脈変数からの統計的学習によるリスクの推定として競合検出をフレーム化する。 3つの主要なタスクは、選択された可観測物からの相互作用コンテキストを表現し、異なる文脈における近接分布を推定し、競合強度と競合確率を関連付けるために極端な値理論を適用することである。 その結果、この手法は様々な道路利用者や相互作用シナリオに適用可能であり、事前の競合データを必要としない適用性を高めることができる。 実証実験は実世界の軌道データを用いて実施され、ドイツの高速道路での車線変更の相互作用を訓練し、米国の100-Car Naturalistic Driving Studyのほぼクラッシュなイベントに適用した。 この実験は、効果的な衝突警告を提供する方法論の能力を実証し、異なるデータセットと交通環境をまたいで一般化し、幅広い紛争をカバーし、紛争強度の長期分布を提供する。 本研究は,様々なシナリオに適用可能な競合検出のための一貫した,説明可能な方法論を提供することにより,交通安全に寄与する。 その社会的意味には、交通インフラの安全性評価の強化、自律運転支援システムのより効果的な衝突警告システム、交通状況の異なる道路利用者の行動のより深い理解、事故率の潜在的な低下、交通全体の安全性の向上などが含まれる。

This study proposes a unified theory and statistical learning approach for traffic conflict detection, addressing the long-existing call for a consistent and comprehensive methodology to evaluate the collision risk emerged in road user interactions. The proposed theory assumes a context-dependent probabilistic collision risk and frames conflict detection as estimating the risk by statistical learning from observed proximities and contextual variables. Three primary tasks are integrated: representing interaction context from selected observables, inferring proximity distributions in different contexts, and applying extreme value theory to relate conflict intensity with conflict probability. As a result, this methodology is adaptable to various road users and interaction scenarios, enhancing its applicability without the need for pre-labelled conflict data. Demonstration experiments are executed using real-world trajectory data, with the unified metric trained on lane-changing interactions on German highways and applied to near-crash events from the 100-Car Naturalistic Driving Study in the U.S. The experiments demonstrate the methodology's ability to provide effective collision warnings, generalise across different datasets and traffic environments, cover a broad range of conflicts, and deliver a long-tailed distribution of conflict intensity. This study contributes to traffic safety by offering a consistent and explainable methodology for conflict detection applicable across various scenarios. Its societal implications include enhanced safety evaluations of traffic infrastructures, more effective collision warning systems for autonomous and driving assistance systems, and a deeper understanding of road user behaviour in different traffic conditions, contributing to a potential reduction in accident rates and improving overall traffic safety.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# テーブル量子LCMの高速行列乗算法

Fast Matrix Multiplications for Lookup Table-Quantized LLMs ( http://arxiv.org/abs/2407.10960v1 )

ライセンス: Link先を確認
Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim, (参考訳) 大規模言語モデル(LLM)のデプロイメントは、しばしばメモリ帯域幅によって制限される。主なボトルネックは、モデルパラメータをGPUのグローバルメモリからレジスタに転送するコストである。 量子化と行列演算を融合させるカスタムカーネルと組み合わせることで、メモリ移動量を減らすことで、より高速な推論が可能になる。 しかし、重み量子化LDMのための高性能カーネルの開発は、特に重みが一様でないルックアップテーブル(LUT)量子化によって、一様でないビット幅(例えば3ビット)に圧縮される場合、大きな課題となる。 本稿では,LUT量子化LLMのためのフレキシブルなルックアップテーブルエンジンであるFLUTEについて述べる。これは,量子化重み行列のオフライン再構成を用いて,アンパックに伴うビット操作を最小化し,ルックアップテーブルのベクトル化と複製により,共有メモリ帯域幅の制約を緩和する。 32以下のバッチサイズと128の量子化グループサイズ(典型的にはLLM推論)では、FLUTEカーネルは既存のGEMMカーネルよりも2-4倍高速である。 FLUTEの応用として、テーブルベースのNormalFloat量子化への簡単な拡張を検討し、LLaMA3を様々な構成に量子化し、1.5倍から2倍のスループット向上を達成しつつ、強力なベースラインに対する競合量子化性能を得る。

The deployment of large language models (LLMs) is often constrained by memory bandwidth, where the primary bottleneck is the cost of transferring model parameters from the GPU's global memory to its registers. When coupled with custom kernels that fuse the dequantization and matmul operations, weight-only quantization can thus enable faster inference by reducing the amount of memory movement. However, developing high-performance kernels for weight-quantized LLMs presents substantial challenges, especially when the weights are compressed to non-evenly-divisible bit widths (e.g., 3 bits) with non-uniform, lookup table (LUT) quantization. This paper describes FLUTE, a flexible lookup table engine for LUT-quantized LLMs, which uses offline restructuring of the quantized weight matrix to minimize bit manipulations associated with unpacking, and vectorization and duplication of the lookup table to mitigate shared memory bandwidth constraints. At batch sizes < 32 and quantization group size of 128 (typical in LLM inference), the FLUTE kernel can be 2-4x faster than existing GEMM kernels. As an application of FLUTE, we explore a simple extension to lookup table-based NormalFloat quantization and apply it to quantize LLaMA3 to various configurations, obtaining competitive quantization performance against strong baselines while obtaining an end-to-end throughput increase of 1.5 to 2 times.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# 列車なし、全利得:自己監督のグラディエントは深い凍結表現を改善する

No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations ( http://arxiv.org/abs/2407.10964v1 )

ライセンス: Link先を確認
Walter Simoncini, Spyros Gidaris, Andrei Bursuc, Yuki M. Asano, (参考訳) 本稿では、自己教師付き勾配を利用して視覚エンコーダの特徴を高める方法であるUNsupervised GradIentsの機能であるFUNGIを紹介する。 事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。 これらは低次元に投影され、モデルの埋め込みと結合する。 得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。 さまざまなサイズと事前トレーニング戦略にまたがるバックボーン全体において、FUNGI機能は埋め込みよりも一貫したパフォーマンス改善を提供する。 また,FUNGI機能の使用は,線形分類や画像検索に有効であり,事前訓練されたモデルの検索に基づく文脈内シーン理解能力を大幅に向上すること,例えば意味的セグメンテーションにおいてDINOを+17%向上させること,などを示した。

This paper introduces FUNGI, Features from UNsupervised GradIents, a method to enhance the features of vision encoders by leveraging self-supervised gradients. Our method is simple: given any pretrained model, we first compute gradients from various self-supervised objectives for each input. These are projected to a lower dimension and then concatenated with the model's embedding. The resulting features are evaluated on k-nearest neighbor classification over 11 datasets from vision, 5 from natural language processing, and 2 from audio. Across backbones spanning various sizes and pretraining strategies, FUNGI features provide consistent performance improvements over the embeddings. We also show that using FUNGI features can benefit linear classification and image retrieval, and that they significantly improve the retrieval-based in-context scene understanding abilities of pretrained models, for example improving upon DINO by +17% for semantic segmentation - without any training.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# 干渉計による二相位相推定

Interferometric binary phase estimations ( http://arxiv.org/abs/2407.10966v1 )

ライセンス: Link先を確認
Simone Roncallo, Xi Lu, Lorenzo Maccone, (参考訳) 本稿では,各光子が未知位相の2進展開の1ビットを返却する干渉計構成を提案する。 任意の不確実性で位相値を推定する手法を設定する。 この戦略は、事前情報を必要としないため、グローバルであり、出力統計とは独立にハイゼンベルクを達成している。 このアーキテクチャのシミュレーションとキャラクタリゼーションを提供する。

We propose an interferometric setup where each photon returns one bit of the binary expansion of an unknown phase. It sets up a method for estimating the phase value at arbitrary uncertainty. This strategy is global, since it requires no prior information, and it achieves the Heisenberg bound independently of the output statistics. We provide simulations and a characterization of this architecture.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# BECAUSE:汎用オフラインモデルに基づく強化学習のための双線形因果表現

BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning ( http://arxiv.org/abs/2407.10967v1 )

ライセンス: Link先を確認
Haohong Lin, Wenhao Ding, Jian Chen, Laixi Shi, Jiacheng Zhu, Bo Li, Ding Zhao, (参考訳) オフラインモデルベース強化学習(MBRL)は、特に探索にコストがかかる、あるいは不可能なシナリオにおいて、事前コンパイルされたデータセットを使用してモデルとポリシーを学習することにより、データ効率を向上させる。 それでも、その性能はモデルと政策学習の客観的なミスマッチに悩まされ、正確なモデル予測にもかかわらず性能が劣る。 本稿では、まず、MBRLのオフラインデータに存在する基礎となる共同設立者から、このミスマッチの主な原因を特定する。 次に、分布シフトの影響を低減し、目的ミスマッチ問題を緩和するために、状態と動作の両方の因果表現をキャプチャするアルゴリズムである \textbf{B}ilin\textbf{E}ar \textbf{CAUS}al r\textbf{E}presentation~(BECAUSE)を紹介する。 データ品質と環境コンテキストの異なる18のタスクに対する総合的な評価は、既存のオフラインRLアルゴリズムよりもBECAUSEの方が優れた性能を示している。 BECAUSEの汎用性とロバスト性について,より少ないサンプルあるいは多数の共同設立者の下で示す。 さらに, BECAUSEの理論解析により, 因果表現をオフラインMBRLに統合する際の誤差境界とサンプル効率の検証を行う。

Offline model-based reinforcement learning (MBRL) enhances data efficiency by utilizing pre-collected datasets to learn models and policies, especially in scenarios where exploration is costly or infeasible. Nevertheless, its performance often suffers from the objective mismatch between model and policy learning, resulting in inferior performance despite accurate model predictions. This paper first identifies the primary source of this mismatch comes from the underlying confounders present in offline data for MBRL. Subsequently, we introduce \textbf{B}ilin\textbf{E}ar \textbf{CAUS}al r\textbf{E}presentation~(BECAUSE), an algorithm to capture causal representation for both states and actions to reduce the influence of the distribution shift, thus mitigating the objective mismatch problem. Comprehensive evaluations on 18 tasks that vary in data quality and environment context demonstrate the superior performance of BECAUSE over existing offline RL algorithms. We show the generalizability and robustness of BECAUSE under fewer samples or larger numbers of confounders. Additionally, we offer theoretical analysis of BECAUSE to prove its error bound and sample efficiency when integrating causal representation into offline MBRL.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# ベイズ逆強化学習における価値のウォーキング

Walking the Values in Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2407.10971v1 )

ライセンス: Link先を確認
Ondrej Bajgar, Alessandro Abate, Konstantinos Gatsis, Michael A. Osborne, (参考訳) ベイズ逆強化学習(IRL)の目標は、学習者に未知の報酬を最適化する専門家による一連のデモンストレーションを用いて、報酬関数上の後部分布を復元することである。 結果として得られる報酬は、同じまたは同様のタスクでうまく機能する見習いの政策を合成するために使われる。 バニラ・ベイズ的IRLは、報酬からQ値へというコストのかかる計画問題を、何千回も行う必要があるアルゴリズムのすべてのステップで解決する必要がある。 報酬の空間でのサンプリングに焦点をあてるのではなく、Q値から報酬への計算が劇的に安価になるため、主にQ値の空間での作業に焦点を合わせることができる。 さらに、この計算の逆転により、ハミルトンモンテカルロを用いた効率的なサンプリングを可能にする勾配の計算が容易になる。 本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。

The goal of Bayesian inverse reinforcement learning (IRL) is recovering a posterior distribution over reward functions using a set of demonstrations from an expert optimizing for a reward unknown to the learner. The resulting posterior over rewards can then be used to synthesize an apprentice policy that performs well on the same or a similar task. A key challenge in Bayesian IRL is bridging the computational gap between the hypothesis space of possible rewards and the likelihood, often defined in terms of Q values: vanilla Bayesian IRL needs to solve the costly forward planning problem - going from rewards to the Q values - at every step of the algorithm, which may need to be done thousands of times. We propose to solve this by a simple change: instead of focusing on primarily sampling in the space of rewards, we can focus on primarily working in the space of Q-values, since the computation required to go from Q-values to reward is radically cheaper. Furthermore, this reversion of the computation makes it easy to compute the gradient allowing efficient sampling using Hamiltonian Monte Carlo. We propose ValueWalk - a new Markov chain Monte Carlo method based on this insight - and illustrate its advantages on several tasks.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# Make-An-Agent: 動作促進拡散を用いた一般化可能なポリシーネットワークジェネレータ

Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion ( http://arxiv.org/abs/2407.10973v1 )

ライセンス: Link先を確認
Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu, (参考訳) 希望する行動の1つのデモンストレーションをプロンプトとして、テキスト記述から画像を作成するのと同様に、エージェントの制御ポリシーを生成できるだろうか? 本稿では、行動から政治への生成に条件付き拡散モデルのパワーを利用する新しいポリシーパラメータ生成器であるMake-An-Agentを提案する。 軌道情報をエンコードする動作埋め込みによって導かれるポリシージェネレータは、潜在パラメータ表現を合成し、それをポリシーネットワークにデコードする。 政策ネットワークのチェックポイントとそれに対応する軌跡を学習し,複数のタスクにおいて顕著な汎用性とスケーラビリティを示し,不明瞭なタスクに対して,数発のデモのみをインプットとして,優れたパフォーマンスのポリシを出力する強力な一般化能力を有している。 さまざまな目的,行動,さらには異なるロボットマニピュレータに対して,その有効性と効率性を示す。 シミュレーション以外にも,Make-An-Agentが生み出すポリシーを直接ロボットに展開する。

Can we generate a control policy for an agent using just one demonstration of desired behaviors as a prompt, as effortlessly as creating an image from a textual description? In this paper, we present Make-An-Agent, a novel policy parameter generator that leverages the power of conditional diffusion models for behavior-to-policy generation. Guided by behavior embeddings that encode trajectory information, our policy generator synthesizes latent parameter representations, which can then be decoded into policy networks. Trained on policy network checkpoints and their corresponding trajectories, our generation model demonstrates remarkable versatility and scalability on multiple tasks and has a strong generalization ability on unseen tasks to output well-performed policies with only few-shot demonstrations as inputs. We showcase its efficacy and efficiency on various domains and tasks, including varying objectives, behaviors, and even across different robot manipulators. Beyond simulation, we directly deploy policies generated by Make-An-Agent onto real-world robots on locomotion tasks.
翻訳日:2024-07-16 13:51:02 公開日:2024-07-15
# SfM on-the-fly:より優れた3D撮影が可能に

SfM on-the-fly: Get better 3D from What You Capture ( http://arxiv.org/abs/2407.03939v3 )

ライセンス: Link先を確認
Zongqian Zhan, Yifei Yu, Rui Xia, Wentian Gan, Hong Xie, Giulio Perda, Luca Morelli, Fabio Remondino, Xin Wang, (参考訳) 過去20年間、Structure from Motion (SfM) はフォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野において、常にホットスポットとして研究されてきた。 この作品は、オリジナルのオンザフライSfM(Zhan et al , 2024)の上に構築され、新しい3つの改良を加えて、撮影物からより良い3Dを得られるようにした。 (i)階層型ナビゲート型小型世界(HNSW)グラフを用いることにより、リアルタイム画像マッチングをさらに強化し、より真の正重畳み画像候補をより高速に同定する。 (II)SfM結果を改善するために,頑健な階層的局所バンドル調整のための自己適応重み付け戦略を提案する。 三 共同SfMを支援するための複数のエージェントを含み、一般的に登録された画像が現れたときに、複数の3D再構成をシームレスに完全3Dシーンにマージする。 提案したSfM法(On-the-fly SfMv2)は,より完全でロバストな3次元再構成を高時間効率で実現できることを示す。 コードはhttp://yifeiyu225.github.io/on-theflySfMv2.github.io/で公開されている。

In the last twenty years, Structure from Motion (SfM) has been a constant research hotspot in the fields of photogrammetry, computer vision, robotics etc., whereas real-time performance is just a recent topic of growing interest. This work builds upon the original on-the-fly SfM (Zhan et al., 2024) and presents an updated version with three new advancements to get better 3D from what you capture: (i) real-time image matching is further boosted by employing the Hierarchical Navigable Small World (HNSW) graphs, thus more true positive overlapping image candidates are faster identified; (ii) a self-adaptive weighting strategy is proposed for robust hierarchical local bundle adjustment to improve the SfM results; (iii) multiple agents are included for supporting collaborative SfM and seamlessly merge multiple 3D reconstructions into a complete 3D scene when commonly registered images appear. Various comprehensive experiments demonstrate that the proposed SfM method (named on-the-fly SfMv2) can generate more complete and robust 3D reconstructions in a high time-efficient way. Code is available at http://yifeiyu225.github.io/on-the-flySfMv2.github.io/.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# 自己監督型実像復調のための非対称マスク方式

Asymmetric Mask Scheme for Self-Supervised Real Image Denoising ( http://arxiv.org/abs/2407.06514v3 )

ライセンス: Link先を確認
Xiangyu Liao, Tianheng Zheng, Jiayu Zhong, Pingping Zhang, Chao Ren, (参考訳) 近年, 自己監督型復調法が大きな成功を収め, 画像修復の分野で重要な役割を担っている。 その中でも、ブラインドスポットネットワークに基づく手法は最も典型的なタイプであり、多くの研究者の注目を集めている。 ブラインドスポット操作の導入は、ノイズからノイズへのアイデンティティマッピングを防止できるが、ネットワーク設計における受容的フィールドに対する厳密な要求を課し、全体的な性能を制限している。 この課題に対処するために,視覚障害者のための自己指導型聴覚訓練のためのマスク方式を提案し,ネットワーク構造設計の制約を取り除く。 さらに,推測中の全画像のデノベーションを実現するため,マルチマスク方式を提案する。 提案手法は,非対称マスク方式をトレーニングや推論に用い,既存の実雑音画像データセットの最先端性能を実現する。 すべてのソースコードが一般公開される予定だ。

In recent years, self-supervised denoising methods have gained significant success and become critically important in the field of image restoration. Among them, the blind spot network based methods are the most typical type and have attracted the attentions of a large number of researchers. Although the introduction of blind spot operations can prevent identity mapping from noise to noise, it imposes stringent requirements on the receptive fields in the network design, thereby limiting overall performance. To address this challenge, we propose a single mask scheme for self-supervised denoising training, which eliminates the need for blind spot operation and thereby removes constraints on the network structure design. Furthermore, to achieve denoising across entire image during inference, we propose a multi-mask scheme. Our method, featuring the asymmetric mask scheme in training and inference, achieves state-of-the-art performance on existing real noisy image datasets. All the source code will be made available to the public.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# 非言語的社会的相互作用における信念予測のための心の理論の明示的モデリング

Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions ( http://arxiv.org/abs/2407.06762v2 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling, (参考訳) マルチモーダル入力から人間の社会的相互作用における信念とそのダイナミクスを予測するための、心の理論(ToM)ニューラルネットワークであるMToMnetを提案する。 ToMは効果的な非言語的コミュニケーションと協調のための鍵であるが、既存の信念モデリング手法には明示的なToMモデリングが含まれておらず、通常は1つか2つのモダリティに制限されている。 MToMnetは、コンテキストキュー(シーンビデオとオブジェクトロケーション)をエンコードし、個人固有のキュー(人間の視線とボディランゲージ)を、それぞれ個別のMindNetに統合する。 社会的認知とToMに関する先行研究から着想を得て,3種類のMToMnet変異体を提案する。 我々は,2つの現実的データセットに対するアプローチを評価し,その1つは信念の予測に焦点を当て,もう1つは信念のダイナミクスの予測について検討した。 以上の結果から,MToMnetは既存の手法をはるかに上回り,同時にパラメータも大幅に少なくなることが明らかとなった。 そこで本手法は,非言語的行動から人間の信念を強く予測し,人間とより効果的に協力することのできる,人工知能システムの将来的な研究に向けて,極めて有望な方向を導出する。

We propose MToMnet - a Theory of Mind (ToM) neural network for predicting beliefs and their dynamics during human social interactions from multimodal input. ToM is key for effective nonverbal human communication and collaboration, yet, existing methods for belief modelling have not included explicit ToM modelling or have typically been limited to one or two modalities. MToMnet encodes contextual cues (scene videos and object locations) and integrates them with person-specific cues (human gaze and body language) in a separate MindNet for each person. Inspired by prior research on social cognition and computational ToM, we propose three different MToMnet variants: two involving fusion of latent representations and one involving re-ranking of classification scores. We evaluate our approach on two challenging real-world datasets, one focusing on belief prediction, while the other examining belief dynamics prediction. Our results demonstrate that MToMnet surpasses existing methods by a large margin while at the same time requiring a significantly smaller number of parameters. Taken together, our method opens up a highly promising direction for future work on artificial intelligent systems that can robustly predict human beliefs from their non-verbal behaviour and, as such, more effectively collaborate with humans.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# SLAMにおける適応的特徴抽出のためのニューロシンボリックアプローチ

A Neurosymbolic Approach to Adaptive Feature Extraction in SLAM ( http://arxiv.org/abs/2407.06889v2 )

ライセンス: Link先を確認
Yasra Chandio, Momin A. Khan, Khotso Selialia, Luis Garcia, Joseph DeGol, Fatima M. Anwar, (参考訳) 自律ロボット、自動運転車、および混合現実のヘッドセットを身に着けている人間は、現実世界の環境を動的に変化させる際に、安全クリティカルなアプリケーションのために正確で信頼性の高い追跡サービスを必要とします。 しかし、SLAMのような既存の追跡手法は、広範囲な手動チューニングにもかかわらず、環境変化や境界条件に順応しない。 一方、ディープラーニングベースのアプローチは環境の変化に適応できるが、トレーニングにはかなりのデータが必要であり、新しいドメインに適応する柔軟性に欠けることが多い。 そこで本研究では,ニューロシンボリックプログラム合成手法を用いて,従来のSLAMアプローチからのドメイン知識を統合し,複雑な関係を学習するデータを活用する適応型SLAMパイプラインを構築することを提案する。 このアプローチはエンドツーエンドのSLAMパイプラインを合成できるが、機能抽出モジュールの合成に重点を置いている。 まずドメイン固有の言語(DSL)を考案し、特徴抽出の重要な属性と様々な特徴抽出器の実際の性能についてドメインの知識をカプセル化する。 我々のニューロシンボリックアーキテクチャは適応的特徴抽出を行い、最も適した特徴抽出器を選択するためにシンボリック推論を用いて学習を通してパラメータを最適化する。 評価の結果,神経シンボル的特徴抽出(nFEX)は高品質な特徴をもたらすことが示された。 また、最先端のベースライン特徴抽出器ORBとSIFTで観測されるポーズ誤差を最大90%、最大66%削減し、新しい環境へのシステムの効率性と適応性を向上する。

Autonomous robots, autonomous vehicles, and humans wearing mixed-reality headsets require accurate and reliable tracking services for safety-critical applications in dynamically changing real-world environments. However, the existing tracking approaches, such as Simultaneous Localization and Mapping (SLAM), do not adapt well to environmental changes and boundary conditions despite extensive manual tuning. On the other hand, while deep learning-based approaches can better adapt to environmental changes, they typically demand substantial data for training and often lack flexibility in adapting to new domains. To solve this problem, we propose leveraging the neurosymbolic program synthesis approach to construct adaptable SLAM pipelines that integrate the domain knowledge from traditional SLAM approaches while leveraging data to learn complex relationships. While the approach can synthesize end-to-end SLAM pipelines, we focus on synthesizing the feature extraction module. We first devise a domain-specific language (DSL) that can encapsulate domain knowledge on the important attributes for feature extraction and the real-world performance of various feature extractors. Our neurosymbolic architecture then undertakes adaptive feature extraction, optimizing parameters via learning while employing symbolic reasoning to select the most suitable feature extractor. Our evaluations demonstrate that our approach, neurosymbolic Feature EXtraction (nFEX), yields higher-quality features. It also reduces the pose error observed for the state-of-the-art baseline feature extractors ORB and SIFT by up to 90% and up to 66%, respectively, thereby enhancing the system's efficiency and adaptability to novel environments.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# 野生のフェイクニュースサイトを見つける

Finding Fake News Websites in the Wild ( http://arxiv.org/abs/2407.07159v2 )

ライセンス: Link先を確認
Leandro Araujo, Joao M. M. Couto, Luiz Felipe Nery, Isadora C. Rodrigues, Jussara M. Almeida, Julio C. S. Reis, Fabricio Benevenuto, (参考訳) インターネット上での誤情報拡散との戦いは、現代社会が直面する恐ろしい課題である。 フェイクニュースコンテンツは、主にデジタルプラットフォームを通じて配信され、複雑なエコシステムにおいてそうしたコンテンツを制作し、広めるためのウェブサイトが重要な役割を担っている。 そのため、これらのウェブサイトは誤情報研究者にとって大きな関心を集めている。 しかし、特に発展途上国では、偽情報のプロデューサやスプレッドラーとしてラベル付けされたウェブサイトの包括的リストを取得することは困難である。 本研究では,ソーシャルメディア上で偽ニュースの確認事例を共有するユーザと密接に結びついている誤情報コンテンツの作成・拡散に責任を持つウェブサイトを識別する手法を提案する。 さまざまな実行モードやコンテキストを調べて,Twitter上でのアプローチを検証する。 本研究は, この現象をよりよく理解し, 社会の様々な領域において, 有能な存在がこの問題に対処できるように, 誤情報Webサイトを識別する手法の有効性を実証するものである。

The battle against the spread of misinformation on the Internet is a daunting task faced by modern society. Fake news content is primarily distributed through digital platforms, with websites dedicated to producing and disseminating such content playing a pivotal role in this complex ecosystem. Therefore, these websites are of great interest to misinformation researchers. However, obtaining a comprehensive list of websites labeled as producers and/or spreaders of misinformation can be challenging, particularly in developing countries. In this study, we propose a novel methodology for identifying websites responsible for creating and disseminating misinformation content, which are closely linked to users who share confirmed instances of fake news on social media. We validate our approach on Twitter by examining various execution modes and contexts. Our findings demonstrate the effectiveness of the proposed methodology in identifying misinformation websites, which can aid in gaining a better understanding of this phenomenon and enabling competent entities to tackle the problem in various areas of society.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# 量子模倣ゲーム:量子機械学習モデルのリバースエンジニアリング

The Quantum Imitation Game: Reverse Engineering of Quantum Machine Learning Models ( http://arxiv.org/abs/2407.07237v2 )

ライセンス: Link先を確認
Archisman Ghosh, Swaroop Ghosh, (参考訳) 量子機械学習(QML)は、機械学習モデルと量子コンピューティングのパラダイムを融合させ、複雑な問題を解決するための大きな可能性を提供する。 しかし、量子コンピューティングのノイズイ中間スケール量子(NISQ)時代における多くのサードパーティベンダーの拡大により、QMLモデルのセキュリティは特にリバースエンジニアリングに対して重要であり、モデルの訓練されたパラメータやアルゴリズムを公開できる。 我々は、信頼できない量子クラウドプロバイダが、推論中にトランスパイルされたユーザ設計のトレーニングされたQMLモデルにホワイトボックスアクセスを持つ敵であると仮定する。 逆エンジニアリング(RE)は、プリトランスパイルされたQML回路を抽出し、全く異なるネイティブゲートセットと異なるキュービット技術を持つ様々なハードウェアに対するモデルの再トランスパイルと使用を可能にする。 このような柔軟性は、特定のハードウェアと量子ビット技術に結びついているトランスパイル回路から得られない。 パラメータの数や最適化された値に関する情報は、QMLモデルのさらなるトレーニングを可能にして、QMLモデルを変更したり、透かしを改ざんしたり、あるいは独自の透かしを埋め込んだり、他の目的のためにモデルを洗練したりすることができる。 本稿では,QML回路のREを調べるための最初の試みとして,様々なサイズのオリジナルおよびリバースエンジニアリング量子ニューラルネットワーク(QNN)のトレーニング精度を比較した。 マルチキュービット分類器は、順序1e-2の平均誤差を妥当な時間で、特定の条件下でリバースエンジニアリング可能であることに留意する。 また,QMLモデルにダミー固定パラメトリックゲートを追加して,防御のREオーバーヘッドを増大させる方法を提案する。 例えば、2つのダミーキュービットと2つのレイヤを追加すると、2つのキュービットと3つのレイヤを持つ分類器のオーバーヘッドが約1.76倍になる。 REは非常に強力な攻撃モデルであり、防衛へのさらなる努力を保証することに留意する。

Quantum Machine Learning (QML) amalgamates quantum computing paradigms with machine learning models, providing significant prospects for solving complex problems. However, with the expansion of numerous third-party vendors in the Noisy Intermediate-Scale Quantum (NISQ) era of quantum computing, the security of QML models is of prime importance, particularly against reverse engineering, which could expose trained parameters and algorithms of the models. We assume the untrusted quantum cloud provider is an adversary having white-box access to the transpiled user-designed trained QML model during inference. Reverse engineering (RE) to extract the pre-transpiled QML circuit will enable re-transpilation and usage of the model for various hardware with completely different native gate sets and even different qubit technology. Such flexibility may not be obtained from the transpiled circuit which is tied to a particular hardware and qubit technology. The information about the number of parameters, and optimized values can allow further training of the QML model to alter the QML model, tamper with the watermark, and/or embed their own watermark or refine the model for other purposes. In this first effort to investigate the RE of QML circuits, we perform RE and compare the training accuracy of original and reverse-engineered Quantum Neural Networks (QNNs) of various sizes. We note that multi-qubit classifiers can be reverse-engineered under specific conditions with a mean error of order 1e-2 in a reasonable time. We also propose adding dummy fixed parametric gates in the QML models to increase the RE overhead for defense. For instance, adding 2 dummy qubits and 2 layers increases the overhead by ~1.76 times for a classifier with 2 qubits and 3 layers with a performance overhead of less than 9%. We note that RE is a very powerful attack model which warrants further efforts on defenses.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# Pseudo-RIS:画像セグメント参照のための識別型擬似スーパービジョン生成

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation ( http://arxiv.org/abs/2407.07412v2 )

ライセンス: Link先を確認
Seonghoon Yu, Paul Hongsuck Seo, Jeany Son, (参考訳) 画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成するフレームワークを提案する。 これらの疑似監督は、手動ラベリングのコストを伴わずに、監督されたRISメソッドのトレーニングを可能にする。 これを実現するために,既存のセグメンテーションと画像キャプション基礎モデルを導入し,その広範な一般化機能を活用する。 しかし、これらのモデルの素直な組み込みは、ターゲットマスクを特異的に参照しない非識別的な表現を生成する可能性がある。 この課題に対処するために, 特徴あるキャプションを生成する2つの戦略を提案する。 1)「識別的キャプションサンプリング」はキャプションモデルの新しいデコード手法であり、ターゲットに焦点を絞った詳細な単語で複数の表現候補を生成する。 2)「識別性に基づくテキストフィルタリング」により、候補をさらに検証し、低レベルの特徴のある候補をフィルタリングする。 これら2つの戦略は、生成されたテキスト管理がターゲットを他のオブジェクトと区別し、RISアノテーションに適合させることを保証する。 本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。 また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。 さらに,本手法を人間のアノテーションと組み合わせることで,半教師あり学習アプリケーションにおけるその可能性を強調し,さらなる改善がもたらされる。

We propose a new framework that automatically generates high-quality segmentation masks with their referring expressions as pseudo supervisions for referring image segmentation (RIS). These pseudo supervisions allow the training of any supervised RIS methods without the cost of manual labeling. To achieve this, we incorporate existing segmentation and image captioning foundation models, leveraging their broad generalization capabilities. However, the naive incorporation of these models may generate non-distinctive expressions that do not distinctively refer to the target masks. To address this challenge, we propose two-fold strategies that generate distinctive captions: 1) 'distinctive caption sampling', a new decoding method for the captioning model, to generate multiple expression candidates with detailed words focusing on the target. 2) 'distinctiveness-based text filtering' to further validate the candidates and filter out those with a low level of distinctiveness. These two strategies ensure that the generated text supervisions can distinguish the target from other objects, making them appropriate for the RIS annotations. Our method significantly outperforms both weakly and zero-shot SoTA methods on the RIS benchmark datasets. It also surpasses fully supervised methods in unseen domains, proving its capability to tackle the open-world challenge within RIS. Furthermore, integrating our method with human annotations yields further improvements, highlighting its potential in semi-supervised learning applications.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# Quantum Technology Masters: 量子産業への近道?

Quantum Technology masters: A shortcut to the quantum industry? ( http://arxiv.org/abs/2407.07497v2 )

ライセンス: Link先を確認
Simon Goorney, Borja Munoz, Jacob Sherson, (参考訳) 本稿では,大学院生に量子産業で仕事をする知識と技能を提供しながら,博士課程よりもはるかに短いタイムラインを提供しながら,世界の量子技術(QT)教育の世界における成長傾向を考察する。 グローバル調査を通じて、86のマスタープログラムを特定しました。 時間とともに、マスターは、複数の学部または共同学位プログラムによって組織され、企業内のインターンシップのようなよりハンズオンな体験を提供する、学際的になってきています。 プログラムのオーガナイザやウェブサイトからの情報によると、卒業生の意図するキャリアの目的地は多様な産業であり、そのためマスタープログラムは量子技術の工業化への恩恵となる可能性がある。 最後に、多くの国の量子労働者を育成するための全国的な取り組み、量子プログラムの強化、量子コンテンツによる既存の研究プログラムの内容の増大について述べる。 これは量子産業への道筋としてマスタープログラムの成長と生存にさらに貢献する可能性がある。

In this article, we investigate a growing trend in the worldwide Quantum Technology (QT) education landscape, that of the development of masters programs, intended to provide graduates with the knowledge and skills to take a job in the quantum industry, while serving a much shorter timeline than a doctoral degree. Through a global survey, we identified 86 masters programs, with substantial growth since 2021. Over time masters have become increasingly interdisciplinary, organised by multiple faculties or through joint degree programs, and offer more hands-on experiences such as internships in companies. Information from program organisers and websites suggests that the intended career destinations of their graduates are a diverse range of industries, and therefore masters programs may be a boon to the industrialisation of quantum technologies. Finally, we identify a range of national efforts to grow the quantum workforce of many countries, quantum program enhancements, which augment the content of existing study programs with quantum content. This may further contribute to the growth and viability of masters programs as a route to the quantum industry.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# 位置認識型マスクオートエンコーダを用いたパン・カンサー組織学WSI事前トレーニング

Pan-cancer Histopathology WSI Pre-training with Position-aware Masked Autoencoder ( http://arxiv.org/abs/2407.07504v2 )

ライセンス: Link先を確認
Kun Wu, Zhiguo Jiang, Kunming Tang, Jun Shi, Fengying Xie, Wei Wang, Haibo Wu, Yushan Zheng, (参考訳) 大規模な事前トレーニングモデルにより、病理画像解析の開発が促進されている。 しかし、既存の病理組織像の自己管理手法は、パッチの特徴を学習することに重点を置いているが、WSIレベルの特徴学習のための事前学習モデルがまだ存在しない。 本稿では,設計した位置対応マスク付きオートエンコーダ(PAMA)を用いたパンキャンセリングWSIレベルの事前学習のための,新しい自己教師型学習フレームワークを提案する。 一方,カーネルリオリエンテーション(KRO)戦略とアンカードロップアウト(AD)機構を備えた位置認識型クロスアテンション(PACA)モジュールを提案する。 KRO戦略は、WSIの完全な意味構造を捉え、あいまいさを排除し、ADはモデルの堅牢性と一般化の強化に寄与する。 複数の臓器から得られた6つの大規模データセットを用いて,パン・カンサー分類タスクについて検討した。 その結果, PAMAがWSI表現学習の一般化と差別化に有効であること, パン・カンサーWSI事前学習の有効性が示された。 また,提案手法を7つのWSI解析法と比較した。 実験の結果,提案したPAMAは最先端の手法よりも優れており,コードとチェックポイントはhttps://github.com/WkEEn/PAMAで公開されている。

Large-scale pre-training models have promoted the development of histopathology image analysis. However, existing self-supervised methods for histopathology images focus on learning patch features, while there is still a lack of available pre-training models for WSI-level feature learning. In this paper, we propose a novel self-supervised learning framework for pan-cancer WSI-level representation pre-training with the designed position-aware masked autoencoder (PAMA). Meanwhile, we propose the position-aware cross-attention (PACA) module with a kernel reorientation (KRO) strategy and an anchor dropout (AD) mechanism. The KRO strategy can capture the complete semantic structure and eliminate ambiguity in WSIs, and the AD contributes to enhancing the robustness and generalization of the model. We evaluated our method on 6 large-scale datasets from multiple organs for pan-cancer classification tasks. The results have demonstrated the effectiveness of PAMA in generalized and discriminative WSI representation learning and pan-cancer WSI pre-training. The proposed method was also compared with 7 WSI analysis methods. The experimental results have indicated that our proposed PAMA is superior to the state-of-the-art methods.The code and checkpoints are available at https://github.com/WkEEn/PAMA.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# ケーラー非線形振動子における位相遷移

Topological Transitions in a Kerr Nonlinear Oscillator ( http://arxiv.org/abs/2407.07729v3 )

ライセンス: Link先を確認
Juan Lin, Shou-Bang Yang, Fan Wu, Zhen-Biao Yang, (参考訳) カー非線形発振器(KNO)は、連続変数量子ビット基底状態の符号化に適した一対の定常固有状態、反対位相のコヒーレント状態をサポートする。 定常状態部分空間内に閉じ込められたKNOの任意制御は、システムのクエンチ速度に対する物理的観測値の線形応答によるベリー曲率の抽出を可能にし、KNOにおける位相の効果的な評価法を提供する。 代替として、KNOに「断熱へのショートカット」を採用する制御は、加速された断熱的固有状態の進化を通じてトポロジーの探索を可能にし、3つの物理観測物全てを測定する。 位相遷移は、それぞれベリー曲率の積分と新しい極角関係から得られる第1チャーン数のパラメータ空間全体へのジャンプによって明らかにされる。 我々の戦略は、連続変数系のトポロジカル遷移を測定する方法である。

A Kerr nonlinear oscillator (KNO) supports a pair of steady eigenstates, coherent states with opposite phases, that are good for the encoding of continuous variable qubit basis states. Arbitrary control of the KNO confined within the steady state subspace allows extraction of the Berry curvature through the linear response of the physical observable to the quench velocity of the system, providing an effective method for the characterization of topology in the KNO. As an alternative, the control adopting the "shortcut to adiabaticity" to the KNO enables the exploration of the topology through accelerated adiabatic eigenstate evolution to measure all three physical observables. Topological transitions are revealed by the jump of the first Chern number, obtained respectively from the integral of the Berry curvature and of the new polar angle relation, over the whole parameter space. Our strategy paves the way for measuring topological transitions in continuous variable systems.
翻訳日:2024-07-16 13:41:05 公開日:2024-07-15
# ツインフィールド量子鍵分布ネットワークのための長繊維サニャック干渉計

Long-fiber Sagnac interferometers for twin field quantum key distribution networks ( http://arxiv.org/abs/2407.08009v2 )

ライセンス: Link先を確認
Reem Mandil, Li Qian, Hoi-Kwong Lo, (参考訳) サニャックループ構造は、ツインフィールド量子鍵分布(TFQKD)ネットワークの実践的な実装において大きな困難を克服するのに役立つ。 残念なことに、レイリーの後方散乱ノイズは、長い繊維と失われたフォトニックデバイスを含むサニャック系の信号対雑音比を制限する。 ここでは,光パルスを長時間オンオフバーストで送信し,自由ラン単光雪崩検出器を用いて測定した時間選択を用いてこの問題を解決する。 また,サニャック構造で補正されていない残相雑音の影響を調べた結果,位相雑音のばらつきが第3のパワーへのループ長としてスケールし,既存の計算結果を検証した。 活性相や偏光安定化を伴わない長さのサニャックループの干渉可視性を測定し,200km超低損失ファイバにおいて97%の可視性を実現した。 本研究は,大都市量子ネットワークの実現に向けた重要なステップである,長距離TFQKDネットワークに対するサニャックシステムの適合性を示すものである。

A Sagnac loop structure can help overcome the major difficulty in the practical implementation of a twin field quantum key distribution (TFQKD) network, namely, the need to stabilize the phase of a quantum state over many kilometers of fiber. Unfortunately, Rayleigh backscattering noise limits the signal-to-noise ratio for Sagnac systems containing long fibers and lossy photonic devices. Here, we solve this problem by sending optical pulses in long on-off bursts and using time post-selection on measurements taken with free-run single-photon avalanche detectors. We also investigate the impact of the residual phase noise uncompensated by the Sagnac structure and find that the variance of the phase noise scales as loop length to the third power, verifying an existing calculation in the literature. We measure the interference visibility in Sagnac loops of varying length without active phase or polarization stabilization and achieve > 97% visibility in 200 km ultra-low-loss fiber, which is, to our knowledge, the longest fiber Sagnac interferometer demonstrated. Our results indicate the suitability of a Sagnac system for long-distance TFQKD networks, an important step towards the practical implementation of metropolitan quantum networks.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 車両のスパースインターネットを用いた交通状態推定のための空間的時間的注意モデル

Spatial-Temporal Attention Model for Traffic State Estimation with Sparse Internet of Vehicles ( http://arxiv.org/abs/2407.08047v2 )

ライセンス: Link先を確認
Jianzhe Xue, Dongcheng Yuan, Yu Sun, Tianqi Zhang, Wenchao Xu, Haibo Zhou, Xuemin, Shen, (参考訳) 連結車両の増加は、インテリジェント交通システム(ITS)において重要な役割を果たす交通状態推定(TSE)のために、車両のインターネット(IoV)データを活用する機会を提供する。 データセット全体ではなく、IoVデータの一部のみを利用することで、大量のデータの収集と処理に関連する重大なオーバーヘッドを回避することができる。 本稿では,低IoVデータを用いてコスト効率のTSEを実現する新しいフレームワークを提案する。 特に、空間的時間的トラフィック状態相関をマイニングすることで、TSEの精度を向上させるために、畳み込み抑制ネットワーク(CRNet)と呼ばれる新しい空間的時間的アテンションモデルを提案する。 このモデルは、空間的相関集約のための畳み込みニューラルネットワーク(CNN)と、注意機構に基づいて時間的相関を抽出するRetNet(RetNet)を用いる。 実世界のIoVデータセットの大規模なシミュレーションは、スパースIoVデータを用いて正確なTSEを実現するための提案されたTSEアプローチの利点を検証し、実世界のアプリケーションにおけるコスト効果と実用性を実証した。

The growing number of connected vehicles offers an opportunity to leverage internet of vehicles (IoV) data for traffic state estimation (TSE) which plays a crucial role in intelligent transportation systems (ITS). By utilizing only a portion of IoV data instead of the entire dataset, the significant overheads associated with collecting and processing large amounts of data can be avoided. In this paper, we introduce a novel framework that utilizes sparse IoV data to achieve cost-effective TSE. Particularly, we propose a novel spatial-temporal attention model called the convolutional retentive network (CRNet) to improve the TSE accuracy by mining spatial-temporal traffic state correlations. The model employs the convolutional neural network (CNN) for spatial correlation aggregation and the retentive network (RetNet) based on the attention mechanism to extract temporal correlations. Extensive simulations on a real-world IoV dataset validate the advantage of the proposed TSE approach in achieving accurate TSE using sparse IoV data, demonstrating its cost effectiveness and practicality for real-world applications.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 直交学習と相互規則化による視覚言語モデルのロバスト性向上

Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization ( http://arxiv.org/abs/2407.08374v2 )

ライセンス: Link先を確認
Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe, (参考訳) 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。 これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させるための学習の促進に重点を置いていたが、小さなデータセットに微調整された場合のタスク過度な調整に悩まされていた。 本稿では,強靭性や一般化を向上する事前学習重みを効率的に更新する直交微調整手法を提案するとともに,直交正規化戦略をさらに活用して,VLMのゼロショット一般化(textbf{\textit{OrthCR}})の安定性を維持する。 具体的には、トレーニング可能な直交行列をトランスフォーマーアーキテクチャにシームレスに注入し、ケイリーパラメータ化を用いて直交制約を課し、ノルム保存特性の恩恵を受け、安定かつ高速な収束をもたらす。 トレーニング中の直交制約からの逸脱を軽減するため、バイパス方式で事前訓練した初期重みを相互正規化戦略がさらに採用される。 さらに、下流タスクのサンプルの多様性を強化するために、まずカットアウトデータ拡張を探求し、効率的な微調整を向上し、我々のアプローチが特定の下流のパフォーマンスをどのように改善するかを理解し、直交学習の観点から一般化性を維持する。 既存の素早い学習技術以外にも,本手法は,タスク固有の知識を表現するためにトレーニング済みの重み空間を明示的に操り,ベース・トゥ・ベース・トゥ・ベース・トゥ・ベース・トゥ・ニュー,クロスデータセット・トランスファーおよびドメイン・ジェネリゼーション・評価の下での競争一般化性を示す。

Efficient finetuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when finetuned on a small data set. In this paper, we introduce an orthogonal finetuning method for efficiently updating pretrained weights which enhances robustness and generalization, while a cross-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed \textbf{\textit{OrthCR}}. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint using Cayley parameterization, benefiting from the norm-preserving property and thus leading to stable and faster convergence. To alleviate deviation from orthogonal constraint during training, a cross-regularization strategy is further employed with initial pretrained weights within a bypass manner. In addition, to enrich the sample diversity for downstream tasks, we first explore Cutout data augmentation to boost the efficient finetuning and comprehend how our approach improves the specific downstream performance and maintains the generalizability in the perspective of Orthogonality Learning. Beyond existing prompt learning techniques, we conduct extensive experiments to demonstrate that our method explicitly steers pretrained weight space to represent the task-specific knowledge and presents competitive generalizability under base-to-base/base-to-new, cross-dataset transfer and domain generalization evaluations.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 時空間的フェデレーション学習のグラディエント・インバージョン・アタックに対するプライバシー強化

Enhancing Privacy of Spatiotemporal Federated Learning against Gradient Inversion Attacks ( http://arxiv.org/abs/2407.08529v3 )

ライセンス: Link先を確認
Lele Zheng, Yang Cao, Renhe Jiang, Kenjiro Taura, Yulong Shen, Sheng Li, Masatoshi Yoshikawa, (参考訳) 時空間フェデレーション学習は、様々な位置情報ベースのサービスにおいて、共有勾配しか持たない価値あるモデルを訓練する能力のために、近年、集中的な研究が進められている。 一方、最近の研究では、画像やテキスト上での共有勾配は、勾配反転攻撃(GIA)を受ける可能性があることが示されている。 しかし、現在、時空間学習における勾配反転攻撃に関する体系的な研究は行われていない。 本稿では,攻撃と防衛の観点からの時空間的フェデレーション学習における勾配攻撃問題について検討する。 まず、時空間学習におけるプライバシーリスクを理解するために、時空間データに適した勾配攻撃アルゴリズムである時空間勾配反転攻撃(ST-GIA)を提案する。 さらに、時空間学習における勾配反転攻撃を軽減するための適応的な防御戦略を設計する。 摂動レベルを動的に調整することで、さまざまなトレーニングデータに対して、適切な保護を提供することができます。 実世界の3つのデータセットに対する集中的な実験分析により、提案した防衛戦略が、効果的なセキュリティ保護を備えた時空間フェデレーション学習の有用性を十分に維持できることが明らかとなった。

Spatiotemporal federated learning has recently raised intensive studies due to its ability to train valuable models with only shared gradients in various location-based services. On the other hand, recent studies have shown that shared gradients may be subject to gradient inversion attacks (GIA) on images or texts. However, so far there has not been any systematic study of the gradient inversion attacks in spatiotemporal federated learning. In this paper, we explore the gradient attack problem in spatiotemporal federated learning from attack and defense perspectives. To understand privacy risks in spatiotemporal federated learning, we first propose Spatiotemporal Gradient Inversion Attack (ST-GIA), a gradient attack algorithm tailored to spatiotemporal data that successfully reconstructs the original location from gradients. Furthermore, we design an adaptive defense strategy to mitigate gradient inversion attacks in spatiotemporal federated learning. By dynamically adjusting the perturbation levels, we can offer tailored protection for varying rounds of training data, thereby achieving a better trade-off between privacy and utility than current state-of-the-art methods. Through intensive experimental analysis on three real-world datasets, we reveal that the proposed defense strategy can well preserve the utility of spatiotemporal federated learning with effective security protection.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 集中型AIについて、人々はどう思うか?

What Do People Think about Sentient AI? ( http://arxiv.org/abs/2407.08867v2 )

ライセンス: Link先を確認
Jacy Reese Anthis, Janet V. T. Pauketat, Ali Ladak, Aikaterina Manoli, (参考訳) 機械学習の急速な進歩に伴い、この分野の多くの人々がデジタルマインドの台頭と人工の知覚の可能性について議論している。 AI機能と安全性の今後の発展は、世論と人間とAIの相互作用に依存するだろう。 この研究ギャップを埋めるために、2021年に始まったアメリカの世論の事前登録と縦断調査であるAIMS(Artificial Intelligence, Morality, and Sentience)による最初の調査結果として、知覚AIのトピックに関する全国的に代表的な調査データを提示する。 2021年の1つのデータ収集波と2023年の2つの波(トータルN = 3,500)で、2021年のAIの幸福に対する心の認識と道徳的関心は予測よりも高く、2023年には大幅に増加した。 63%が人間より賢いAIの禁止を支持し、69%が知覚的なAIの禁止を支持している。 予想されるタイムラインは驚くほど短く、わずか5年で知覚的AIの中央値、わずか2年で人工知能の予測が下がった。 AIがセンシティブになるかどうかに関わらず、議論そのものが人間とコンピュータのインタラクションをオーバーホールし、現実的なリスクや機会を含むAI技術の将来の軌道を形作るかもしれない、と私たちは主張する。

With rapid advances in machine learning, many people in the field have been discussing the rise of digital minds and the possibility of artificial sentience. Future developments in AI capabilities and safety will depend on public opinion and human-AI interaction. To begin to fill this research gap, we present the first nationally representative survey data on the topic of sentient AI: initial results from the Artificial Intelligence, Morality, and Sentience (AIMS) survey, a preregistered and longitudinal study of U.S. public opinion that began in 2021. Across one wave of data collection in 2021 and two in 2023 (total N = 3,500), we found mind perception and moral concern for AI well-being in 2021 were higher than predicted and significantly increased in 2023: for example, 71% agree sentient AI deserve to be treated with respect, and 38% support legal rights. People have become more threatened by AI, and there is widespread opposition to new technologies: 63% support a ban on smarter-than-human AI, and 69% support a ban on sentient AI. Expected timelines are surprisingly short and shortening with a median forecast of sentient AI in only five years and artificial general intelligence in only two years. We argue that, whether or not AIs become sentient, the discussion itself may overhaul human-computer interaction and shape the future trajectory of AI technologies, including existential risks and opportunities.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 確率論的安全批判システムのための一般化可能な物理インフォームドラーニング

Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems ( http://arxiv.org/abs/2407.08868v2 )

ライセンス: Link先を確認
Zhuoyuan Wang, Albert Chern, Yorie Nakahira, (参考訳) 安全な意思決定には、長期的リスクの正確な見積もりが不可欠であるが、稀なリスクイベントや長期的トラジェクトリからのサンプリングは、違法にコストがかかる可能性がある。 リスク勾配は、学習と制御のための多くの一階法で利用できるが、無限小因子がサンプリングノイズを著しく増幅するので、モンテカルロ法(MC)を用いて勾配推定を得るのは難しい。 このギャップを生かして,十分なリスクイベントを伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。 まず、4種類の長期リスク確率が、ある偏微分方程式(PDE)の解であることが導かれる。 そこで本研究では,データと物理情報(前述のPDE)を統合した物理インフォームド学習手法を提案する。 物理情報は、利用可能なデータを超えて情報を伝達し、利用可能なデータを超えて証明可能な一般化を得るのに役立つ。 最後に,提案手法がサンプル効率を向上し,未確認領域を一般化し,システムパラメータの変化に適応できることをシミュレーションで実証した。

Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal divisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# バイオメディカル仮説生成系としての大規模言語モデル:包括的評価

Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation ( http://arxiv.org/abs/2407.08940v2 )

ライセンス: Link先を確認
Biqing Qi, Kaiyan Zhang, Kai Tian, Haoxiang Li, Zhang-Ren Chen, Sihang Zeng, Ermo Hua, Hu Jinfang, Bowen Zhou, (参考訳) 生物医学的知識の急速な成長は、洞察を効率的に抽出し、新しい仮説を創出する能力を大きく上回っている。 大規模言語モデル(LLM)は、知識の相互作用を革新し、生体医学的な発見を加速するための有望なツールとして登場した。 本稿では, LLMをバイオメディカル仮説生成器として包括的に評価する。 バイオメディカル文献から背景と仮説のペアのデータセットを構築し、データ汚染を軽減するために、公開日に基づくトレーニング、観察、不明なテストセットに慎重に分割する。 このデータセットを用いて、ゼロショット、少数ショット、微調整設定で上位層の指示されたモデルの仮説生成能力を評価する。 科学的発見の重要な側面である不確実性の探索を強化するため,評価枠組みにツール利用とマルチエージェントインタラクションを取り入れた。 さらに, LLMに基づく評価と人的評価の両面から, 仮説の質を評価するために, 広範な文献レビューに基礎を置く4つの新しい指標を提案する。 我々の実験は2つの重要な発見をもたらす。 1)LLMは、トレーニング中に見えない文献でテストしても、新規で検証された仮説を生成できる。 2)マルチエージェントインタラクションやツール利用による不確実性の向上により,多様な候補生成が容易になり,ゼロショット仮説生成性能が向上する。 しかし、数発の学習とツール使用による追加知識の統合は、必ずしもパフォーマンス向上につながるとは限りませんし、組み込まれた外部知識のタイプや範囲を慎重に検討する必要性も浮き彫りにしています。 これらの知見は、LLMが生物医学的仮説生成の強力な補助となり、この分野のさらなる研究を導く貴重な洞察を与える可能性を示している。

The rapid growth of biomedical knowledge has outpaced our ability to efficiently extract insights and generate novel hypotheses. Large language models (LLMs) have emerged as a promising tool to revolutionize knowledge interaction and potentially accelerate biomedical discovery. In this paper, we present a comprehensive evaluation of LLMs as biomedical hypothesis generators. We construct a dataset of background-hypothesis pairs from biomedical literature, carefully partitioned into training, seen, and unseen test sets based on publication date to mitigate data contamination. Using this dataset, we assess the hypothesis generation capabilities of top-tier instructed models in zero-shot, few-shot, and fine-tuning settings. To enhance the exploration of uncertainty, a crucial aspect of scientific discovery, we incorporate tool use and multi-agent interactions in our evaluation framework. Furthermore, we propose four novel metrics grounded in extensive literature review to evaluate the quality of generated hypotheses, considering both LLM-based and human assessments. Our experiments yield two key findings: 1) LLMs can generate novel and validated hypotheses, even when tested on literature unseen during training, and 2) Increasing uncertainty through multi-agent interactions and tool use can facilitate diverse candidate generation and improve zero-shot hypothesis generation performance. However, we also observe that the integration of additional knowledge through few-shot learning and tool use may not always lead to performance gains, highlighting the need for careful consideration of the type and scope of external knowledge incorporated. These findings underscore the potential of LLMs as powerful aids in biomedical hypothesis generation and provide valuable insights to guide further research in this area.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# CompAct: 質問応答のために検索した文書をアクティブに圧縮する

CompAct: Compressing Retrieved Documents Actively for Question Answering ( http://arxiv.org/abs/2407.09014v2 )

ライセンス: Link先を確認
Chanwoong Yoon, Taewhoo Lee, Hyeon Hwang, Minbyul Jeong, Jaewoo Kang, (参考訳) Retrieval-augmented Generationは、言語モデルをサポートし、外部コンテキストを提供することで、実際の基盤を強化する。 しかし、言語モデルは、広範囲な情報を与えるとしばしば課題に直面し、問題の解決においての有効性を低下させる。 コンテキスト圧縮は、無関係な情報をフィルタリングすることでこの問題に対処するが、現在の手法は、単一ステップのアプローチで重要な情報をキャプチャできない現実的なシナリオで依然として苦労している。 この制限を克服するために、キー情報を失うことなく広範囲の文書を凝縮するアクティブな戦略を取り入れた新しいフレームワークCompActを紹介する。 本実験は,マルチホップ質問応答(QA)ベンチマークにおいて,CompActが性能と圧縮速度の両方に大幅な改善をもたらすことを示した。 CompActは、様々なオフザシェルフレトリバーやリーダーを備えたコスト効率のよいプラグインモジュールとして柔軟に動作し、非常に高い圧縮率(47倍)を達成する。

Retrieval-augmented generation supports language models to strengthen their factual groundings by providing external contexts. However, language models often face challenges when given extensive information, diminishing their effectiveness in solving questions. Context compression tackles this issue by filtering out irrelevant information, but current methods still struggle in realistic scenarios where crucial information cannot be captured with a single-step approach. To overcome this limitation, we introduce CompAct, a novel framework that employs an active strategy to condense extensive documents without losing key information. Our experiments demonstrate that CompAct brings significant improvements in both performance and compression rate on multi-hop question-answering (QA) benchmarks. CompAct flexibly operates as a cost-efficient plug-in module with various off-the-shelf retrievers or readers, achieving exceptionally high compression rates (47x).
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# 3M-Health:メンタルヘルス検出のためのマルチモーダルマルチテラー知識蒸留

3M-Health: Multimodal Multi-Teacher Knowledge Distillation for Mental Health Detection ( http://arxiv.org/abs/2407.09020v2 )

ライセンス: Link先を確認
Rina Carines Cabral, Siwen Luo, Josiah Poon, Soyeon Caren Han, (参考訳) メンタルヘルスの分類の重要性は現代社会において最重要であり、デジタルプラットフォームは個人の健康をモニタリングするための重要な情報源となっている。 しかし、既存のソーシャルメディアのメンタルヘルスデータセットは、主にテキストのみのサンプルで構成されており、そのようなデータに基づいてトレーニングされたモデルの有効性を制限する可能性がある。 人間は複雑な状況や問題を理解するために横断的な情報を活用することを認識して、現在の方法論の限界に対処するための新しいアプローチを提案する。 本研究では, メンタルヘルス分類のためのマルチモーダル・マルチモーダル知識蒸留モデルを提案する。 多様な特徴を統合するための単純な結合にしばしば依存する従来のアプローチとは異なり、我々のモデルは様々な性質(例えばテキストや音)の入力を適切に表現するという課題に対処する。 すべての機能をひとつのモデルに統合する際の計算複雑性を軽減するために,マルチモーダル・マルチ教師アーキテクチャを採用する。 複数の教員にまたがって学習過程を分散し、それぞれが特定の特徴抽出の側面を特化することにより、メンタルヘルスの全体的分類性能を向上させる。 実験により,性能向上のためのモデルの有効性を実証した。 関連するすべてのコードは、出版時に利用可能になる。

The significance of mental health classification is paramount in contemporary society, where digital platforms serve as crucial sources for monitoring individuals' well-being. However, existing social media mental health datasets primarily consist of text-only samples, potentially limiting the efficacy of models trained on such data. Recognising that humans utilise cross-modal information to comprehend complex situations or issues, we present a novel approach to address the limitations of current methodologies. In this work, we introduce a Multimodal and Multi-Teacher Knowledge Distillation model for Mental Health Classification, leveraging insights from cross-modal human understanding. Unlike conventional approaches that often rely on simple concatenation to integrate diverse features, our model addresses the challenge of appropriately representing inputs of varying natures (e.g., texts and sounds). To mitigate the computational complexity associated with integrating all features into a single model, we employ a multimodal and multi-teacher architecture. By distributing the learning process across multiple teachers, each specialising in a particular feature extraction aspect, we enhance the overall mental health classification performance. Through experimental validation, we demonstrate the efficacy of our model in achieving improved performance. All relevant codes will be made available upon publication.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# BKDSNN: 知識蒸留による学習型スパイクニューラルネットワークトレーニングの性能向上

BKDSNN: Enhancing the Performance of Learning-based Spiking Neural Networks Training with Blurred Knowledge Distillation ( http://arxiv.org/abs/2407.09083v2 )

ライセンス: Link先を確認
Zekai Xu, Kang You, Qinghai Guo, Xiang Wang, Zhezhi He, (参考訳) 生物学的ニューラルネットワークを模倣して離散スパイクを介して情報を伝達するスパイキングニューラルネットワーク(SNN)は、優れた計算効率を持つ脳にインスパイアされたモデルとしてよく知られている。 離散スパイクに対する代理勾配推定を利用して、超低推論遅延(時間ステップ数)を達成する学習ベースのSNNトレーニング手法が最近出現している。 それでも、離散スパイクの正確な勾配推定を学習ベース手法で導き出すことが難しいため、SNNとその人工知能ニューラルネットワーク(ANN)間では、明確な精度のギャップが持続する。 上記の問題に対処するために,ランダムなぼやけたSNN機能を活用してANN機能を復元・模倣する,ぼやけた知識蒸留(BKD)手法を提案する。 なお, 我々のBKDは, SNNの最終層直前の機能マップに適用されており, 従来のロジットに基づく知識蒸留と組み合わせることで, 精度を最大化することができる。 我々の知る限り、学習に基づく手法のカテゴリでは、静的およびニューロモルフィックなデータセット上でSNNをトレーニングするための最先端のパフォーマンスを達成する。 ImageNetデータセットでは、BKDSNNは、CNNとTransformerのネットワークトポロジでそれぞれ4.51%、0.93%の先行結果を上回っている。

Spiking neural networks (SNNs), which mimic biological neural system to convey information via discrete spikes, are well known as brain-inspired models with excellent computing efficiency. By utilizing the surrogate gradient estimation for discrete spikes, learning-based SNN training methods that can achieve ultra-low inference latency (number of time-step) emerge recently. Nevertheless, due to the difficulty in deriving precise gradient estimation for discrete spikes using learning-based method, a distinct accuracy gap persists between SNN and its artificial neural networks (ANNs) counterpart. To address the aforementioned issue, we propose a blurred knowledge distillation (BKD) technique, which leverages random blurred SNN feature to restore and imitate the ANN feature. Note that, our BKD is applied upon the feature map right before the last layer of SNN, which can also mix with prior logits-based knowledge distillation for maximized accuracy boost. To our best knowledge, in the category of learning-based methods, our work achieves state-of-the-art performance for training SNNs on both static and neuromorphic datasets. On ImageNet dataset, BKDSNN outperforms prior best results by 4.51% and 0.93% with the network topology of CNN and Transformer respectively.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# TAPI: コードLLMに対するターゲット特化的かつ対向的なプロンプトインジェクションを目指して

TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs ( http://arxiv.org/abs/2407.09164v2 )

ライセンス: Link先を確認
Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren, (参考訳) 近年、コード指向の大規模言語モデル(Code LLM)は、コードプログラミングを簡素化し、促進するために広く使われ、成功している。 これらのツールを使えば、開発者は不完全なコードと自然言語プロンプトに基づいて、望まれる完全な関数コードを簡単に生成できる。 しかし、いくつかの先駆的な研究により、これらのコードLLMは、例えば、バックドアや敵の攻撃に対して脆弱であることが明らかとなった。 前者は、トレーニングデータやモデルパラメータを悪用することで、悪意のあるコードスニペットを挿入するトリガーに応答するためにLSMを誘導し、後者は、悪意のある逆入力コードを作成して、生成されたコードの品質を低下させる。 バックドアアタックはモデルトレーニングプロセスの制御に依存し、敵対的アタックは特定の悪意のある目的を達成するのに苦労する。 バックドア攻撃と対向攻撃の両方の利点を継承するために,コードLLMに対する新たな攻撃パラダイム,すなわち,ターゲット固有および対向的プロンプトインジェクション(TAPI)を提案する。 TAPIは悪意のある命令に関する情報を含む読めないコメントを生成し、それらを外部ソースコードのトリガーとして隠す。 トリガーを含むコードを完成させるためにCode LLMを利用すると、モデルは特定の場所で攻撃者が特定した悪意のあるコードスニペットを生成する。 重篤な3つの目的と7つの事例において,4つの代表的なLSMに対するTAPI攻撃を評価した。 その結果,攻撃成功率を最大89.3%向上させる) とステルスティ(平均53.1%のトークンをトリガー設計で保存する) を非常に脅かしていることがわかった。 特に、CodeGeexやGithub Copilotなど、デプロイされたコード補完統合アプリケーションに対する攻撃に成功しました。 これは我々の攻撃の現実的な脅威をさらに裏付ける。

Recently, code-oriented large language models (Code LLMs) have been widely and successfully used to simplify and facilitate code programming. With these tools, developers can easily generate desired complete functional codes based on incomplete code and natural language prompts. However, a few pioneering works revealed that these Code LLMs are also vulnerable, e.g., against backdoor and adversarial attacks. The former could induce LLMs to respond to triggers to insert malicious code snippets by poisoning the training data or model parameters, while the latter can craft malicious adversarial input codes to reduce the quality of generated codes. However, both attack methods have underlying limitations: backdoor attacks rely on controlling the model training process, while adversarial attacks struggle with fulfilling specific malicious purposes. To inherit the advantages of both backdoor and adversarial attacks, this paper proposes a new attack paradigm, i.e., target-specific and adversarial prompt injection (TAPI), against Code LLMs. TAPI generates unreadable comments containing information about malicious instructions and hides them as triggers in the external source code. When users exploit Code LLMs to complete codes containing the trigger, the models will generate attacker-specified malicious code snippets at specific locations. We evaluate our TAPI attack on four representative LLMs under three representative malicious objectives and seven cases. The results show that our method is highly threatening (achieving an attack success rate enhancement of up to 89.3%) and stealthy (saving an average of 53.1% of tokens in the trigger design). In particular, we successfully attack some famous deployed code completion integrated applications, including CodeGeex and Github Copilot. This further confirms the realistic threat of our attack.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15
# Spanning Trees を用いた自己批判による不均一な分子生成

Any-Property-Conditional Molecule Generation with Self-Criticism using Spanning Trees ( http://arxiv.org/abs/2407.09357v2 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Aristide Baratin, Kisoo Kwon, Boris Knyazev, Yan Zhang, (参考訳) 新規分子の生成は困難であり、ほとんどの表現は、多くの無効分子を生成する生成モデルに導かれる。 Spanning Tree-based Graph Generation (STGG)は、有効な分子の生成を保証するための有望なアプローチであり、非条件生成のための最先端SMILESおよびグラフ拡散モデルより優れている。 現実の世界では、無条件でではなく、1つまたは複数の所望の性質に条件付き分子を生成できることが望まれます。 そこで本研究では,STGGをマルチプロパティ条件生成に拡張する。 我々のアプローチであるSTGG+は、モダントランスフォーマーアーキテクチャ、トレーニング中のプロパティのランダムマスキング(プロパティの任意のサブセットと分類子なしガイダンスの呼び出し)、補助的なプロパティ予測損失(モデルを自己批判し、最良のものを選択することができる)、その他の改善を取り入れています。 この結果から,STGG+は分布内および分布外条件生成における最先端性能と報酬の最大化を達成できることが示唆された。

Generating novel molecules is challenging, with most representations leading to generative models producing many invalid molecules. Spanning Tree-based Graph Generation (STGG) is a promising approach to ensure the generation of valid molecules, outperforming state-of-the-art SMILES and graph diffusion models for unconditional generation. In the real world, we want to be able to generate molecules conditional on one or multiple desired properties rather than unconditionally. Thus, in this work, we extend STGG to multi-property-conditional generation. Our approach, STGG+, incorporates a modern Transformer architecture, random masking of properties during training (enabling conditioning on any subset of properties and classifier-free guidance), an auxiliary property-prediction loss (allowing the model to self-criticize molecules and select the best ones), and other improvements. We show that STGG+ achieves state-of-the-art performance on in-distribution and out-of-distribution conditional generation, and reward maximization.
翻訳日:2024-07-16 13:31:11 公開日:2024-07-15